AI 평가를 볼 때 남겨야 할 것
AI 시스템을 평가할 때는 좋은 사례만 모으면 부족하다. 실패 사례, 평가 기준, 사람이 개입해야 하는 경계도 같이 기록해야 한다.
특히 LLM 기반 도구는 “그럴듯해 보이는 성공”과 “반복 가능한 품질” 사이의 간격이 크다. 그래서 평가 노트에는 최소한 다음이 남아야 한다.
- 어떤 입력에서 잘 작동했는가
- 어떤 입력에서 실패했는가
- 실패가 위험한가, 단순히 불편한가
- 사람의 검토가 필요한 지점은 어디인가
이 노트는 이후 Writing이나 Lab으로 발전할 수 있는 공개 조각이다.