고품질의 글인가에 대한 평가가 주관적인 경향이 들어가면서 사람 평가자 3명 사이에서도 일치율이 56% 정도로 높지 않지만, 클로바 gpt의 평가와 사람 평가 간의 일치율은 89% 정도로 매우 높아 쓸만하다는 결과가 나왔다고 합니다.
HyperClova X
https://campaign.nbilly.naver.com/clova-for-writing-with-smarteditor
8월에 인플루언서 위주로 테스터를 받았음. AI가 글을 잘못 쓰더라도 그냥 내보내지 않을 거기 때문에.
내년 3월 테스터 더 모집 예정. 미리 블로그 글 많이 써놓길 추천.
LLM에 있어서 가장 어려운 점은 평가하기
NMT, Classification은 정답이 있음. one to one mapping 그러나 writing은 one to multiple. 주관식.
어휘만 비슷하게 했다면 높은 점수
BLEU >30
전통적 지표 기반 평가 체계는 변별력이 없음. 사람 입장에서 품질이 분명 좋아졌는데 정체된 점수.
그럼 사람이 평가? Bias.
자주 정교하게 측정이 가능해야 기술이 발전할 수 있다.
LLM to the rescue for evaluation
bias mitigated evaluation.
두 개의 글이 차이가 많이 나면 - A가 좋아 B가 좋아 상대평가 Pairwise Comparison
고품질의 글 - 절대 평가
뒤에 오는 글을 더 좋게 평가 → 순서를 바꿔서 평가.
길게 쓸수록 좋게 평가.
self-enhancement bias - self generated writing
aspect: 문법 오류, 문장 부호, 논리흐름, 구조성, 어투, 스타일, 일관성, 주제 관련성, 페르소나 반영 등 총 7개 aspect, 17개 sub aspect
사람평가 - 60개 문항 3명 평가자(예산 때문에 3명). 비슷한 평가를 LLM이 보여주는가.
두 사람 평가자 컨센서스와 GPT4EVAL 간 일치률 89% 정도로 매우 높다. → 쓸만하다.
사람평가자 사이에서도 일치율이 56% 정도로 높지 않다.
C4W GPT4-32k EVAL 비용은 사람평가의 1/5배 비용
'IT.모바일' 카테고리의 다른 글
MacBook Air M1 초기화 셋업, 한국시간 설정 방법 (0) | 2024.02.03 |
---|---|
git 커밋 메세지 수정 방법 Visual Studio Code (0) | 2024.01.06 |
모든 주석 제거 방법 Visual Studio Code (0) | 2024.01.06 |
Visual Studio Code Git 커밋 익스텐션 5가지 (0) | 2023.12.31 |
Visual Studio Code에서 Flutter 프로젝트 | AVD 안드로이드 Emulator (0) | 2023.12.31 |
댓글