본문 바로가기

IT.모바일

Clova AI 하이퍼클로바 X GPT

by FrankUniq 2024. 1. 14.
SMALL

고품질의 글인가에 대한 평가가 주관적인 경향이 들어가면서 사람 평가자 3명 사이에서도 일치율이 56% 정도로 높지 않지만, 클로바 gpt의 평가와 사람 평가 간의 일치율은 89% 정도로 매우 높아 쓸만하다는 결과가 나왔다고 합니다.

 

HyperClova X

https://campaign.nbilly.naver.com/clova-for-writing-with-smarteditor

8월에 인플루언서 위주로 테스터를 받았음. AI가 글을 잘못 쓰더라도 그냥 내보내지 않을 거기 때문에.

내년 3월 테스터 더 모집 예정. 미리 블로그 글 많이 써놓길 추천.

 

LLM에 있어서 가장 어려운 점은 평가하기

NMT, Classification은 정답이 있음. one to one mapping 그러나 writing은 one to multiple. 주관식.

어휘만 비슷하게 했다면 높은 점수

BLEU >30

전통적 지표 기반 평가 체계는 변별력이 없음. 사람 입장에서 품질이 분명 좋아졌는데 정체된 점수.

그럼 사람이 평가? Bias.

자주 정교하게 측정이 가능해야 기술이 발전할 수 있다.

LLM to the rescue for evaluation

bias mitigated evaluation.

두 개의 글이 차이가 많이 나면 - A가 좋아 B가 좋아 상대평가 Pairwise Comparison

고품질의 글 - 절대 평가

뒤에 오는 글을 더 좋게 평가 → 순서를 바꿔서 평가.

길게 쓸수록 좋게 평가.

self-enhancement bias - self generated writing

aspect: 문법 오류, 문장 부호, 논리흐름, 구조성, 어투, 스타일, 일관성, 주제 관련성, 페르소나 반영 등 총 7개 aspect, 17개 sub aspect

사람평가 - 60개 문항 3명 평가자(예산 때문에 3명). 비슷한 평가를 LLM이 보여주는가.

두 사람 평가자 컨센서스와 GPT4EVAL 간 일치률 89% 정도로 매우 높다. → 쓸만하다.

사람평가자 사이에서도 일치율이 56% 정도로 높지 않다.

C4W GPT4-32k EVAL 비용은 사람평가의 1/5배 비용

 

댓글