Clova AI 하이퍼클로바 X GPT

SMALL

고품질의 글인가에 대한 평가가 주관적인 경향이 들어가면서 사람 평가자 3명 사이에서도 일치율이 56% 정도로 높지 않지만, 클로바 gpt의 평가와 사람 평가 간의 일치율은 89% 정도로 매우 높아 쓸만하다는 결과가 나왔다고 합니다.

HyperClova X

8월에 인플루언서 위주로 테스터를 받았음. AI가 글을 잘못 쓰더라도 그냥 내보내지 않을 거기 때문에.

내년 3월 테스터 더 모집 예정. 미리 블로그 글 많이 써놓길 추천.

LLM에 있어서 가장 어려운 점은 평가하기

NMT, Classification은 정답이 있음. one to one mapping 그러나 writing은 one to multiple. 주관식.

어휘만 비슷하게 했다면 높은 점수

BLEU >30

전통적 지표 기반 평가 체계는 변별력이 없음. 사람 입장에서 품질이 분명 좋아졌는데 정체된 점수.

그럼 사람이 평가? Bias.

자주 정교하게 측정이 가능해야 기술이 발전할 수 있다.

LLM to the rescue for evaluation

bias mitigated evaluation.

두 개의 글이 차이가 많이 나면 - A가 좋아 B가 좋아 상대평가 Pairwise Comparison

고품질의 글 - 절대 평가

뒤에 오는 글을 더 좋게 평가 → 순서를 바꿔서 평가.

길게 쓸수록 좋게 평가.

self-enhancement bias - self generated writing

aspect: 문법 오류, 문장 부호, 논리흐름, 구조성, 어투, 스타일, 일관성, 주제 관련성, 페르소나 반영 등 총 7개 aspect, 17개 sub aspect

사람평가 - 60개 문항 3명 평가자(예산 때문에 3명). 비슷한 평가를 LLM이 보여주는가.

두 사람 평가자 컨센서스와 GPT4EVAL 간 일치률 89% 정도로 매우 높다. → 쓸만하다.

사람평가자 사이에서도 일치율이 56% 정도로 높지 않다.

C4W GPT4-32k EVAL 비용은 사람평가의 1/5배 비용

MacBook Air M1 초기화 셋업, 한국시간 설정 방법 (0)	2024.02.03
git 커밋 메세지 수정 방법 Visual Studio Code (0)	2024.01.06
모든 주석 제거 방법 Visual Studio Code (0)	2024.01.06
Visual Studio Code Git 커밋 익스텐션 5가지 (0)	2023.12.31
Visual Studio Code에서 Flutter 프로젝트 \| AVD 안드로이드 Emulator (0)	2023.12.31

May Your Days Bueno