TIL
3.20 D+10
썬2
2024. 3. 22. 09:25
semantic entropy
같은 의미를 갖는 것끼리 클러스터링하고, 그 클러스터링끼리 엔트로피를 구한다.
Honesty Alignment
모델의 internal working(모델이 지식을 아는지, 모르는지)를 몰라서 모델의 honest를 판단하기 어렵다.
모델의 output을 보고 uncertainty를 판단할 수 있다. 특정 threshold 보다 낮으면 “idk response”
모델이 instruction tuning data에 대해는 학습되지 않아서 모른다고 학습을 한다.
언어 불확실성에 calibration을 바로 적용하는 것은 어렵다.
LLM에서도 calibration 연구가 이루어지고 있는데, 궁극적으로 classification에 적용한다.
mmlu는 language understanding을 평가하는 테스크이다. long-form generation에는 신뢰성이 부족해서 uncertainty에 더 적합하다.