AI Hallucination (환각)
인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다.
인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다.
사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다.
잘못된 답변은 statistical error(통계적 오류) 입니다.
https://www.youtube.com/watch?v=cfqtFvWOfg0
What hallucination is
환각은 사실이나 맥락 논리에서 벗어난 LLM의 출력이며 사소한 불일치에서 완전히 조작되거나 모순된 진술에 이르기까지 다양할 수 있습니다.
sentence contradiction (문장 모순)
이것은 LLM이 이전 문장 중 하나와 모순되는 문장을 생성하는 것입니다.
- The sky is blue today.
- The sky is green today.
prompt contradiction (프롬프트 모순)
이것은 생성된 문장이 그것을 생성하는 데 사용된 프롬프트와 모순되는 것입니다.
LLM에게 식당에 대한 긍정적인 리뷰를 작성해달라고 요청할 때 "음식은 형편없고 서비스는 무례했습니다."
factual contradiction (사실적 모순)
사실적 오류 환각(factual error hallucinations)라고도 불리는 사실적 모순은 LLM의 답변이 틀렸다는 사실에 절대적으로 못 박힌 것입니다.
nonsense
무의미하거나 관련 없는 종류의 정보 기반 환각
"프랑스의 수도는 파리입니다. 파리는 또한 유명한 가수의 이름입니다."
Why Large Language Models Hallucinate
Data Quality
LLM 모델은 노이즈, 에러, 편향 또는 불일치하는 텍스트들을 포함한 대량의 코퍼스로 학습하였습니다.
예를 들어, 어떤 LLM들은 Wikipedia 또는 Reddit의 모든 것을 스크래핑해서 학습합니다.
데이터가 모두 정확한 사실을 근거로 수집되었다 하더라도, 모든 주제와 도메인에 해당되는 데이터로 학습하거나 커버할 수는 없습니다.
그래서, LLM은 데이터의 정확성이나 관련성을 확인할 수 없는 상태에서 데이터를 일반화할 수 있습니다.
Generation Method
LLM은 다양한 방법과 목표를 사용하여 빔 검색, 샘플링, 최대 우도 추정 또는 강화 학습과 같은 텍스트를 생성합니다.
그리고 이러한 방법과 목표는 유창함(fluency)과 다양성(diversity), 일관성(coherence)과 창의성(creativity), 정확성(accuracy)과 참신함(novelty) 사이에 편향(bias)과 절충점(tradeoff)을 도입할 수 있습니다.
Input Context
컨텍스트는 모델에 입력 프롬프트로 제공되는 정보를 나타냅니다.
컨텍스트는 관련성 있고 정확한 출력을 생성하도록 모델을 안내하는 데 도움이 될 수 있지만, 불명확하거나 일관성이 없거나 모순되는 경우 모델을 혼란스럽게 하거나 오도할 수도 있습니다.
컨텍스트는 중요하며 학술 에세이나 창의적인 글쓰기 연습에 적합한 생성된 텍스트를 찾고 있다고 말하지 않으면 해당 컨텍스트 내에서 응답할 것으로 기대할 수 없습니다.
Minimize hallucinations
명확하고 구체적인 프롬프트 제공
입력 프롬프트가 더 정확하고 상세할수록 LLM이 관련성이 높고 가장 중요하게는 정확한 출력을 생성할 가능성이 높아집니다.
Active mitigation strategies (적극적인 완화 전략)
생성 중에 LLM이 작동하는 방식의 매개변수를 제어하는 설정과 같은 일부 LLM 설정을 사용합니다.
이에 대한 좋은 예는 출력의 임의성을 제어할 수 있는 온도(temperature) 매개변수입니다.
낮은 온도는 보다 보수적이고 집중적인 반응을 생성하고 높은 온도는 보다 다양하고 창의적인 반응을 생성합니다.
높은 온도는 hallucination을 발생시킬 가능성을 가집니다.
multi-shot prompting
LLM에게 원하는 출력 포맷 또는 컨텍스트의 다양한 예시를 제공
'Generative AI > Language Model' 카테고리의 다른 글
Model Quantization (양자화) (0) | 2024.04.09 |
---|---|
[Metrics] ROUGE score, text 생성 타스크 평가 지표 (0) | 2023.08.07 |
Risks of Large Language Models (대규모 언어 모델의 위험) (0) | 2023.08.03 |
[LLM] 업스테이지 모델, ‘허깅페이스 오픈 LLM 리더보드’서 세계 1위 (0) | 2023.08.02 |
LangChain for LLM Application Development (0) | 2023.07.17 |