Risks of Large Language Models
https://www.youtube.com/watch?v=r4kButlDLUc
Risks | Strategies |
Hallucinations - falsehoods |
Explainability |
Bias | Culture and Audits |
Consent - copyright issues |
Accountability |
Security - jailbreaking - indirect prompt injection |
Education |
AI Hallucinations (환각)
인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다.
인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다.
사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다.
잘못된 답변은 statistical error(통계적 오류) 입니다.
Bias (편향)
불완전한 데이터는 AI의 편향을 초래할 수 있습니다.
학습한 데이터에 편향이 존재하는 경우, 인공지능의 답변에 편향이 존재할 수 있습니다.
예를 들어, AI는 때때로 모든 의사가 남자라고 생각합니다.
Consent (동의)
다음은 세부적으로 이해하기 쉽고 이해하기 쉬운 팩트 시트에 포함되어야 합니다.
- 큐레이팅하는 데이터가 대표적입니까?
- 동의하에 수집되었습니까?
- 저작권 문제가 있습니까?
종종 우리는 대규모 언어 모델의 훈련 데이터가 어디에서 수집되어 있는지 모르는 경우가 있습니다.
Security
Jailbreaking
해커는 AI 모델을 통해 원래 프로그래밍을 변경하고 인종 차별과 같은 것을 지지하고 사람들이 불법적인 일을 하도록 제안합니다.
Indirect prompt injection
이것은, 제3자가 웹사이트를 변경하고 숨겨진 데이터를 추가하여 AI의 동작을 변경합니다.
AI에 의존하는 자동화는 잠재적으로 사용자가 인지하지 못하는 사이에 악의적인 지침을 보낼 수 있습니다.
Strategies
Explainability
인라인 설명 기능을 제공하고 지식 그래프를 통해 실제 데이터 및 데이터 계보 및 출처를 제공하는 시스템과 대규모 언어 모델을 결합할 수 있습니다.
- 모델이 방금 말한 것을 왜 말했습니까?
- 어디에서 데이터를 가져왔습니까?
- 데이터의 소스는 무엇입니까?
대규모 언어 모델은 지식 그래프에서 제공한 답변에 대한 변형을 제공할 수 있습니다.
Culture and Audits
문화는 아무도 보고 있지 않을 때 사람들이 하는 것입니다.
AI는 우리 자신의 편견에 대한 훌륭한 거울이기 때문에 AI에 대해 작업하는 본질적으로 다양하고 여러 분야의 팀이 필요합니다.
AI 모델에 대한 감사 결과를 가지고 이질적인 결과가 있을 때 우리 자신의 조직 문화를 수정하십시오.
사전 모델 배포와 사후 모델 배포를 감사하십시오.
Accountability
데이터 동의 관련 위험을 완화하려면 감사(auditing)와 책임(accountability)을 결합한 노력이 필요합니다.
책임에는 AI 거버넌스 프로세스 설정, 기존 법률 및 규정 준수 확인, 사람들이 피드백을 통합할 수 있는 방법 제공이 포함됩니다.
대규모 언어 모델은 사람들의 개인 정보 유출, 피싱, 스팸, 사기를 돕는 등 모든 종류의 악의적인 작업에 사용될 수 있습니다.
Education
완전히 새로운 대규모 언어 모델을 교육하는 것은 뉴욕과 베이징 사이를 왕복하는 1000번 이상의 항공편만큼 많은 탄소를 생성합니다.
이것은 이러한 기술의 강점과 약점을 아는 것이 중요하다는 의미입니다.
이는 AI의 책임 있는 큐레이션, 위험, 환경 비용, 안전 장치 및 기회에 대한 원칙에 대해 직원을 교육하는 것을 의미합니다.
일부 기술 회사는 대규모 언어 모델 학습 데이터가 악의적으로 변조되지 않았다고 믿고 있습니다.
그러나, 충분한 예제로 데이터 세트를 오염시키면 대규모 언어 모델의 동작과 출력에 영원히 영향을 미칠 수 있습니다.
'Generative AI > Language Model' 카테고리의 다른 글
[Metrics] ROUGE score, text 생성 타스크 평가 지표 (0) | 2023.08.07 |
---|---|
[Large Language Model] Hallucination (환각) (0) | 2023.08.03 |
[LLM] 업스테이지 모델, ‘허깅페이스 오픈 LLM 리더보드’서 세계 1위 (0) | 2023.08.02 |
LangChain for LLM Application Development (0) | 2023.07.17 |
[Generative AI][Large Language Model] State of GPT (0) | 2023.07.17 |