데이터와 인공지능 훑어보기

[금융 시스템] 금융권 IT시스템에 대한 이해

데이터 세상 — Wed, 5 Nov 2025 23:55:01 +0900

채널계 (Channel System)

최종 사용자가 사용하는 다양한 접속 채널을 담당하는 시스템입니다.

고객이 직접 접하는 인터넷뱅킹, 텔레뱅킹, 모바일 앱 등 다양한 비대면 채널을 관리합니다.

채널계와 대외계는 모두 외부와 연계되는 만큼 DMZ 구간에 구성해 내부 시스템과 분리됩니다.

대외계 (External System)

금융 기관과 외부 기관 또는 시스템 간의 연계를 위한 시스템입니다. 각 금융기관의 대내외 망을 연결하는 시스템으로, 외부 금융 네트워크와의 연동, 결제 시스템, 신용평가 기관과의 데이터 공유 등을 포함할 수 있습니다.

금융 기관은 다른 기관과의 상호 운영 및 데이터 교환을 원활하게 할 수 있습니다. 전자금융, 사이버 증권, 기업 뱅킹, 신용 정보 등의 채널을 통합적으로 관리합니다.

이에는 외환 거래, 국제 송금, 대외 결제, 정부나 다른 금융 기관과의 보고 및 조정 작업 등이 포함됩니다.

기간계 (Core Banking System)

은행이나 금융 기관의 핵심 시스템으로, 은행 계좌 관리, 입출금, 대출, 이체, 이자 계산 등 핵심적인 금융 업무를 처리하는 시스템입니다.

기간계는 계정계, 정보계, 운영계와도 연계되어 작동합니다.

계정계 (Accounting System)

금융 기관의 핵심 업무 처리 시스템으로, 주로 재무 관련 업무를 담당합니다.

이 시스템은 예금, 대출, 투자와 같은 기본적인 금융 거래를 처리하며, 이에 따른 계정 관리, 잔액 관리, 이자 계산 등을 수행합니다. 계정계는 금융 기관의 기본적인 거래 기록을 유지하고, 재무 보고와 감사를 위한 필수적인 데이터를 제공합니다.

금융권 영업점에서 실시간으로 고객의 거래를 처리합니다.

정보계 (Information System)

금융 기관의 내부 업무 처리와 관리를 위한 시스템입니다. 고객 정보 관리, 계정 정보, 거래 내역, 보안 및 인증, 데이터 분석 및 내부 보고 등을 다룹니다.

거래 데이터를 관리하고, 거래 활동을 분석하며 측정하고, 저장된 데이터를 활용하여 앞으로의 예측, 결산, 분석 등의 업무를 처리합니다.

이 시스템은 주로 내부 직원들에 의해 사용됩니다.

운영계 (Operational System)

금융 기관의 일상적인 내부 운영 업무를 지원하는 시스템입니다.

이 시스템은 인사 관리, 자산 관리, 공급망 관리, 시설 관리 등과 같은 비금융적인 업무를 처리합니다.

운영계는 금융 기관의 내부 프로세스를 효율화하고, 조직의 전반적인 운영 효율성을 향상시키는 데 중점을 둡니다.

MoE(Mixture of Experts)

데이터 세상 — Wed, 15 Oct 2025 20:49:55 +0900

MoE(Mixture of Experts), 전문가 조합 모델

전문가 조합(MoE)은 1991년 Jacobs 등이 처음 제한한 고전적인 앙상블 기법입니다.

논문: 로컬 전문가의 적응형 조합(Adaptive Mixture of Local Experts)

MoE layer from the Outrageously Large Neural Network paper

인공 지능 모델을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크(또는 '전문가')로 나누어 작업을 공동으로 수행하는 머신 러닝 접근 방식입니다.

즉, 하나의 거대 모델이 모든 데이터를 처리하는 대신 여러 개의 작은 '전문가' 모델들이 입력 데이터의 일부에만 특화되어 작동하는 방식입니다.

전문가 조합 아키텍처를 활용하면 수십억 개의 매개변수로 구성된 대규모 모델도 사전 학습 중 계산 비용을 크게 줄이고 추론 시간 동안 더 빠른 성능을 달성할 수 있습니다. 광범위하게 말하면 모든 작업에 대해 전체 신경망을 활성화하는 대신 특정 작업에 필요한 특정 전문가만 선택적으로 활성화함으로써 이러한 효율성을 달성합니다.

이 구조는 게이트 네트워크가 각 입력 데이터를 적합한 전문가에게 라우팅하고, 해당 전문가의 결과만 결합하여 사용하는 희소(sparse) 방식입니다. 따라서 모델의 전체 파라미터 수는 늘어나지만, 한 번의 추론에 사용되는 연산량은 줄어들어 효율성을 극대화할 수 있습니다.

MoE 모델 동작 원리

MoE 모델은 큰 신경망 내에서 각각 자체 하위 네트워크인 여러 '전문가'를 지정하고 주어진 입력에 가장 적합한 특정 전문가만 활성화하도록 게이팅 네트워크(또는 라우터)의 학습을 진행하여 데이터를 처리합니다.

MoE 접근 방식의 주요 이점은 각 입력 토큰에 대해 전체 신경망을 활성화하는 대신 희소성을 적용함으로써 기본적으로 계산 비용을 일정하게 유지하면서 모델 용량을 늘릴 수 있다는 것입니다.

아키텍처 수준에서 이는 기존의 밀집 FFN(피드포워드 네트워크) 레이어를 희소 MoE 레이어(또는 블록)로 대체하여 구현됩니다. 신경망 용어에서 '블록'은 특정 기능을 수행하는 반복되는 구조적 요소를 나타냅니다. 희소 MoE 모델(SMoE)에서 이러한 전문가 블록은 단일 계층, 독립형 FFN 또는 그 자체로 중첩된 MoE일 수 있습니다.

예를 들어, Mistral의 Mixtral 8x7B 언어 모델에서 각 계층은 8개의 피드포워드 블록, 즉 전문가로 구성되며 각 블록에는 70억 개의 매개변수가 있습니다. 모든 토큰에 대해 각 계층에서 라우터 네트워크는 데이터를 처리할 8명의 전문가 중 2명을 선택합니다. 그런 다음 이 두 전문가의 출력을 결합하고 결과를 다음 계층으로 전달합니다. 지정된 레이어에서 라우터가 선택한 특정 전문가는 이전 또는 다음 레이어에서 선택한 전문가와 다를 수 있습니다.

Mixtral 8x7B 모델에 대한 가능한 해석

단순화된 Mixtral 8x7B 모델 아키텍처

핵심 원리

전문가(Expert) 네트워크: 특정 작업에 특화된 여러 개의 신경망으로 구성됩니다.
게이트(Gate) 네트워크: 입력 데이터가 어떤 전문가에게 가동되어야 할지 결정하고, 각 전문가의 출력에 대한 가중치를 부여합니다.

작동 방식

입력 데이터가 게이트 네트워크를 통과합니다.
게이트 네트워크는 입력에 따라 하나 이상의 전문가를 선택합니다.
선택된 전문가들이 데이터를 처리하고, 결과는 게이트 네트워크가 정한 가중치에 따라 결합되어 최종 출력을 생성합니다.

장점

연산 효율성: 입력 데이터마다 일부 전문가만 활성화되므로, 모델 크기가 커져도 추론에 드는 계산 비용을 절감할 수 있습니다.
모델 용량 확장: 계산 오버헤드 부담을 최소화하면서 모델의 전체 용량을 크게 확장할 수 있습니다.
성능 향상: 특정 데이터 유형에 특화된 전문가들이 전문성을 발휘하여 전체 모델의 성능을 높일 수 있습니다.

활용 분야

대규모 언어 모델(LLM)을 포함한 다양한 딥러닝 응용 분야에서 효율성과 성능을 높이기 위해 널리 활용되고 있습니다.
특히 Mistral AI의 Mistral 7B 모델처럼 여러 개의 작은 모델을 MoE 구조로 결합하는 방식이 주목받고 있습니다.

References

AI Agent Framework (CrewAI, Autogen, LangGraph)

데이터 세상 — Thu, 5 Jun 2025 14:39:46 +0900

CrewAI Framework

https://docs.crewai.com/introduction

Introduction - CrewAI

While Crews excel at autonomous collaboration, Flows provide structured automations, offering granular control over workflow execution. Flows ensure tasks are executed reliably, securely, and efficiently, handling conditional logic, loops, and dynamic stat

docs.crewai.com

개요

CrewAI는 자율 AI 에이전트의 오케스트레이션을 위해 설계된 Python 기반 오픈소스 프레임워크입니다. 사용 편의성과 신속한 프로토타입 제작에 중점을 두고 복잡한 작업을 완료하기 위해 AI 에이전트 간의 원활한 협업을 가능하게 합니다.

핵심 기능

LangChain 위에 구축
협업적으로 작업하는 역할 정의 AI 에이전트
각 에이전트는 공통 목표를 달성하기 위해 고유한 기술을 제공

주요 차별화 요소

신속한 프로토타입 제작: 빠른 설정 및 반복
간소화된 개발: 사용하기 쉬운 워크플로우 관리
협업 에이전트 프레임워크: ”crew"로 작업하는 자율 에이전트

Autogen Framework

https://microsoft.github.io/autogen/stable//index.html

AutoGen — AutoGen

An event-driven programming framework for building scalable multi-agent AI systems. Example scenarios: Deterministic and dynamic agentic workflows for business processes. Research on multi-agent collaboration. Distributed agents for multi-language applicat

microsoft.github.io

개요

AutoGen은 여러 에이전트가 있는 AI 시스템의 생성 및 관리를 간소화하도록 설계된 오픈소스 프레임워크입니다. 신뢰성과 오류 처리에 초점을 맞춘 복잡하고 협업적인 AI 애플리케이션을 개발할 수 있습니다.

핵심 기능

엔터프라이즈급 안정성을 위해 설계
회복성 있는 AI 시스템을 위한 강력한 오류 처리
복잡하고 협업적인 AI 애플리케이션을 구축하는 데 이상적

주요 차별화 요소

엔터프라이즈급 안정성
강력한 오류 처리
복구 메커니즘

LangGraph Framework

https://www.langchain.com/langgraph

LangGraph

Build controllable agents with LangGraph, our low-level agent orchestration framework. Deploy and scale with LangGraph Platform, with APIs for state management, a visual studio for debugging, and multiple deployment options.

www.langchain.com

개요

LangGraph는 그래프 기반 실행 모델을 사용하여 다중 에이전트 AI 시스템을 구축하고 워크플로우를 자동화하기 위한 오픈 소스 프레임워크입니다. LangChain의 확장으로 구축되어 에이전트 간의 동적이고 상태가 있는 상호 작용을 가능하게 합니다.

핵심 기능

그래프 기반 실행 모델: 노드는 동작을 나타내고, 에지는 정보 흐름을 정의
다중 에이전트 협업: 복잡한 작업을 위한 에이전트 간의 원활한 팀워크
세분화된 제어: 에이전트 상호 작용 패턴에 대한 정확한 제어

주요 차별화 요소

복잡한 워크플로의 오케스트레이션
에이전트 상호 작용 제어
고급 워크플로우 관리

AI Agent 기본 개념과 고려 사항

데이터 세상 — Thu, 5 Jun 2025 14:22:33 +0900

Agentic AI

Agentic AI는 AI 에이전트들로 이루어져, 최소한의 감독만으로 목표를 달성하는 프레임워크입니다.

멀티에이전트 시스템에서 각 에이전트는 목표에 도달하는 데 필요한 특정 하위 작업을 수행합니다.

AI Agent

AI 에이전트는 (인간 또는 다른 에이전트의) 요청을 이해하고, 계획하고, 실행하기 위해 자율적으로 동작하는 애플리케이션을 의미합니다.

AI 에이전트는 LLM을 사용하여 추론하고, 도구, 다른 모델 및 기타 IT 시스템과 연동하여 사용자 목표를 달성할 수 있습니다.

이러한 에이전트는 소프트웨어 설계, IT 자동화, 코드 생성 도구, 대화형 어시스턴트 등 다양한 기업 환경에서 복잡한 작업을 해결하는 데 배치될 수 있습니다.

LLM to Agentic AI

AI Agent 동작 원리

AI Agent

데이터 수집 및 인식

AI 에이전트는 고객 상호작용, 거래 기록, 소셜 미디어 등 여러 소스에서 정보를 수집하는 것으로 시작합니다.
이 데이터는 사용자 의도와 맥락을 이해하는 데 도움이 됩니다.
고급 에이전트는 실시간 데이터를 처리하여 정확하고 최신 응답을 제공할 수 있습니다.

의사 결정

강력한 머신 러닝 모델을 활용하여 AI 에이전트는 수집된 데이터를 분석하여 패턴을 감지하고 최상의 행동 방향을 결정합니다.
예를 들어, 이전 상호작용과 현재 상황을 기반으로 고객 문의에 가장 적합한 답변을 선택할 수 있습니다. 과거 경험에서 배우면서 시간이 지남에 따라 의사 결정 능력이 향상됩니다.

작업 실행

결정을 내린 후 AI 에이전트는 고객에게 응답하거나, 요청을 처리하거나, 복잡한 사례를 인간 담당자에게 전달하는 등 필요한 작업을 수행합니다.
이 실행은 사용자가 적시에 정확한 지원을 받을 수 있도록 속도와 효율성을 위해 설계되었습니다.

지속적인 학습 및 개선

AI 에이전트는 각 상호작용에서 학습하여 알고리즘을 지속적으로 개선합니다. 그들은 지식 기반을 업데이트하고 피드백을 통합하여 미래 성과를 향상시킵니다.
이 지속적인 학습 프로세스는 사용자 기대와 비즈니스 요구 사항이 진화하더라도 적응력과 효율성을 유지합니다.

Multi-AI Agents

Evolution of assistants

MAS(Multi Agent System)라고도 하는 멀티 에이전트 시스템은 특정 작업을 해결하기 위해 함께 작동하는 AI 에이전트 시스템입니다.

독립적으로 혼자 작업하는 단일 AI 에이전트와 달리 MAS는 여러 에이전트가 함께 작업하여 작업을 해결합니다.

Example: 마케팅 캠페인을 시작하는 것과 같은 복잡한 작업이 주어지면 멀티 에이전트 접근 방식은 이를 서로 다른 전문 에이전트가 처리하는 하위 작업으로 나눕니다.

시장 조사 에이전트 - 추세, 경쟁자 및 타겟 고객 통찰력을 분석합니다.
콘텐츠 생성 에이전트 - 광고 카피, 블로그 게시물 및 소셜 미디어 콘텐츠를 생성합니다.
SEO 및 광고 최적화 에이전트 - 키워드를 정제하고 입찰을 조정하여 가시성을 높입니다.
참여 에이전트 - 고객 상호 작용을 모니터링하고 문의에 응답합니다.
분석 에이전트 - 캠페인 성과를 추적하고 개선 사항을 제안합니다.

이러한 AI 에이전트는 함께 작업하여 마케팅 노력을 자동화하고 최적화하여 더 나은 도달 범위와 더 높은 참여를 보장할 수 있습니다.

Multi AI Agent 구축을 위한 모델

목표 정의

에이전트가 해결해야 할 문제를 명확하게 식별합니다.
AI 시스템에 대한 구체적인 목표를 설정합니다.

프로세스 계획

AI 에이전트가 목표에 도달하기 위해 따라야 할 단계를 설명합니다.
작업 간의 논리적 흐름을 보장합니다.

적절한 에이전트 식별

필요한 역할과 전문성을 고려합니다 (예: 연구원, 데이터 분석가, 의사 결정자).
기술 세트에 따라 전문 에이전트를 할당합니다.

책임 할당

목표를 각 에이전트의 구체적인 작업으로 나눕니다.
중복을 피하기 위해 명확한 경계를 정의합니다.

에이전트에게 도구 제공

적절한 도구와 API(예: LLM, 데이터베이스, 웹 스크래퍼)를 제공합니다.
에이전트가 효과적으로 소통하고 정보를 공유할 수 있도록 합니다.

최적화 및 반복

에이전트 성과에 따라 워크플로를 지속적으로 개선합니다.
효율성을 높이기 위해 피드백 루프를 통합합니다.

AI Agent의 이점

향상된 사용자 경험: 일반적으로 학습 및 주기적인 재교육을 위해 인간 입력 필요
TCO(Total Cost of Ownership, 총 소유 비용) 절감: AI에 의존하여 어려운 작업을 수행하고, 쉽게 확장 가능하며, 인간의 개입 없이도 작업 전반에 걸쳐 확장 가능
민첩성과 유연성: AI 에이전트 오케스트레이션을 통해 조직은 시장 상황이 변화함에 따라 운영을 신속하게 적응

AI Agent 개발 어려움

AI Agent는 전 분야에 걸쳐 생산성 향상을 주도할 것으로 예측되고 있습니다.

그러나, AI Agent를 개발하는 데에는 기술적인 복잡성이 존재합니다.

관찰, 디버깅, 평가 및 모니터링

에이전트는 의사결정 행동에 대한 텔레메트릭(원격 측정 데이터)를 수집하고, 성능 및 출력 관련 문제를 조사 및 해결하며, 벤치마크와 성능을 비교하고, 비정상 상황에 대한 알림을 설정해야 합니다.

API 통합의 복잡성

AI 에이전트는 여러 시스템 간의 인증 관리를 필요로 하며, 도구 간에 데이터를 일관성 있게 전달하고 최적화해야 합니다.

오케스트레이션의 복잡성

에러 처리는 사람이 개입해야 하는 경우가 많아 이를 정의해야 하며, 반사(reflection) 및 롤백(rollback) 방식에는 보호 장치(guardrails)의 구현이 필요합니다.

AI Agent를 개발하기 위해 기업이 고려해야 할 사항

고품질의 AI 에이전트를 신속하게 개발하기 위해서는 다음의 사항들을 고려해야 합니다.

가치 실현 시간 (Time to Value)

사전 구축된 도구를 통해 신속한 실험과 원클릭 배포를 지원하여 가치 실현 시간을 단축해야 합니다.

고품질 (HIgh Quality)

성능이 뛰어나고, 신뢰할 수 있으며, 신뢰할 수 있는 고품질의 에이전트를 개발해야 합니다.

확장성 (Scalable)

수백 또는 수천 명의 에이전트로 확장 가능해야 합니다.

엔터프라이즈급 (Enterprise-ready)

비즈니스 시스템, 데이터 및 프로세스와의 통합을 관리해야 합니다.

Agentic vs Generative vs Traditional AI

특징	Agentic AI	Generative AI	Traditional AI
정의	자율적으로 행동하고, 결정을 내리며, 목표에 따라 변화하는 환경에 적응할 수 있는 AI 시스템	텍스트, 이미지 또는 데이터와 같은 새로운 콘텐츠를 생성하는 AI 시스템	데이터에서 패턴을 인식하고 예측 또는 분류를 수행하는 AI 시스템
핵심 능력	인간의 감독 없이 자율적인 의사 결정 및 작업 실행	학습된 데이터 패턴(예: 텍스트, 이미지 또는 모델)을 기반으로 한 콘텐츠 생성	데이터 분석, 패턴 인식 및 예측 모델링
예시	자율 마케팅 시스템, 비즈니스 프로세스의 지능형 에이전트	텍스트 생성을 위한 GPT-4, 이미지 생성을 위한 DALL-E	사기 탐지와 같은 특정 작업을 위한 회귀 모델, 의사 결정 트리 및 신경망
목표	목표에 따라 문제를 독립적으로 해결하고 조치를 취함	학습된 패턴을 기반으로 새롭고 현실적인 결과 생성	데이터에서 패턴을 찾아 과거 데이터를 기반으로 예측 또는 결정
인간 상호 작용	최소한으로 설계되어 제한된 인간 입력으로 자율적으로 작동	학습된 패턴을 기작업에 따라 인간 프롬프트 없이 또는 함께 작동 가능 반으로 새롭고 현실적인 결과 생성	일반적으로 학습 및 주기적인 재교육을 위해 인간 입력 필요

LlamIndex (라마인덱스)

데이터 세상 — Thu, 12 Sep 2024 21:37:13 +0900

LlamIndex (라마 인덱스)

https://docs.llamaindex.ai/en/stable/

LlamaIndex - LlamaIndex

Welcome to LlamaIndex ! LlamaIndex is a framework for building context-augmented generative AI applications with LLMs including agents and workflows. Introduction What is context augmentation? What are agents and workflows? How does LlamaIndex help bu

docs.llamaindex.ai

LlamaIndex is a data framework for building context-augmented generative AI applications with LLMs including agents and workflows.

LLM 애플리케이션을 위한 데이터 프레임워크로, 몇 줄의 코드만으로 시작하여 몇 분 안에 RAG 시스템을 구축할 수 있습니다.

고급 사용자를 위해 LlamaIndex는 데이터 수집 및 색인화를 위한 풍부한 툴킷, 검색 및 재순위를 위한 모듈, 맞춤형 쿼리 엔진 구축을 위한 컴포저블 구성 요소를 제공합니다.

LlamaIndex는 RAG 스택 개발을 주도하고 있습니다.

Indexing: 지식창고에서 데이터를 로드하고 색인화하는 방법
Querying: 데이터를 표면화하여 모델 컨텍스트에 맞추는 방법

Indexing

모든 소스에서 RAG knowledge base로 데이터를 가져오려면 몇 가지 도구를 활용할 수 있습니다

Documents/Nodes: 문서는 모든 데이터 소스(예: PDF, API 출력 또는 데이터베이스에서 검색된 데이터)를 둘러싼 일반적인 컨테이너입니다. 노드는 LlamaIndex에서 데이터의 원자 단위로, 소스 문서의 '청크'(즉, 하나의 문서에 많은 노드가 있음)와 다른 노드 객체와의 관계를 나타냅니다.
Data Connectors: 데이터 커넥터는 다양한 소스에서 데이터를 수집하여 이를 문서 표현(텍스트 및 간단한 메타데이터)으로 변환합니다. 이러한 커넥터는 LlamaHub를 통해 제공되며, 현재 200개가 넘는 커넥터가 있습니다.
Data Indexes: 데이터를 수집한 후에는 데이터를 검색하기 쉬운 형식으로 색인화할 수 있도록 LlamaIndex가 도와줍니다. 다양한 유형의 인덱스(요약, 트리, 벡터 등)가 있습니다. 내부적으로 LlamaIndex는 원시 문서를 중간 표현으로 파싱하고, 벡터 임베딩을 계산하고, 메타데이터를 유추합니다. 가장 일반적으로 사용되는 인덱스는 VectorStoreIndex이며, 이 인덱스는 시중의 모든 벡터 스토어와 쌍을 이룰 수 있습니다(예: Chroma)

Querying

쿼리 단계에서 RAG 파이프라인은 사용자의 프롬프트에서 가장 관련성이 높은 컨텍스트를 가져와 LLM에 전달합니다. 이를 통해 LLM은 기본 학습 데이터를 넘어선 최신/개인 지식을 갖추게 됩니다. LlamaIndex는 Q&A, 챗봇 또는 상담원 사용을 위한 RAG 경로를 구축하는 데 적합한 적응형 모듈을 제공하며, 각 경로마다 요구 사항이 다르기 때문입니다. 예를 들어 챗봇은 사용자가 후속 질문으로 개입해야 하는 반면, 상담원은 사용자의 개입 없이 스스로 전체 작업을 수행하려고 시도합니다.

Building Blocks

Retrievers: 검색기는 쿼리가 주어졌을 때 지식창고(즉, 색인)에서 관련 컨텍스트를 효율적으로 검색하는 방법을 정의합니다. 벡터 인덱스가 가장 많이 사용되는 모드이지만 요약, 트리, 키워드 테이블, 지식 그래프 및 문서 요약과 같은 다른 옵션도 있습니다.
Node Postprocessors: 리트리버가 노드 개체를 다시 가져오면 유사도가 낮은 개체를 버리는 등의 추가 작업을 수행해야 합니다. 여기에도 '유사도 포스트프로세서'(즉, 특정 유사도 점수 이하의 노드를 삭제하는 것)나 '롱컨텍스트 재정렬' 등 많은 옵션이 있으며, 이는 '중간에서 길을 잃은, U자형 기억 곡선' 논문에서 제기된 문제를 방지하는 데 도움이 됩니다.
Reponse Synthesizers(응답 합성기): 사용자 쿼리와 검색된 청크, 프롬프트 및 LLM을 가져옵니다. 여기에는 철저함과 간결함의 균형을 맞추는 몇 가지 응답 모드가 있습니다.

Pipelines

쿼리 엔진: 쿼리 엔진은 데이터에 대해 질문할 수 있는 엔드투엔드 파이프라인입니다. 자연어 쿼리를 받아 검색된 참조 컨텍스트와 함께 응답을 반환하고 LLM에 전달합니다. 이를 통해 Panda 데이터 프레임을 데이터 소스로 활용하여 "팬더에게 질문하기"와 같은 작업을 수행할 수 있습니다.
채팅 엔진: 채팅 엔진은 데이터와 대화하기 위한 엔드투엔드 파이프라인입니다(단일 질문과 답변이 아닌 여러 번의 주고받기). 이는 기존의 OpenAI 스타일 채팅 인터페이스뿐만 아니라 ReAct. 에이전트와 같은 고급 채팅 인터페이스도 지원합니다
에이전트: 일련의 도구를 통해 세상과 상호작용하는 자동화된 의사 결정자(LLM에 의해 구동됨)입니다. 에이전트는 쿼리 엔진이나 채팅 엔진과 같은 방식으로 사용될 수 있지만, 데이터를 읽고 쓸 수 있는 기능이 있습니다. 추론에는 OpenAI 함수 또는 ReAct를 사용할 수 있습니다. 두 가지 모두 추가 분석을 위해 LlamaHub를 통해 제공되는 도구를 활용할 수 있습니다.

LlamaIndex 주요 기능

Agent

에이전트는 연구, 데이터 추출 등과 같은 작업을 수행하는 도구를 사용하는 LLM 기반의 지식 도우미입니다.

에이전트는 단순한 질문 답변부터 작업을 완료하기 위해 감지, 결정 및 조치를 취할 수 있는 기능까지 다양합니다.

LlamaIndex는 작업을 완료하기 위한 여러 도구 중 하나로 RAG 파이프라인을 사용하는 기능을 포함하여 에이전트를 구축하기 위한 프레임워크를 제공합니다.

Workflow

워크플로는 하나 이상의 에이전트, 데이터 커넥터 및 기타 도구를 결합하여 작업을 완료하는 다단계 프로세스입니다.

워크플로는 이벤트 기반 소프트웨어로, RAG 데이터 소스와 여러 에이전트를 결합하여 반사, 오류 수정 및 기타 고급 LLM 애플리케이션의 특징을 갖춘 다양한 작업을 수행할 수 있는 복잡한 애플리케이션을 만들 수 있습니다.

The Framework for Context-Augmented LLM Applications

https://www.llamaindex.ai/

LlamaIndex는 LLM 사용 방식에 제한을 두지 않습니다. 자동 완성, 챗봇, 에이전트 등으로 LLM을 사용할 수 있습니다. 단지 더 쉽게 사용할 수 있을 뿐입니다.

데이터 커넥터(Data connectors): 기본 소스 및 형식에서 기존 데이터를 수집합니다. 여기에는 API, PDF, SQL 등이 포함될 수 있습니다. 다양한 형식의 데이터 소스로부터 데이터를 쉽게 로드할 수 있습니다.
데이터 인덱스(Data Indexes): LLM이 사용하기 쉽고 성능이 뛰어난 중간 표현으로 데이터를 구조화합니다.
엔진(Engines): 데이터에 대한 자연어 액세스를 제공합니다.
- 쿼리 엔진은 질문 답변을 위한 강력한 인터페이스입니다(예: RAG 흐름).
- 채팅 엔진은 데이터와 '주고받는' 다중 메시지 상호작용을 위한 대화형 인터페이스입니다.
에이전트(Agents): 간단한 헬퍼 기능부터 API 통합 등에 이르기까지 도구로 보강된 LLM 기반 지식 근로자입니다.
관찰 가능성(Observability)/평가 통합(Evaluation)을 통해 선순환 구조로 앱을 엄격하게 실험, 평가 및 모니터링할 수 있습니다.
워크플로(Workflows)를 사용하면 위의 모든 것을 이벤트 중심 시스템으로 결합하여 다른 그래프 기반 접근 방식보다 유연하게 사용할 수 있습니다.

LlamaIndex Key Tools

1. Data Ingestion(데이터 수집)

LamaIndex는 다양한 외부 데이터 소스로부터 데이터를 가져옵니다. 이 소스에는 API, PDF 문서, SQL 데이터베이스 등이 포함될 수 있으며, 데이터는 구조화된 형태(예: 표), 비구조화된 형태(예: 텍스트 문서), 또는 프로그래밍을 통해 직접적으로 접근할 수 있는 형태일 수 있습니다.

2. Data Indexing(데이터 색인)

데이터가 수집되면, LamaIndex는 이 데이터를 정리하고 색인을 생성합니다. 이렇게 하면 데이터가 체계적으로 저장되고, 나중에 사용자가 데이터를 쉽게 찾을 수 있도록 합니다. 이 단계에서는 데이터를 다양한 사용 사례에 맞게 분류하고, 다운스트림 벡터 저장소 및 데이터베이스와 통합하여 데이터 검색이 보다 효율적으로 이루어질 수 있도록 기반을 마련합니다.

3. Query Interface(질의 인터페이스)

LamaIndex는 사용자가 데이터에 쿼리를 날릴 수 있는 인터페이스를 제공합니다. 사용자는 이 인터페이스를 통해 질문이나 명령을 입력하고, LamaIndex는 이전 단계에서 구축한 메타데이터와 색인을 활용하여 관련 정보를 빠르게 찾아 응답합니다. 이를 통해 사용자는 필요한 정보를 쉽고 빠르게 얻을 수 있습니다.

RAG 파이프라인의 주요 단계

로딩(Loading): 다양한 소스(텍스트 파일, PDF, 웹사이트, 데이터베이스, API 등)에서 데이터를 가져와 파이프라인에 입력합니다. LlamaHub에서 제공하는 다양한 커넥터를 활용할 수 있습니다.
인덱싱(Indexing): 데이터를 쿼리 가능한 구조로 변환합니다. 주로 벡터 임베딩을 생성하여 데이터의 의미를 수치화하고, 관련 메타데이터를 함께 저장합니다.
저장(Storing): 생성된 인덱스와 메타데이터를 저장하여 재사용할 수 있게 합니다.
쿼리(Querying): LLM과 LlamaIndex 데이터 구조를 활용하여 다양한 방식(서브쿼리, 다단계 쿼리, 하이브리드 전략 등)으로 데이터를 검색합니다.
평가(Evaluation): 파이프라인의 효과성을 객관적으로 측정합니다. 응답의 정확성, 충실도, 속도 등을 평가합니다.

LlamaIndex 사용하기

LlamaIndex 설치하기

pip install llama-index

데이터 로드 및 인덱스 생성

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

# 폴더에서 데이터 로드
documents = SimpleDirectoryReader("data").load_data()

# 문서에서 인덱스 생성
index = VectorStoreIndex.from_documents(documents)

# 인덱스에 문서 삽입
index.insert(document)

쿼리 실행

# 쿼리엔진 생성, 질의 응답
query_engine = index.as_query_engine()
response = query_engine.query("원하는 질문을 입력하세요")
print(response)

인덱스 커스터마이징

from llama_index.core import Settings

# LLM 커스터마이징
from llama_index.llms.openai import OpenAI
Settings.llm = OpenAI(model="gpt-4", temperature=0)

# LLM 입력 최대 토큰 수
Settings.context_window = 1024

임베딩 모델 커스터마이징

pip install llama-index-embeddings-langchain
pip install sentence-transformers # 허깅페이스 모델 사용 위함

from llama_index.embeddings.langchain import LangchainEmbedding
from langchain.embeddings import HuggingFaceEmbeddings
Settings.embed_model = LangchainEmbedding(
    HuggingFaceEmbeddings(model_name = "<허깅페이스모델>")
)
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("<질문>")

References

Model Quantization (양자화)

데이터 세상 — Tue, 9 Apr 2024 13:46:20 +0900

모델 경량화

딥러닝 모델의 경우 모바일이나 임베디드 환경에서, 메모리, 성능, 저장공간 등의 제한이 있기 때문에 추론하기가 어렵습니다.

딥러닝 모델을 경량화와 관련된 연구들("모델을 가볍게 만드는 연구")이 많이 진행되고 있습니다.

모델 경량화 연구는 크게 두 가지로 나뉩니다.

모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구
기존 모델의 파라미터들을 줄이거나 압축하는 연구

모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구

모델 구조 변경: 모델 구조를 변경함으로써 경량화하는 방법 (ResNet, DenseNet, SqueezeNet, etc.)
효율적인 합성곱 필터 기술: 채널을 분리시켜, 연산량과 변수의 개수를 줄임으로써 경량화하는 방법 (MobileNet, ShuffleNet, etc.)
경량 모델 자동 탐색 기술: 자동 탐색 기법을 사용해, 경량화할 수 있는 모델 구조와 합성곱 필터를 설계하는 방법 (NetAdapt, MNAsNet, etc.)

기존 모델의 파라미터들을 줄이거나 압축하는 연구

가중치 가지치기(Weight Prunning): 결과에 영향을 미치는 파라미터들을 제외한 나머지 파라미터들을 0으로 설정하는 방법
양자화(Quantization): 부동소수점으로 표현되는 파라미터들을 특정 비트 수로 줄이는 방법
이진화(Binarization): 파라미터들을 이진화(예, -1과 1로만 표현)함으로써, 표현력은 줄어들지만, 정확도의 손실은 최소로하는 경량화 방법

Quantization (양자화)

neural network 모델의 내부는 대부분 weight와 activation output으로 구성되어 있습니다.

weight와 activation output은 모델의 정확도를 높이기 위해, 32bit floating point(FP32)로 표현되고 있습니다.

neural network - weight, acitviation output

32bit floating point

리소스가 제한된 환경에서 모든 weight와 activiation output을 32bit floating point로 표현한 모델은 추론에 사용하기 어렵습니다.

양자화는 weight와 activiation output 표현에 사용되는 비트 수를 줄임으로써, 모델의 크기를 줄이는 것을 의미합니다.

기존 모델보다 성능은 떨어질 수 있지만, 모델의 크기가 줄어들기 때문에, 제한된 리소스 환경에서도 사용할 수 있게 됩니다.

양자화는 training time을 줄이는 것이 아니라, Inference time을 줄이는 것이 주 목적입니다.

양자화를 사용하는 경우

모바일 기기나 에지 디바이스와 같이 계산 자원이 제한적인 환경에서 사용
실시간 추론이 필요한 시스템에서 빠른 모델 실행 속도를 요구할 때 사용
대규모 모델을 배포하거나 저장할 때 메모리 사용량을 줄이고자 하는 경우

양자화 예시

각 계층의 소수값(Float32)들 중, 최소/최대 값을 구합니다.

해당 소수값(Float32)들을, 선형적으로 가장 가까운 정수값(Int8)에 매핑합니다.

예를 들어, 기존 계층의 소수값 범위가 -3.0 부터 6.0 까지라면, -3.0 은 -127 로, 6.0 은 +127 로 매핑됩니다.

이 방식을 사용한다면, 32bit 로 표현되는 weight 를 적은 bit 로 표현할 수 있으므로, 메모리 감소 효과 를 볼 수 있습니다.

언어 모델에서 양자화란,

언어 모델의 매개변수를 실수형에서 정수형으로 바꾸어 비트 수를 줄이는 과정을 말합니다.

예를 들어, 32비트 부동 소수점 형태의 매개변수를 8비트 정수로 변환하는 것과 같이 비트 수를 감소시켜서 모델 사이즈를 줄이는 방식입니다.

출처:https://towardsdatascience.com/introduction-to-weight-quantization-2494701b9c0c

양자화된 언어 모델은 크기가 줄어들며, 계산의 효율성이 향상됩니다.

비트 수를 N배로 줄이면 곱셈의 복잡도는 NxN로 감소하게 되며, 이에 따라 float32를 사용하는 대신 int8을 사용하면 모델의 크기가 1/4로 줄어들고, 추론(inference) 속도와 메모리 사용량도 두 배에서 네 배까지 효율적으로 작동하게 됩니다.

모델 크기 4배 감소
메모리 대역폭 2~4배 감소: 32비트에서 8비트로 이동해서, 메모리가 4배 감소
메모리 대역폭 절약 및 int8 산술을 통한 더 빠른 계산으로 인해 2~4배 더 빠른 추론이 가능(정확한 속도 향상은 하드웨어, 런타임 및 모델에 따라 달라짐)

양자화 종류

Post Training Quantization (PTQ)

모델을 training한 후에 quantize를 적용하는 기법

파라미터 사이즈가 큰 모델에서 정확도 하락 폭이 작으며 파라미터 사이즈가 작은 소형 모델에는 적합하지 않음

모델의 파라미터가 작을수록, quantization에 따라 모델이 예민하게 반응하기 때문에 정확도 감소가 크게 일어나게 됨

Dynamic Quantization
Static Quantization

장점

파라미터 크기가 큰 대형 모델에 대해서 정확도 하락폭이 작다

단점

파라미터 크기가 작은 소형 모델에 대해서는 정확도 하락폭이 크다.

Quantization Aware Training (QAT)

모델 training 과정중에서 quantize를 수행

Fake quantization node를 첨가하여 quantize되었을 시 어떻게 동작할지 시뮬레이션 실행

장점

모델 사이즈 축소 (저장 용량 효율화)
RAM 메모리 bandwidth 절약
추론 속도 개선
전력 소비 효율화
다른 양자화 보다 높은 정확도를 가짐 (모델의 정확도 감소 폭을 최소화할 수 있음, 소형 모델에도 적용 가능)

단점

모델 정확도가 저하됨
모델 학습 이후 추가 연산(양자화)가 필요

Quantization 기법 소개

Dynamic Quantization (동적 양자화)

가장 간단한 양자화 기법
모델의 가중치(weight)에 대해서만 양자화 진행
활성화(activiation)은 추론할 때 동적으로 양자화
모델을 메모리에 로딩하는 속도 개선
연산속도 향상 효과 미비(inference kernel 연산이 필요하기 때문에)
CPU 환경에서만 inference 가능(프레임워크나 프레임워크의 버전에 따라 GPU 환경에서도 동작할 순 있음)
모델의 weight를 메모리에 로딩하는 것이 실행 시간에 큰 영향을 미치는 BERT와 같은 모델에 적합

Static Quantization (정적 양자화)

모델의 가중치와 활성화(activiation)모두 사전에 양자화를 진행
연산속도 향상
활성화가 inference에 영향이 큰 CNN 모델에 적합

Quantization Aware Training

모델의 가중치와 활성화를 학습하면서 양자화
Dynamic, Static Quantization 보다 높은 accuracy 확보 가능
학습은 CPU, GPU 환경에서 사용 가능 / inference는 CPU에서만 가능
dynamic, static quantization으로 성능이 나오지 않는 CNN 모델에서 활용

** 양자화 기법을 선택할 때는 모델의 성능과 메모리/연산 요구 사항 등을 고려하여 적절한 기법을 선택하는 것이 중요합니다.

양자화 기법	설명
Dynamic Quantization	미리 학습된 모델의 가중치와 활성화 함수의 비트 수를 줄이는 기법 런타임 시 양자화되며, 가중치와 활성화 함수의 분포에 따라 크기가 다양하게 조절 인퍼런스 중 성능 저하가 덜 발생하며, 변환 비용이 낮음
Static Quantization	훈련 후, 가중치와 활성화 함수의 비트 수를 줄이는 기법 가중치와 활성화 함수의 분포를 분석하여 고정된 양자화 스케일과 오프셋을 결정하고 모델을 양자화 인퍼런스 시 성능 저하가 발생할 수 있음
Quantization Aware Training(QAT)	훈련 중에 양자화를 고려하여 모델을 조정하는 방법 가중치 양자화에 대한 학습을 포함하여 원본 모델을 보다 양자화에 robust하게 만듦 일반적으로 인퍼런스 시 성능 저하가 적음

GPTQ: Accurate Post-training Quantization of Generative Pretrained Transformers

논문: arxiv.org/abs/2210.17323

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Generative Pre-trained Transformer models, known as GPT or OPT, set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their mass

arxiv.org

Github: https://github.com/IST-DASLab/gptq

GitHub - IST-DASLab/gptq: Code for the ICLR 2023 paper "GPTQ: Accurate Post-training Quantization of Generative Pretrained Trans

Code for the ICLR 2023 paper "GPTQ: Accurate Post-training Quantization of Generative Pretrained Transformers". - IST-DASLab/gptq

github.com

References

[Vector DB] Vector Database

데이터 세상 — Sun, 15 Oct 2023 23:01:34 +0900

Vector Database

벡터 데이터베이스는 신경망을 기반으로 하는 차세대 검색 엔진을 구동하기 위해 몇 년 전에 처음 등장했습니다.

최근에는 GPT4와 같은 대규모 언어 모델을 기반으로 애플리케이션을 배포하도록 돕는 새로운 역할을 수행합니다.

벡터 데이터베이스는 데이터를 특징이나 속성의 수학적 표현인 고차원 벡터로 저장하는 데이터베이스 유형입니다. 각 벡터에는 데이터의 복잡성과 세분성에 따라 수십에서 수천에 이르는 특정 개수의 차원이 있습니다.

벡터 데이터베이스는 밀집된 벡터를 효율적으로 관리하고 고급 유사성 검색을 지원하도록 설계된 특수 저장 시스템이며, 벡터 라이브러리는 기존 DBMS 또는 검색 엔진에 통합되어 더 넓은 데이터베이스 컨텍스트 내에서 유사성 검색이 가능합니다. 둘 사이의 선택은 애플리케이션의 특정 요구 사항과 규모에 따라 달라집니다.

벡터 데이터베이스는 행과 열에 표 형식의 데이터를 저장하기 위해 구축된 PostgreSQL과 같은 표준 관계형 데이터베이스와 다릅니다. 또한 데이터를 JSON으로 저장하는 MongoDB와 같은 최신 NoSQL 데이터베이스와도 다릅니다. 그 이유는 벡터 데이터베이스가 벡터 임베딩이라는 한 가지 유형의 데이터만 저장하고 검색하도록 설계되었기 때문입니다.

벡터 임베딩은 머신 러닝 프로세스의 훈련 단계에서 출력으로 생성된 훈련 데이터의 증류된 표현입니다. 추론 중에 새로운 데이터를 처리하는 필터 역할을 합니다.

Vector Library vs Vector DB

벡터 데이터베이스는 밀집된 벡터의 효율적인 관리를 위해 개발된 전문 저장 시스템인 반면, 벡터 라이브러리는 기존 데이터베이스 관리 시스템(DBMS) 또는 검색 엔진에 통합되어 유사성 검색을 제공합니다.

벡터 라이브러리는 학술 정보 검색 벤치마크와 같은 정적 데이터 애플리케이션에 적합한 선택입니다.

벡터 데이터베이스는 전자상거래 제안, 이미지 검색, 의미적 유사성과 같이 빈번한 데이터 변경이 필요한 애플리케이션에 유용합니다.

Vector Database 목적

벡터 데이터베이스는 일반 데이터베이스보다 대량의 정리되지 않은 데이터를 관리하는 데 훨씬 더 좋습니다.

또한 벡터 데이터베이스는 데이터 변경이나 문의 사항에 더욱 적응력이 뛰어나고 신속하게 조정됩니다.

벡터 데이터베이스의 주요 목표는 조직이 AI를 최대한 활용할 수 있도록 돕는 것입니다. 벡터 임베딩을 사용하면 이러한 데이터베이스는 데이터에서 새로운 패턴을 발견하고 새로운 통찰력을 제공할 수 있습니다.

벡터 데이터베이스는 벡터 임베딩을 사용하여 데이터를 저장하고 데이터를 처리합니다. 이러한 데이터베이스는 두 가지 중요한 작업을 수행하도록 설계되었기 때문에 일반적인 데이터베이스와 다릅니다.

유사한 항목을 검색

벡터 데이터베이스의 주요 특징 중 하나는 유사한 항목을 빠르고 정확하게 검색하는 능력입니다. 이는 데이터를 고차원 벡터로 표현하는 벡터 임베딩을 통해 달성됩니다. 그런 다음 이러한 임베딩을 수학적 연산을 통해 비교하여 항목 유사성을 확인할 수 있습니다.

대량의 데이터에 대한 고급 분석 수행

벡터 데이터베이스의 또 다른 장점은 거대한 데이터 세트를 분석하는 능력입니다. 벡터 임베딩과 잘 작동하는 특수 알고리즘과 구조를 사용하므로 복잡한 분석을 더 쉽게 수행할 수 있습니다.

벡터 DB 쿼리 세 가지 주요 단계

색인화(Indexation): 벡터 임베딩이 벡터 데이터베이스에 있으면 더 빠른 검색을 위해 벡터 임베딩을 데이터 구조로 변환하는 데 여러 기술이 사용됩니다.
조회(Inquiry): 검색이 완료된 후 벡터 DB는 유사성 메트릭을 사용하여 쿼리 벡터를 인덱스 벡터와 비교하여 가장 가까운 이웃을 결정합니다.
사후 제작(Post-production): 벡터 데이터베이스에 따라 최종적으로 가장 가까운 이웃이 사후 처리되어 쿼리에 대한 최종 출력을 생성합니다. 또한, 가장 가까운 이웃은 향후 참조를 위해 다시 순위가 매겨질 수 있습니다.

Vector Database 이점

데이터 관리 기능: 데이터의 삽입, 삭제, 갱신이 쉬움
메타데이터 저장 및 필터링: 각 벡터에 대한 메타데이터 저장이 가능
확장성: 분산 및 병렬처리 기능을 제공
실시간 업데이트 지원
백업 및 컬렉션 기능(일부 인덱스만 골라서 백업)
에코시스템 연동: ETL(Spark), 분석도구(Tableau, Segment), 시각화(Grafana) 등과 연동. AI 도구와의 연동(LangChain, LlamaIndex, ChatGPT Plugins)
데이터 보안 및 접근 권한 관리

Vector DB Ranking (2023.10월 기준)

출처: https://db-engines.com/en/ranking/vector+dbms

References

[Text Annotation][Text Classification] Label Sleuth

데이터 세상 — Wed, 9 Aug 2023 17:27:42 +0900

Label Sleuth

https://www.label-sleuth.org/

Label Sleuth

Open-source no-code system for text annotation and building of text classifiers

www.label-sleuth.org

An open-source no-code system for text annotation and building text classifiers

No-code, open-source system for domain experts
Easily annotate texts
Quickly build text classifiers
No AI knowledge required

AI 지식이나 코딩 역량이 없더라도 도메인 지식 전문가가 쉽게 본문의 레이블을 지정하도록 돕는 오픈소스로, 빠르게 텍스트 분류를 할 수 있도록 돕습니다.

직관적인 UI를 통한 빠른 라벨링

도메인 전문가는 직관적인 사용자 인터페이스를 통해 신속하게 데이터 레이블 지정을 시작할 수 있습니다.

통합 모델 교육

도메인 전문가가 데이터에 레이블을 지정하는 동안 Label Sleuth는 백그라운드에서 적절한 머신 러닝 모델을 자동으로 교육합니다.

Active-learning 기반 라벨링 지원

레이블 지정 작업의 낭비를 방지하기 위해 Label Sleuth는 능동적인 학습 기술을 사용하여 사용자가 다음에 레이블을 지정해야 하는 항목을 안내합니다.

[Metrics] ROUGE score, text 생성 타스크 평가 지표

데이터 세상 — Mon, 7 Aug 2023 20:13:34 +0900

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

https://aclanthology.org/W04-1013/

ROUGE: A Package for Automatic Evaluation of Summaries

Chin-Yew Lin. Text Summarization Branches Out. 2004.

aclanthology.org

ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이며, 모델이 생성한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산합니다.

ROUGE는 n-gram recall을 계산하며, 정답 문장의 n-gram이 생성 문장에 얼마나 포함되는지의 비율을 의미합니다.

Recall은 참조 요약본을 구성하는 단어 중 몇 개의 단어가 시스템 요약본의 단어들과 겹치는지를 보는 점수입니다.

참고: 머신러닝 성능 평가 지표들

[Model Performance Measure] Precision, Recall, Accuracy, F1 score, FPR, ROC curve, AUC

Precision(정밀도)

모델의 예측값이 얼마나 정확하게 예측됐는가를 나타내는 지표

PPV(Positive Predictive Value), Positive 정답률이라고도 불림

ex) 날씨 예측 모델이 맑다고 예측했는데, 실제 날씨가 맑았는지를 살펴보는 지표

모델이 True라고 분류한 것 중에서 실제 True인 것의 비율
시스템이 올바르게 예측한 엔티티 수를 시스템이 예측한 수로 나눈 값

Recall(재현율)

실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표

통계학에서는 sensitivity로 다른 분야에서는 hit rate라는 용어로도 사용

ex) 암환자들이 병원에 갔을 때 암환자라고 예측될 확률을 구하는 것

실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
시스템이 올바르게 예측한 개체수를 주석을 단 사람이 직접 식별한 수로 나눈 값

Precision vs Recall

Precision이나 Recall은 모두 실제 True인 정답을 모델이 True라고 예측한 경우에 관심이 있으나, 바라보는 관점은 다르다.

Precision은 모델의 입장에서, Recall은 실제 정답(data)의 입장에서 정답을 정답이라고 맞춘 경우를 바라본다.

ROUGE-N, ROUGE-S, ROUGE-L은 요약본의 일정 부분을 비교하는 성능 지표입니다.

예를 들어, ROUGE-1은 시스템 요약본과 참조 요약본 간 겹치는 unigram의 수를 보는 지표이며, ROUGE-2는 시스템 요약본과 참조 요약본 간 겹치는 bigram의 수를 보는 지표입니다.

시스템 요약 (모델 생성 요약): the cat was found under the bed

참조 요약 (Gold standard, 대개 사람이 직접 만든 요약): the cat was under the bed

ROUGE-1: unigram

ROUGE-2: bigram

시스템 요약 (bigrams): the cat, cat was, was found, found under, under the, the bed

참조 요약 (bigrams): the cat, cat was, was under, under the, the bed

Precision은 시스템 요약본 중 67%의 bigram이 참조 요약본 내 bigram과 겹친다는 것을 의미합니다

기타 ROUGE 지표들

ROUGE-N

unigram, bigram, trigram 등 문장 간 중복되는 n-gram을 비교하는 지표입니다.

ROUGE-L

LCS (Longest Common Subsequence)기법을 이용해 최장 길이로 매칭되는 문자열을 측정합니다.

LCS의 장점은 ROUGE-2와 같이 단어들의 연속적 매칭을 요구하지 않고, 어떻게든 문자열 내에서 발생하는 매칭을 측정하기 때문에 보다 유연한 성능 비교가 가능하다는 것입니다.

Reference: police killed the gunman

System-1: police kill the gunman

System-2: the gunman kill police

ROUGE-N: System-1 = System-2 (“police”, “the gunman”)

ROUGE-L:

System-1 = 3/4 (“police the gunman”)
System-2 = 2/4 (“the gunman”)

ROUGE-S

특정 Window size가 주어졌을 때, Window size 내에 위치하는 단어쌍들을 묶어 해당 단어쌍들이 얼마나 중복되게 나타나는 지를 측정합니다. 때문에 해당 기법을 Skip-gram Co-ocurrence 기법이라 부르기도 합니다.

예를 들어, Skip-bigram은 최대 2칸 내에 존재하는 단어들을 쌍으로 묶어, 해당 쌍들이 참조 문장과 생성 문장 간 얼마나 중복되는게 나타나는지를 측정합니다.

e.g.) “cat in the hat”

해당 문장에서 발생할 수 있는 Skip-bigram은 “cat in”, “cat the”, “cat hat”, “in the”, “in hat”, “the hat”이 됩니다.

BLEU: n-gram precision

ROUGE(n-gram recall)만 고려할 경우 평가지표가 정확하지 않을 수도 있다.

만약에, 모델이 생성했던 시스템 요약본이 엄청나게 긴 문장이었을 경우 참조 요약본과 크게 관련이 없을지라도 참조 요약본의 단어 대부분을 포함할 가능성이 커지게 되기 때문입니다.

이러한 문제를 해결하기 위해 우리는 Precision을 계산할 필요가 있습니다.

Precision은 Recall과 반대로 모델이 생성한 시스템 요약본 중 참조 요약본과 겹치는 단어들이 얼마나 많이 존재하는지를 의미합니다.

ROUGE-1, BLUE 계산 예시

시스템 요약 (모델 생성 요약): the cat was found under the bed

참조 요약 (Gold standard, 대개 사람이 직접 만든 요약): the cat was under the bed

시스템 요약 2: the tiny little cat was found under the big funny bed

모델이 생성한 시스템 요약 문장 내에 불필요한 단어가 너무 많이 존재하기 때문에 좋은 점수를 받을 수 없게 됩니다.

간결한 요약문을 생성해내야 하는 상황에서 Precision은 아주 좋은 성능 지표로 사용될 수 있습니다

상황에 따라, 정확한 모델 성능 평가는 지표들의 조합으로 판단하는 것이 좋을 수 있습니다.

정확한 모델의 성능 평가를 위해서는 Precision과 Recall을 모두 계산한 후, F-Measure(F1-Score, Precision(정밀도)와 Recall(재현율)의 조화 평균)를 측정하는 것이 좋을 수 있습니다.

만약에 모델의 제약 조건으로 인해 간결한 요약 만을 생성한다면, Recall(ROUGE)만 사용해도 괜찮을 수 있습니다.

(이 경우, Precision은 성능 평가에 크게 중요하게 고려되지 않습니다.)

결론적으로,

다양한 ROUGE 성능 지표들 중 어떠한 지표를 사용할 것인지는 평가하고자 하는 모델의 태스크에 달려있습니다

References

Trustworthy AI(신뢰할 수 있는 AI), AI Ethics(AI 윤리)

데이터 세상 — Fri, 4 Aug 2023 00:16:18 +0900

Trustworthy AI (신뢰할 수 있는 AI)

AI가 의도한 대로 작동하고 규정을 준수하는지 확인하기 위해 AI를 지시하고 모니터링할 수 있어야 합니다.

관리되는 데이터 및 AI는 데이터 및 AI 솔루션의 신뢰성을 모니터링하고 유지하는 기술, 도구 및 프로세스를 나타냅니다.

신뢰할 수 있는 AI는 다음의 5가지 항목을 포함하고 있어야 합니다.

Transparency (투명성)

투명성은 신뢰를 강화하며 투명성을 높이는 가장 좋은 방법은 공개입니다.

AI 솔루션이 윤리적이 되려면 투명성도 필요합니다.

그것은 AI 기술을 쉽게 검사할 수 있게 하고 AI 솔루션에 사용되는 알고리즘이 숨겨져 있거나 더 자세히 볼 수 없다는 것을 의미합니다.

Explainability (설명가능성)

투명성은 사용 중인 AI 기술 및 알고리즘에 대한 보기를 제공하지만 AI가 사용되는 방식에 대한 간단하고 직접적인 설명이 필요합니다.

사람들은 특히 이러한 결론이 고용 가능성, 신용 가치 또는 잠재력에 대한 결정에 영향을 미치는 경우 AI가 결론에 도달한 방법을 이해할 권리가 있습니다.

Fairness (공정성)

AI 솔루션의 공정성은 인간의 편견을 줄이고 개인 및 개인 그룹을 공평하게 대우하는 것을 의미합니다.

공정하도록 설계된 AI 솔루션은 그대로 유지되어야 합니다.

솔루션에 편견이 스며드는 것을 방지하려면 모니터링 및 안전 장치가 중요합니다.

Robustness (견고성)

AI가 계속해서 인간 경험의 일부가 되면서 공격에 더욱 취약해지고 있습니다.

신뢰할 수 있는 것으로 간주되려면 AI 솔루션이 예외적인 조건을 효과적으로 처리하고 보안 위험을 최소화할 수 있을 만큼 충분히 견고해야 합니다.

AI는 공격을 견뎌내고 공격을 받는 동안 무결성을 유지할 수 있어야 합니다.

Privacy

신뢰할 수 있으려면 AI는 원시 데이터뿐만 아니라 해당 데이터에서 얻은 통찰력의 모든 단계에서 프라이버시를 보장해야 합니다.

데이터는 인간 제작자의 소유이며 AI는 최고의 무결성으로 개인 정보를 보장해야 합니다.

References

https://www.ibm.com/topics/ai-ethics

[Large Language Model] Hallucination (환각)

데이터 세상 — Thu, 3 Aug 2023 21:28:25 +0900

AI Hallucination (환각)

인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다.

인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다.

사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다.

잘못된 답변은 statistical error(통계적 오류) 입니다.

https://www.youtube.com/watch?v=cfqtFvWOfg0

What hallucination is

환각은 사실이나 맥락 논리에서 벗어난 LLM의 출력이며 사소한 불일치에서 완전히 조작되거나 모순된 진술에 이르기까지 다양할 수 있습니다.

sentence contradiction (문장 모순)

이것은 LLM이 이전 문장 중 하나와 모순되는 문장을 생성하는 것입니다.

The sky is blue today.
The sky is green today.

prompt contradiction (프롬프트 모순)

이것은 생성된 문장이 그것을 생성하는 데 사용된 프롬프트와 모순되는 것입니다.

LLM에게 식당에 대한 긍정적인 리뷰를 작성해달라고 요청할 때 "음식은 형편없고 서비스는 무례했습니다."

factual contradiction (사실적 모순)

사실적 오류 환각(factual error hallucinations)라고도 불리는 사실적 모순은 LLM의 답변이 틀렸다는 사실에 절대적으로 못 박힌 것입니다.

nonsense

무의미하거나 관련 없는 종류의 정보 기반 환각

"프랑스의 수도는 파리입니다. 파리는 또한 유명한 가수의 이름입니다."

Why Large Language Models Hallucinate

Data Quality

LLM 모델은 노이즈, 에러, 편향 또는 불일치하는 텍스트들을 포함한 대량의 코퍼스로 학습하였습니다.

예를 들어, 어떤 LLM들은 Wikipedia 또는 Reddit의 모든 것을 스크래핑해서 학습합니다.

데이터가 모두 정확한 사실을 근거로 수집되었다 하더라도, 모든 주제와 도메인에 해당되는 데이터로 학습하거나 커버할 수는 없습니다.

그래서, LLM은 데이터의 정확성이나 관련성을 확인할 수 없는 상태에서 데이터를 일반화할 수 있습니다.

Generation Method

LLM은 다양한 방법과 목표를 사용하여 빔 검색, 샘플링, 최대 우도 추정 또는 강화 학습과 같은 텍스트를 생성합니다.
그리고 이러한 방법과 목표는 유창함(fluency)과 다양성(diversity), 일관성(coherence)과 창의성(creativity), 정확성(accuracy)과 참신함(novelty) 사이에 편향(bias)과 절충점(tradeoff)을 도입할 수 있습니다.

Input Context

컨텍스트는 모델에 입력 프롬프트로 제공되는 정보를 나타냅니다.

컨텍스트는 관련성 있고 정확한 출력을 생성하도록 모델을 안내하는 데 도움이 될 수 있지만, 불명확하거나 일관성이 없거나 모순되는 경우 모델을 혼란스럽게 하거나 오도할 수도 있습니다.

컨텍스트는 중요하며 학술 에세이나 창의적인 글쓰기 연습에 적합한 생성된 텍스트를 찾고 있다고 말하지 않으면 해당 컨텍스트 내에서 응답할 것으로 기대할 수 없습니다.

Minimize hallucinations

명확하고 구체적인 프롬프트 제공

입력 프롬프트가 더 정확하고 상세할수록 LLM이 관련성이 높고 가장 중요하게는 정확한 출력을 생성할 가능성이 높아집니다.

Active mitigation strategies (적극적인 완화 전략)

생성 중에 LLM이 작동하는 방식의 매개변수를 제어하는 설정과 같은 일부 LLM 설정을 사용합니다.

이에 대한 좋은 예는 출력의 임의성을 제어할 수 있는 온도(temperature) 매개변수입니다.

낮은 온도는 보다 보수적이고 집중적인 반응을 생성하고 높은 온도는 보다 다양하고 창의적인 반응을 생성합니다.

높은 온도는 hallucination을 발생시킬 가능성을 가집니다.

multi-shot prompting

LLM에게 원하는 출력 포맷 또는 컨텍스트의 다양한 예시를 제공

Risks of Large Language Models (대규모 언어 모델의 위험)

데이터 세상 — Thu, 3 Aug 2023 20:37:12 +0900

Risks of Large Language Models

https://www.youtube.com/watch?v=r4kButlDLUc

Risks	Strategies
Hallucinations - falsehoods	Explainability
Bias	Culture and Audits
Consent - copyright issues	Accountability
Security - jailbreaking - indirect prompt injection	Education

AI Hallucinations (환각)

인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다.

인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다.

사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다.

잘못된 답변은 statistical error(통계적 오류) 입니다.

Bias (편향)

불완전한 데이터는 AI의 편향을 초래할 수 있습니다.

학습한 데이터에 편향이 존재하는 경우, 인공지능의 답변에 편향이 존재할 수 있습니다.

예를 들어, AI는 때때로 모든 의사가 남자라고 생각합니다.

Consent (동의)

다음은 세부적으로 이해하기 쉽고 이해하기 쉬운 팩트 시트에 포함되어야 합니다.

큐레이팅하는 데이터가 대표적입니까?
동의하에 수집되었습니까?
저작권 문제가 있습니까?

종종 우리는 대규모 언어 모델의 훈련 데이터가 어디에서 수집되어 있는지 모르는 경우가 있습니다.

Security

Jailbreaking

해커는 AI 모델을 통해 원래 프로그래밍을 변경하고 인종 차별과 같은 것을 지지하고 사람들이 불법적인 일을 하도록 제안합니다.

Indirect prompt injection

이것은, 제3자가 웹사이트를 변경하고 숨겨진 데이터를 추가하여 AI의 동작을 변경합니다.

AI에 의존하는 자동화는 잠재적으로 사용자가 인지하지 못하는 사이에 악의적인 지침을 보낼 수 있습니다.

Strategies

Explainability

인라인 설명 기능을 제공하고 지식 그래프를 통해 실제 데이터 및 데이터 계보 및 출처를 제공하는 시스템과 대규모 언어 모델을 결합할 수 있습니다.

- 모델이 방금 말한 것을 왜 말했습니까?

- 어디에서 데이터를 가져왔습니까?

- 데이터의 소스는 무엇입니까?

대규모 언어 모델은 지식 그래프에서 제공한 답변에 대한 변형을 제공할 수 있습니다.

Culture and Audits

문화는 아무도 보고 있지 않을 때 사람들이 하는 것입니다.

AI는 우리 자신의 편견에 대한 훌륭한 거울이기 때문에 AI에 대해 작업하는 본질적으로 다양하고 여러 분야의 팀이 필요합니다.

AI 모델에 대한 감사 결과를 가지고 이질적인 결과가 있을 때 우리 자신의 조직 문화를 수정하십시오.

사전 모델 배포와 사후 모델 배포를 감사하십시오.

Accountability

데이터 동의 관련 위험을 완화하려면 감사(auditing)와 책임(accountability)을 결합한 노력이 필요합니다.

책임에는 AI 거버넌스 프로세스 설정, 기존 법률 및 규정 준수 확인, 사람들이 피드백을 통합할 수 있는 방법 제공이 포함됩니다.

대규모 언어 모델은 사람들의 개인 정보 유출, 피싱, 스팸, 사기를 돕는 등 모든 종류의 악의적인 작업에 사용될 수 있습니다.

Education

완전히 새로운 대규모 언어 모델을 교육하는 것은 뉴욕과 베이징 사이를 왕복하는 1000번 이상의 항공편만큼 많은 탄소를 생성합니다.

이것은 이러한 기술의 강점과 약점을 아는 것이 중요하다는 의미입니다.

이는 AI의 책임 있는 큐레이션, 위험, 환경 비용, 안전 장치 및 기회에 대한 원칙에 대해 직원을 교육하는 것을 의미합니다.

일부 기술 회사는 대규모 언어 모델 학습 데이터가 악의적으로 변조되지 않았다고 믿고 있습니다.

그러나, 충분한 예제로 데이터 세트를 오염시키면 대규모 언어 모델의 동작과 출력에 영원히 영향을 미칠 수 있습니다.

[LLM] 업스테이지 모델, ‘허깅페이스 오픈 LLM 리더보드’서 세계 1위

데이터 세상 — Wed, 2 Aug 2023 15:08:01 +0900

업스테이지 LLaMa-2-70b-instruct-v2 model

https://huggingface.co/upstage/Llama-2-70b-instruct-v2

upstage/Llama-2-70b-instruct-v2 · Hugging Face

This model can be loaded on the Inference API on-demand.

huggingface.co

upstage - LLaMa-2-70b-instruct

한국어 자연어이해(NLU) 평가 데이터셋 ‘클루(KLUE)’를 구축하고, OCR 세계대회 ICDAR에서 4개종목 우승, 생성 AI 서비스 ‘AskUp’ 운영으로 축적된 프롬프트 엔지니어링 및 파인튜닝 노하우 등 업스테이지만의 차별화된 기술 자산을 총 결집한 결과

Backbone Model: LLaMA-2

[Large Language Model] LLaMA

Language(s): English

Hugging Face Open LLM Leaderboard

오픈소스 생성 AI 모델의 바로미터

전 세계 500여개의 오픈 모델들이 추론과 상식 능력, 언어 이해 종합능력 및 환각현상(할루시네이션) 방지 등 4가지 지표의 평균 점수로 경쟁, 공신력 있는 순위가 매겨진다.

[Data LakeHouse] Apache Iceberg

데이터 세상 — Tue, 1 Aug 2023 15:45:25 +0900

Apache Iceberg

a high-performance format for huge analytic tables

Iceberg는 대규모 분석 테이블을 위한 고성능 형식입니다.

Iceberg는 SQL 테이블의 신뢰성과 단순성을 빅 데이터에 제공하는 동시에 Spark, Trino, Flink, Presto, Hive 및 Impala와 같은 엔진이 동시에 동일한 테이블에서 안전하게 작업할 수 있도록 합니다.

대형 페타바이트(PB) 규모의 테이블용으로 설계
ACID 준수 트랜잭션 지원

Atomicity : 원자성. 트랜잭션과 관련된 일은 모두 실행되던지 모두 실행되지 않도록 하던지를 보장하는 특성
Consistency : 일관성. 트랜잭션이 성공했다면, 데이터베이스는 그 일관성을 유지해야 한다. 일관성은 특정한 조건을 두고, 그 조건을 만족하는지를 확인하는 방식으로 검사할 수 있다.
Isolation : 독립성. 트랜잭션을 수행하는 도중에 다른 연산작업이 끼어들지 못하도록 한다. 임계영역을 두는 것으로 달성할 수 있다.
Durability : 성공적으로 트랜잭션이 수행되었다면, 그 결과는 완전히 반영이 되어야 한다. 완전히 반영되면 로그를 남기게 되는데, 후에 이 로그를 이용해서 트랜잭션 수행전 상태로 되돌릴 수 있어야 한다. 때문에 트랜잭션은 로그저장이 완료된 시점에서 종료가 되어야 한다.

스키마 진화, 파티션 진화 및 테이블 버전 롤백을 포함하여 다른 테이블 형식에서는 일반적으로 사용할 수 없는 기능을 제공(모두 데이터를 다시 쓰지 않고)
고급 데이터 필터링
시간 여행 쿼리를 통해 과거 시점의 데이터를 볼 수 있음.

Expressive SQL (표현 SQL)

Iceberg는 새로운 데이터를 병합하고, 기존 행을 업데이트하고, 대상이 지정된 삭제를 수행하는 유연한 SQL 명령을 지원합니다.

Iceberg는 읽기 성능을 위해 열심히 데이터 파일을 다시 쓰거나 더 빠른 업데이트를 위해 델타 삭제를 사용할 수 있습니다.

Full Schema Evolution (전체 스키마 진화)

스키마 진화는 제대로 작동합니다. 열을 추가해도 '좀비' 데이터는 다시 가져오지 않습니다. 열의 이름을 바꾸고 재정렬할 수 있습니다. 무엇보다도 스키마를 변경할 때 테이블을 다시 작성할 필요가 없습니다.

Hidden Partitioning

Iceberg는 테이블의 행에 대한 파티션 값을 생성하는 지루하고 오류가 발생하기 쉬운 작업을 처리하고 불필요한 파티션과 파일을 자동으로 건너뜁니다. 빠른 쿼리를 위해 추가 필터가 필요하지 않으며 데이터 또는 쿼리가 변경되면 테이블 레이아웃을 업데이트할 수 있습니다.

Time Travel and Rollback

시간 이동을 통해 정확히 동일한 테이블 스냅샷을 사용하는 재현 가능한 쿼리를 사용하거나 사용자가 변경 사항을 쉽게 검토할 수 있습니다. 버전 롤백을 사용하면 테이블을 양호한 상태로 재설정하여 사용자가 문제를 신속하게 수정할 수 있습니다.

Data Compaction (데이터 압축)

데이터 압축은 기본적으로 지원되며 bin-packing 또는 정렬과 같은 다양한 재작성 전략 중에서 선택하여 파일 레이아웃 및 크기를 최적화할 수 있습니다.

References

부분구문분석(청크나누기, Chunking)

데이터 세상 — Tue, 18 Jul 2023 13:48:00 +0900

부분구문분석(청크나누기, Chunking)

부분구문분석(shallow parsing) = 청크나누기(Chunking)

명사, 동사, 형용사와 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것
사전 훈련된 품사태깅 모델이 존재함

여러 개의 품사로 구(pharase)를 만드는 것을 chunking이라 하고, 이 구(pharase)를 chunk라 합니다.

문장을 각 품사로 구분하고, Chunking에 의해 구로 구분하면 문장의 의미를 파악하기 용이해 집니다.

문장에서 (DT + JJ + NN), (DT + JJ + JJ + NN), (JJ + NN), 등의 시퀀스는 모두 명사구 (NP : Noun phrase)로 판단합니다.

겹치는 위치에서 태그 패턴이 일치하는 경우 가장 왼쪽 일치가 우선합니다.

spaCy을 활용한 chunking

import spacy
nlp = spacy.load('en')
doc = nlp(u"Mary slapped the green witch.")
for chunk in doc.noun_chunks:
  print('{} -> {}'.format(chunk, chunk.label_))

Mary -> NP
the green witch -> NP

정규식을 활용한 chunking

부분구문분석(chunking)모델 훈련에 사용될 데이터가 없다면, 정규식을 활용하여 부분구문분석을 진행할 수 있습니다.

nltk에서 RegexpParser를 사용할 수 있다고 합니다.

Chunk 구조 - IOB Tags

Chunk내의 각 품사의 위치에 따라 B (Begin), I (Inside), O (Outside)를 붙입니다. (chunk tag).

B-NP는 NP chunk의 시작 부분을 의미하고, I-NP는 NP chunk의 내부 부분을 의미합니다.

Chunk 구조는 IOB tags로 표현할 수도 있고, 트리 구조로 표현할 수도 있습니다.

NLTK 트리 구조

Clause(절)

문법에 clause (절)를 정의하면 문장을 아래와 같이 분석 (chunking) 할 수 있습니다.

Recursion in Linguistic Structure

grammar = r"""
NP: {<DT|JJ|NN.*>+} # Chunk sequences of DT, JJ, NN
PP: {<IN><NP>} # Chunk prepositions followed by NP
VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments
CLAUSE: {<NP><VP>} # Chunk NP, VP
"""
cp = nltk.RegexpParser(grammar)
sentence = [("Mary", "NN"), ("saw", "VBD"), ("the", "DT"), ("cat", "NN"),
("sit", "VB"), ("on", "IN"), ("the", "DT"), ("mat", "NN")]
print(cp.parse(sentence))

(S (NP Mary/NN) saw/VBD (CLAUSE (NP the/DT cat/NN) (VP sit/VB (PP on/IN (NP the/DT mat/NN)))))

cp = nltk.RegexpParser(grammar, loop=2)
print(cp.parse(sentence))

(S (NP John/NNP) thinks/VBZ (CLAUSE (NP Mary/NN) (VP saw/VBD (CLAUSE (NP the/DT cat/NN) (VP sit/VB (PP on/IN (NP the/DT mat/NN)))))))

RegexpParser()에 loop = 2를 지정하면 아래와 같이 clause 안에 또 다른 clause를 재귀적(recursion)으로 분석합니다.

이와 같이 문장에 맞게 트리를 깊게 구성하는 것을 cascaded chunking (계단식 chunk) 이라 합니다.

Chinking

특정 부분을 chunk 밖으로 빼내는 것을 chinking이라고 합니다. Chink는 문장에서 chunk를 제외한 나머지 부분을 의미합니다.

문장 전체를 chunk로 정의하고, 특정 부분을 chinking하면 나머지 부분이 chunk가 됩니다.

Chinking을 이용해서 Chunking을 할 수도 있습니다.

References

LangChain for LLM Application Development

데이터 세상 — Mon, 17 Jul 2023 23:16:38 +0900

LangChain

LLM을 사용하여 애플리케이션 생성을 단순화하도록 설계된 프레임워크

LLM 프롬프트의 실행과 외부 소스의 실행(계산기, 구글 검색, 슬랙 메시지 전송이나 소스코드 실행 등)을 엮어 연쇄(Chaining)하는 것

나의 질문과 LLM의 답변 사이에 여러가지 Tool들을 이용해 프롬프트 엔지니어링을 하는 것
그러한 과정을 반복해 원하는 답을 찾는 것

https://docs.langchain.com/docs/

️ LangChain | ️ LangChain

LangChain is a framework for developing applications powered by language models.

docs.langchain.com

Open-source development framework for LLM applications

Python and Javascript(TypeScript) packages

Focused on composition and modularity

key value adds:

Modular components
Use cases: Common ways to combine components

Language: Large Language Model의 Language

Chain: 모듈들을 체인으로 연결하여 다른 툴의 출력을 다음 툴의 입력으로 연결하는 방식

ex) 검색 → OpenAI(LLM) → 계산

LLM을 이용해서 애플리케이션을 만들때 쓸 수 있는 툴/라이브러리 모음

모듈화로 쉽게 부품을 갈아끼울 수 있음

→ LLM은 홀로 사용하기에는 불충분하고 여러가지 소스와 지식을 결합해야 합니다.

한 API(LLM 포함)의 output이 다른 LLM의 input으로 들어가고, 또 그 LLM의 output이 다른 LLM의 input으로 들어가는 등 체인처럼 연결된다는 것으로 이해할 수 있습니다.

LangChain은 단순히 API 엑세스 하는 기능도 있지만 그 외에도 다양한 컴포넌트들이 준비되어 있으며, 아래와 같이 크게 두 가지 원칙에 기반하여 작성되었다고 합니다.

Be data-aware : 언어 모델을 다른 데이터 원본에 연결합니다.
Be agentic : 언어 모델이 해당 환경과 상호 작용할 수 있도록 허용합니다.

LangChain은 머신 러닝 스타트업인 Robust Intelligence에서 근무하던 Harrison Chase가 2022년 10월 오픈 소스 프로젝트로 시작했습니다. 이 프로젝트는 GitHub의 수백 명의 기여자의 개선, Twitter의 최신 토론, 프로젝트의 Discord 서버에서의 활발한 활동, 많은 YouTube 자습서 및 샌프란시스코와 런던의 모임을 통해 빠르게 인기를 얻었습니다.

2023년 4월, 새로운 스타트업은 Benchmark에서 1,000만 달러의 종자 투자를 발표한 지 일주일 만에 벤처 기업인 Sequoia Capital로부터 최소 2억 달러의 가치로 2,000만 달러 이상의 자금을 조달했습니다.

2023년 3월, LangChain은 Amazon, Google 및 Microsoft Azure 클라우드 스토리지를 포함한 시스템과의 통합을 포함했습니다.

뉴스, 영화 정보 및 날씨에 대한 API 래퍼 요약, 구문 및 의미 검사, 쉘 스크립트 실행을 위한 Bash 여러 웹 스크래핑 하위 시스템 및 템플릿 few-shot 학습 프롬프트 생성 지원;

코드에서 'todo' 작업 찾기 및 요약 Google 드라이브 문서, 스프레드시트 및 프레젠테이션 요약, 추출 및 생성

Google 검색 및 Microsoft Bing 웹 검색 OpenAI, Anthropic 및 Hugging Face 언어 모델 iFixit 수리 안내서 및 위키 검색 및 요약;

질문 답변, 문서 결합 및 질문 생성을 위한 MapReduce N-그램 중첩 점수;

PDF 파일 텍스트 추출 및 조작을 위한 PyPDF, pdfminer, fitz 및 pymupdf;

Python 및 JavaScript 코드 생성, 분석 및 디버깅 임베딩 및 데이터 개체를 캐시하기 위해 벡터 데이터베이스를 위배합니다.

Redis 캐시 데이터베이스 스토리지 API 요청을 위한 Python RequestsWrapper 및 기타 메서드 JSON 지원을 포함한 SQL 및 NoSQL 데이터베이스 Streamlit(로깅 포함) k-최근접 이웃 검색을 위한 텍스트 매핑;

시간대 변환 및 캘린더 작업 스레드 및 비동기 하위 프로세스 실행에서 스택 기호 추적 및 기록 및 Wolfram Alpha 웹사이트 및 SDK.

2023년 4월부터 50개 이상의 문서 유형 및 데이터 소스에서 읽을 수 있습니다.

Langflow

LangChain 설계를 위한 GUI 프로젝트

LangChain에는 사전 설정된 모듈(Module)이 존재하고 사용자는 이 모듀을 적절히 혼합하여 여러 구성 요소(Component)로 엮어낸 뒤 각 구성 요소 간의 파이프라인을 설정할 수 있습니다.

모듈에는 다양한 종류가 있으며 프레임워크 생태계의 발전에 따라 계속해서 증가하고 있습니다. 여러 개의 모듈이 모여 하나의 구성 요소를 이루고, 또 이렇게 모인 구성 요소가 체인을 이루어 마치 레고 블록을 쌓아 올리듯이 하나의 완성된 어플리케이션을 빌드하는 역할을 합니다.

Components

LangChain 사이트에서는 7개 카테고리의 컴포넌트들과 다양한 사용 사례들을 소개하고 있습니다.

Schema

ChatMessages
Document

Models

LLMs: 20+ integrations
Chat Models
Text Embedding Models: 10+ integrations

Prompts

Prompt
Prompt Templates: 챗봇 스타일 템플릿, ELI5 질문-답변 등 다양한 유형의 프롬프트를 위한 템플릿
Example Selectors: 5+ implementations
Output Parsers: 5+ implementations
- Retry/fixing logic

Indexes

Document Loaders: 50+ implementations
Text Splitters: 10+ implementations
Vector Stores: 10+ integrations
Retrievers: 5+ integrations/implementations

Memory

Chat Message History

Chains

Prompt + LLM + Output parsing
Can be used as building blocks for longer chains
More application specific chains: 20+ types

Agents - Tools

LLMs를 사용하여 어떤 행동이 취해져야 하는지 결정하는 도구입니다.

웹 검색이나 계산기와 같은 도구를 사용할 수 있으며, 모든 것은 논리적인 연산 루프에 패키지화 됩니다.

Agent Types: 5+ types
- Algorithms for getting LLMs to use tools
Agent Toolkits: 10+ implementations
- Agents armed with specific tools for a specific application

사전준비 (python 기준, 환경설정)

1. openai, langchain SDK 설치

$ pip install openai
$ pip install langchain

1-1) Optional: 구글 검색, 위키피디아, VectorStore, Huggingface Embedding 등 관련

$ pip install google-search-results
$ pip install wikipedia
$ pip install faiss-cpu # 오픈소스 벡터DB (Facebook, MIT license)
$ pip install sentence_transformers # HuggingFace Embedding 사용 위해서 필요
$ pip install tiktoken # Summarization 할때 필요

2. OpenAI API key

2-1) ChatOpenAI 생성 시

chat = ChatOpenAI(openai_api_key=openai_api_key)

2-2) 환경 변수 설정

export OPENAI_API_KEY="XXX-..."

2-3) jupyter notebook 사용 시, 환경 변수 설정

import os
os.environ["OPENAI_API_KEY"] = "..."

Schema

ChatMessages

LLM과 상호 작용하는 가장 기본이 되는 인터페이스입니다.

현재는 System, Human, AI 3종류의 사용자를 지원합니다.

System : AI에게 해야 할 일을 알려주는 배경 컨텍스트
Human : 사용자 메세지
AI : AI가 응답한 내용을 보여주는 상세 메세지

Document

텍스트와 메타데이터를 담고있는 객체입니다.

Models

LLMs(Large Language Models)

텍스트 문자열을 입력하고, 텍스트 문자열을 출력하는 모델입니다.

LangChain은 LLM 공급자가 아니며, 인터페이스만 제공합니다.

LLM 모듈은 Langchain의 엔진입니다.

각기 다른 언어 모델 혹은 언어 모델 제공 서비스가 가진 API를 Langchain의 다른 여러 모듈에서 사용할 수 있도록 정규화한 인터페이스로 제공하는 역할을 합니다.

모듈에 연결할 LLM은 어떤 종류의 모델이라고 상관없습니다.

OpenAI, Huggingface의 Inference API로 호스팅하고 있는 모델, 로컬에서 실행중인 LLaMa 기반 모델 등 모두 가능합니다.

하나의 어플리케이션에서 다양한 LLMs를 사용할 수 있습니다.

요구사항에 따라 필요한 모델을 사용하는 방식으로 어플리케이션을 잘 구성하면 불필요한 리소스 낭비를 줄이고 비용을 절감할 수 있습니다.

import { ChatOpenAI } from 'langchain/chat_models';

export const gpt4Model = new ChatOpenAI({
  temperature: 0.6,
  modelName: 'gpt-4',
  verbose: true,
  streaming: true,
});

Chat Models

채팅 모델은 언어 모델의 변형으로, 내부적으로는 언어 모델을 사용하지만 노출되는 인터페이스는 약간 다릅니다.

현재보다 나은 추상화를 위해서 지속적으로 개선이 이뤄지고 있습니다.

Text Embedding Models

텍스트를 벡터 (텍스트의 의미를 담고 있는 일련의 숫자)로 변경합니다.

주로 두 텍스트를 함께 비교할 때 사용합니다.

Prompts

모델을 프로그래밍하는 새로운 방법을 프롬프트를 사용하는 것입니다.

다른 데이터 유형(이미지, 오디오) 등을 고려하여 추상화 작업이 진행되고 있으며, 현재는 텍스트를 처리합니다.

Prompt Templates

Prompt Template은 사전 설정된 Prompt에 지정된 변수를 쉽게 넣을 수 있도록 구성한 템플릿 모듈입니다.

사용자로부터 일련의 매개변수를 가져와 프롬프트를 생성할 수 있는 텍스트 문자열이 포함되어 있습니다.

Example Selector

프롬프트에서 상황에 맞는 정보를 동적으로 배치할 수 있는 예제 중에서 쉽게 선택할 수 있는 방법을 제공합니다.

Output Parser

일반적으로 LLM은 텍스트를 출력합니다. 하지만 보다 구조화된 정보를 얻고 싶을 수 있습니다.

출력 파서를 이용하여 LLM 응답을 구조화할 수 있습니다.

출력 파서는 두 가지 컨셉을 가지고 있습니다.

Format instructions: 원하는 결과의 포맷을 지정하여 LLM에 알려줍니다.
Parser: 원하는 텍스트 출력 구조(보통 JSON)을 추출하도록 합니다.

Indexes

인덱스는 LLM이 다른 소스에서 문서를 쉽게 가져올 수 있도록 하는 방법입니다.

문서 작성을 위한 유틸리티 함수, 다양한 유형의 Index, 그리고 이러한 Index를 체이닝하여 사용합니다.

Document Loader

특정 문서나 웹페이지, 이메일, 파워포인트, 워드, 유튜브, 트위터 등에서 텍스트 정보를 긁어오는 로드하는 역할입니다.

GPT4의 최대 입력 토큰은 32,768개로 약 64,000 단어 분량의 값을 입력할 수 있습니다.

Document Loader 전체 목록

https://python.langchain.com/docs/modules/data_connection/document_loaders/

Text Splitters

문서의 내용이 길어서 LLM에 한번에 입력이 어려운 경우, 문서를 잘게 쪼개야 합니다.

이 경우 텍스트 분할기를 이용하여 도움을 받을 수 있습니다.

Vector Stores

벡터를 저장하는 데이터베이스와 관련된 기능입니다.

벡터 저장소 작업의 핵심 부분은 일반적으로 임베딩을 통해 생성되는 벡터를 만드는 것입니다.

Embedding & Vector Store

Embedding은 문서를 LLM에 입력하면 나오는 특징 벡터, Neural Network의 특정 메모리를 읽어서 만듭니다. 보통 512개 이상의 float로 만들어집니다.
의미상 비슷한 input이 들어갔을 때, 나오는 특징 벡터가 유사한 특징을 갖고, 거리상 가깝게 됩니다.

OpenAI에서 text를 넣으면 Embedding을 돌려주는 API를 제공합니다. (단, 비용 발생)
기본적으로 사용되는 OpenAI API는 비용이 발생하므로 로컬에서 HuggingfaceEmbeddings를 이용하면 GPU 가속도 지원합니다.

Vector Database는 Embedding 벡터와 텍스트를 저장하는 DB입니다.
특징 벡터와 텍스트를 저장하고 파일에 저장합니다.

Pinecone 서비스 (유료, 무료 제한적)
FAISS (페이스북, 오픈소스, 로컬)
Embeddings -> 텍스트를 저장
Embeddings로 검색할 수 있으며, 거리상 가장 가까운 항목을 가져올 수 있음. (거리를 구하는 방법은 여러 가지)
유사한 의미를 갖는 텍스트에 대한 Embedding 벡터는 거리상 가까움.

Retrievers

리트리버 인터페이스는 문서를 쉽게 결합할 수 있는 일반 인터페이스입니다.

ChatGPT Plugin Retriever

VectorStore Retrierver

Memory

기본적으로 체인과 에이전트는 상태를 저장하지 않습니다. 즉, 쿼리가 수행되면 독립적으로 처리합니다.

Memory 컴포넌트는 LLM이 정보를 기억할 수 있도록 지원합니다. 간단하게는 과거 채팅 히스토를 기억할 수도 있고, 더 복잡한 정보를 검색할 수도 있습니다.

즉, ChatAPI는 stateless이기 때문에 그 전에 대한 기억을 하기 위한 메모리 저장 기능입니다.

Memory 컴포넌트 목록

https://python.langchain.com/docs/modules/memory/

Chat Message History

ChatMessageHistory 클래스는 Human, AI 메세지를 저장한 다음 모두 가져올 수 있습니다.

Chains

다양한 LLM을 호출하는데 사용되는 컴포넌트입니다.

Sequential Chains

LLMChaing을 이용하여 LLM 출력을 다른 LMM의 입력으로 사용할 수 있도록 합니다.

Summarize Chains

Load된 Document를 이용하여 LLM으로 요약합니다.

한번에 처리가 어려운 문서를 나눠서 요약할 수도 있습니다.

from langchain.chains.summarize import load_summarize_chain

chain = load_summarize_chain(chat, chain_type="map_reduce", verbose=True)
chain.run(docs[1:3])

chain_type

"stuff": LLM 한 번에 다 보냄. 길면 오류.
"map_reduce": 나눠서 요약, 전체 요약본 다시 요약
"refine": (요약 + 다음 문서) => 요약
"map_rerank": 점수 매겨서 중요한 것으로 요약

Agents

사용자 입력에 따라 Agent는 여러 도구 중 호출할 수 있는 경우 도구를 결정할 수 있습니다.

Agent는 LLM을 사용하여 수행할 작업과 순서를 결정합니다. 이 과정에서 도구를 사용하여 출력을 관찰하거나 사용자에게 반환할 수 있습니다.

Agent는 Langchain에서 가장 핵심적인 역할을 하는 모듈일 뿐 아니라, 가장 복잡하고 정교한 사고 작업의 실행을 담당하는 모듈입니다.

Agent의 개념은 몇가지 핵심적인 생성 인공지능 논문에 그 뿌리를 두고 있으며, 새로운 접근 방법이 제시될 때 마다 거기에 맞추어 계속해서 개선되고 있습니다.

Agent는 주체적으로 주어진 자원을 활용하여 어떤 작업을 실행하는 역할을 합니다.

Action Agent

1. Action planning / Reasoning

자신에게 주어진 Task를 수행하기 위해, 주어진 도구(Tools)와 현재 상황을 토대로 사고(Thought)하여 필요한 다음 행동을 설계합니다.

2. 설계가 끝났다면 현재 필요한 Action을 적절한 Input과 함께 수행합니다.

3. Chain of Thought

Action의 수행이 끝나면 그 수행 결과를 분석(Observation)하고, 분석한 결과와 현재까지 수행했던 Action의 결과를 토대로 1~3의 작업을 반복합니다.

4. 결과를 분석하여 Task가 완료되었거나 완료 가능하다면 작업 수행을 완료하고 종료합니다.

Plan-and-Execute Agent

현재 단계의 Action만 추론하는게 아닌 전체 실행의 단계를 처음부터 모두 구상하여 단계별로 실행합니다.

Agent: 어떤 툴을 어떤 순서로 실행할지 결정하는 역할(LLM 이용)

Tool: 특정 일을 하는 역할. 예) 구글 검색, DB 조회, Python 실행/계산

Tools

구글 검색, 데이터베이스 조회, Python REPL 등을 이용할여 현재 문자열을 입력받아 결과값을 출력합니다.

OpenAI Plugins와 유사한 영역입니다.

Tool은 Agent가 각 Action을 수행할 때 사용할 수 있도록 추상화된 일종의 함수입니다.

Agent는 자신이 사용할 수 있는 Tool의 목록을 아래 값과 함께 프롬프트의 일부로 전달 받게 됩니다.

Tool의 이름
해당 Tool의 Description (어떤 역할을 수행하는 Tool인지, Input은 어떻게 전달해야 하는지 등)

interface Tool {
  call(arg: string): Promise<string>;

  name: string;

  description: string;
}

Langchain에 정의된 Tool의 Interface는 위와 같습니다. 간단하지만 유연하며, 문자열으로 결과 값을 반환하기만 한다면 call 내부에서 어떤 동작을 수행해도 좋습니다.

‍

여러가지 다른 모듈로 구성된 복잡한 Agent마저도 다른 Agent에게 Tool의 형태로 제공될 수 있으며, 이 간단하지만 강력한 Interface가 Langchain의 활용 가능성을 무궁무진하게 끌어올리는 요소 중 하나입니다.

Conclusion

LangChain은 아주 빠른 속도로 개발되고 있는 프로젝트 입니다. 그러나, 그 자체가 완벽한 솔루션은 아닙니다.

LLM 역시 확률 모델이기 때문에 포맷을 마음대로 어겨서 대답하는 경우도 있고, 끝없이 chaining하기도 합니다.

뿐만 아니라, 툴의 output이 완전치 못하거나, 검색 결과가 엉망이거나 온전하지 않는 경우들도 있습니다.

그럼에도, LangChain 같은 프레임워크를 이용해서 LLM을 이용한 애플리케이션 개발을 위한, 프롬프트 엔지니어링 작업이 가능하다는 부분에서는 기대가 크다고 할 수 있을거 같습니다.

References

[Prompt Engineering] Best Practices of Prompt Engineering

데이터 세상 — Mon, 17 Jul 2023 16:08:24 +0900

출처: https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4

Prompt Engineering

프롬프트 엔지니어링은 OpenAI의 ChatGPT와 같은 LLM(Large Language Models)에 대한 프롬프트라는 명령을 만드는 프로세스를 말합니다. 광범위한 작업을 해결할 수 있는 LLM의 엄청난 잠재력을 통해 프롬프트 엔지니어링을 활용하면 상당한 시간을 절약하고 인상적인 응용 프로그램을 쉽게 개발할 수 있습니다. 이 거대한 모델의 모든 기능을 최대한 활용하여 우리가 상호 작용하고 혜택을 받는 방식을 변화시키는 열쇠를 쥐고 있습니다.

Best Practices for Prompt Engineering

여기서 주목해야 할 한 가지 중요한 점은 ChatGPT가 LLM만이 아니라는 것입니다.
RLHF(Reinforcement Learning from Human Feedback)로 더욱 finetuned된 SFT(Supervised Fine-Tuning) 모델이기도 합니다. 현재 많은 개발자가 실험 프로젝트 및 개인 탐색을 위해 OpenAI의 모델을 활용하고 있지만 개인 정보 보호 및 기타 이유로 인해 대기업의 생산 환경에 배포하기에 더 적합한 다른 모델이 있습니다.

기본 모델(예: GPT-3, Chinchilla, LLaMA)이 fine-tuning 및 RLHF 교육을 받은 비서(예: ChatGPT, Koala, Alpaca)와 동일한 방식으로 작동하지 않는 이유를 알고 싶다면 Andrej Karpathy가 GPT와 유사한 모델을 훈련하고 사용하는 방법에 대해 설명합니다. 더 깊은 이해를 위해 확인하는 것이 좋습니다.

State of GPT

Microsoft Build: Highlights from 2023

Keep sharpening your skills with the event’s best on-demand sessions and find upcoming opportunities to spark your interest. Be sure to join us next year for the latest on developer innovations.

build.microsoft.com

Iterative Prompt Development

머신 러닝 모델이 반복 프로세스를 통해 구축되는 것처럼 효과적인 프롬프트도 유사한 반복 접근 방식을 통해 구성됩니다.

가장 재능 있는 개발자라도 첫 번째 시도에서 완벽한 프롬프트를 만들지 못할 수 있으므로 원하는 목표를 달성하기 위해 수십 번의 시도가 필요할 수 있는 현실에 대비하십시오.

Building data-based applications is always an iterative process.

예를 통해 사물을 이해하는 것이 항상 더 좋습니다. 작업 설명에서 정보를 추출하는 시스템 구축을 시작하겠습니다.

초기 프롬프트는 모델에 특정 정보를 추출하도록 요청하는 것처럼 간단할 수 있습니다. 또한 구분 기호를 사용할 것입니다.

로컬 애플리케이션이 프롬프트 인젝션 공격(prompt injection attacks)에 취약할 가능성은 낮지만 이는 좋은 습관입니다.

* Prompt Injection

prompt injection은 언어 모델의 출력을 하이재킹하는 프로세스입니다.

이를 통해 해커는 모델이 원하는 모든 것을 말할 수 있습니다.

신뢰할 수 없는 텍스트가 프롬프트의 일부로 사용될 때 발생할 수 있습니다.

Asking for a Structural Output

논의하고 싶은 두 번째 요점은 모델이 예상되는 구조적 형식으로 결과를 출력하도록 요청하는 것입니다.

웹 인터페이스를 통해 LLM과 상호 작용하는 데 중요하지 않을 수 있지만(예: ChatGPT에서 수행하는 작업) 결과를 구문 분석하는 프로세스가 훨씬 쉽기 때문에 LLM 기반 애플리케이션에 매우 유용합니다.

일반적인 방법 중 하나는 JSON 또는 XML과 같은 형식을 사용하고 특정 키를 정의하여 출력 데이터를 구성하는 것입니다.

LMQL과 같은 언어는 언어 모델 프롬프트에 프로그래밍과 유사한 접근 방식을 제공합니다.

이러한 도구는 지속적으로 발전하고 개선됨에 따라 우리가 LLM과 상호 작용하는 방식을 혁신하여 보다 정확하고 구조화된 응답을 얻을 수 있는 잠재력을 가지고 있습니다.

LMQL query example

Chain-of-Thought Reasoning

CoT(Chain-of-Thought) 추론은 추론이 필요한 작업에 매우 유용한 것으로 밝혀졌습니다.

따라서 LLM에 훌륭한 접근 방식이 될 수 있는 여러 개의 간단한 단계로 나누어 작업을 해결할 기회가 있다면...

원본 논문의 예를 살펴보십시오.

문제를 더 작은 단계로 나누고 명시적인 지침을 제공함으로써 모델이 올바른 출력을 생성하도록 도울 수 있습니다.

논문출처: https://arxiv.org/pdf/2201.11903.pdf

Introducing CoT prompting

흥미롭게도 프롬프트 끝에 간단하고 마법 같은 'let’s think step by step(단계적으로 생각해 봅시다)'를 추가하면 결과가 향상될 수 있다는 사실이 나중에 드러납니다. 이 기술은 zero-shot CoT로 알려져 있습니다. 따라서 토큰을 생성하는 것 외에는 생각을 표현할 수 있는 다른 기능이 없기 때문에 모델이 'think out loud(소리내어 생각)'할 수 있도록 프롬프트를 구성하십시오.

지금까지 가장 좋은 zero-shot CoT 프롬프트는

'Let’s work this out in a step by step way to be sure we have the right answer(정답을 얻을 수 있도록 단계별로 해결해 봅시다)'입니다.

Best zero-shot prompts, 출처: LLMs Are Human-Level Prompt Engineers paper

훨씬 더 복잡한 작업을 해결하기 위한 보다 정교한 접근 방식이 현재 활발히 개발되고 있습니다. 일부 시나리오에서는 훨씬 뛰어난 성능을 발휘하지만 실제 사용은 다소 제한적입니다. 자기 일관성(self-consistency)과 생각의 나무(Tree of Thoughts)라는 두 가지 기술을 언급하겠습니다.

자기 일관성 논문(self-consistency paper)의 저자는 다음과 같은 접근 방식을 제안했습니다.

초기 모델 출력에 의존하는 대신 여러 번 샘플링하고 다수결 투표를 통해 결과를 집계할 것을 제안했습니다.

이 기술은 고전적인 머신 러닝에서 직관과 앙상블의 성공에 의존함으로써 모델의 견고성을 향상시킵니다.

출처: Self-Consistency Improves CoT Reasoning in Language Models paper

Self-consistency(출처: Self-Consistency Improves CoT Reasoning in Language Models paper)

집계(aggregation) 단계를 구현하지 않고 자체 일관성을 적용할 수도 있습니다. 출력이 짧은 작업의 경우 모델에 몇 가지 옵션을 제안하고 가장 좋은 옵션을 선택하도록 요청합니다.

ToT(Tree of Thoughts)는 이 개념을 한 단계 더 발전시킵니다.

그것은 모델의 '추론적 생각(resoning thoughts)'에 대해 트리 검색 알고리즘을 적용하는 아이디어를 제시하며, 기본적으로 잘못된 가정을 발견했을 때 역추적합니다.

출처: Tree of Thoughts: Deliberate Problem Solving with LLMs paper

Tree of Thoughts (출처:Tree of Thoughts: Deliberate Problem Solving with LLMs paper)

특정 시나리오의 경우 사고 연쇄 추론(Chain-of-Thought reasoning)을 사용할 필요는 없지만 두 단계로 요약 작업을 수행하도록 모델을 유도할 수 있습니다. 처음에는 전체 직무 설명을 요약한 다음 직무 책임에 초점을 맞춰 도출된 요약을 요약할 수 있습니다.

Few-shot Learning

우리가 다룰 마지막 기술은 상황 내 학습이라고도 하는 few-shot 학습입니다. 작업에 대한 명확한 그림을 모델에 제공하기 위해 몇 가지 예를 프롬프트에 통합하는 것만큼 간단합니다.

이러한 예는 작업과 관련이 있을 뿐만 아니라 데이터의 다양성을 요약할 수 있도록 다양해야 합니다. 특히 파이프라인에 단계가 많거나 입력이 긴 경우 CoT를 사용할 때 few-shot 학습을 위한 데이터 '레이블 지정'이 조금 더 어려울 수 있습니다. 그러나 일반적으로 결과는 노력할 가치가 있습니다. 또한 몇 가지 예에 레이블을 지정하는 것이 기존 ML 모델 개발에서와 같이 전체 훈련/테스트 세트에 레이블을 지정하는 것보다 훨씬 저렴합니다.

프롬프트에 예제를 추가하면 요구 사항을 더 잘 이해할 수 있습니다. 예를 들어 글머리 기호 형식의 최종 요약을 선호한다는 것을 입증하면 모델이 템플릿을 미러링합니다.

Summarizing Best Practices

프롬프트 엔지니어링을 위한 모범 사례를 요약하려면 다음을 고려하십시오.

실험하는 것을 두려워하지 마십시오. 다양한 접근 방식을 시도하고 점진적으로 반복하면서 모델을 수정하고 한 번에 작은 단계를 수행합니다.
입력에 구분 기호를 사용하고(예: ) 구조화된 출력을 요청합니다(예: JSON)
작업을 완료하기 위한 작업 목록을 제공합니다. 가능할 때마다 모델에 일련의 작업을 제공하고 '내부 생각'을 출력하도록 합니다.
짧은 출력의 경우 여러 제안을 요청하십시오.
예를 제공하십시오. 가능하면 원하는 출력으로 데이터를 나타내는 여러 가지 다양한 예를 모델에 보여줍니다.

이 프레임워크가 정보 추출, 요약, 이메일과 같은 텍스트 생성 등과 같은 광범위한 일상 작업을 자동화하기 위한 충분한 기반을 제공한다고 말하고 싶습니다. 성능을 더욱 향상시키기 위해 특정 데이터 세트에서 모델을 fine-tuning하여 모델을 최적화합니다. 또한 플러그인과 에이전트가 빠르게 개발되고 있지만 완전히 다른 이야기입니다.

References

https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4

[Generative AI][Large Language Model] State of GPT

데이터 세상 — Mon, 17 Jul 2023 16:07:07 +0900

State of GPT

2023.5.24

Speaker: Andrej Karpathy | OpenAI

State of GPT를 주제로 OpenAI Andrej Karpathy가 발표한 내용을 발췌하여 정리한 내용입니다.

ChatGPT와 같은 GPT Assistant training pipeline에 대해 토큰화에서 pretraining, supervised finetuning, Reinforcement Learning from Human Feedback(RLHF)에 대해 알아보세요. 프롬프트 전략, finetuning, 빠르게 성장하는 도구 생태계 및 향후 확장을 포함하여 이러한 모델을 효과적으로 사용하기 위한 실용적인 기술 및 정신 모델에 대해 자세히 알아보십시오.

https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2

Microsoft Build: Highlights from 2023

Keep sharpening your skills with the event’s best on-demand sessions and find upcoming opportunities to spark your interest. Be sure to join us next year for the latest on developer innovations.

build.microsoft.com

How to train your (Chat)GPT Assistant - GPT Assistant training pipeline

pretraining, supervised fine-tuning, reward modeling, reinforcement learning의 네 가지 주요 단계가 있습니다.

그들은 서로를 연속적으로 따릅니다.

이제 각 단계에는 해당 단계를 지원하는 데이터 세트가 있습니다. 목적을 위해 신경망 훈련을 위한 목표가 될 알고리즘을 가지고 있습니다. 그리고 결과 모델이 있습니다.

Pretraining Stage

이 단계는 이 다이어그램에서 특별합니다. 그리고 이 다이어그램은 모든 계산 작업이 기본적으로 발생하는 단계이기 때문에 확장할 수 없습니다. 이것은 교육 컴퓨팅 시간의 99%를 차지합니다.
그래서 여기에서 우리는 슈퍼컴퓨터에 있는 수천 개의 GPU와 잠재적으로 수개월의 훈련을 통해 인터넷 규모의 데이터 세트를 다루고 있습니다. 다른 세 단계는 몇 시간 또는 며칠 동안 GPU 몇 개에 훨씬 더 가까운 fine tuning 단계입니다.

첫째, 많은 양의 데이터를 수집할 것입니다. 다음은 이 LLaMA 기반 모델을 발표한 Meta에서 발표한 이 백서에서 가져온 데이터 혼합이라고 부르는 예입니다.

이제 이러한 컬렉션에 들어가는 데이터 세트의 종류를 대략적으로 볼 수 있습니다. 따라서 웹 스크랩인 Common Crawl, Common Crawl이기도 한 C4, 그리고 일부 고품질 데이터 세트도 있습니다.

예를 들어 GitHub, Wikipedia, Books, Archive, Stock Exchange 등이 있습니다. 이것들은 모두 함께 섞인 다음 주어진 비율에 따라 샘플링되고 GPT의 신경망에 대한 훈련 세트를 형성합니다.

이제 이 데이터를 실제로 학습하기 전에 한 가지 전처리 단계를 더 거쳐야 합니다. 바로 토큰화(tokenization)입니다. 그리고 이것은 기본적으로 우리가 인터넷에서 스크랩한 원시 텍스트를 일련의 정수로 번역한 것입니다. 이것이 GPT가 작동하는 기본 표현이기 때문입니다.

이제 이것은 텍스트 조각과 토큰 및 정수 사이의 무손실 변환이며 스테이지에 대한 여러 알고리즘이 있습니다. 일반적으로 예를 들어 작은 텍스트 청크를 반복적으로 병합하고 토큰으로 그룹화하는 바이트 쌍 인코딩(BPE, Byte Pair Encoding)과 같은 것을 사용할 수 있습니다.

그래서 여기서는 이러한 토큰의 일부 예를 보여주고 있으며 이것은 실제로 transofomer에 공급되는 원시 정수 시퀀스(raw integer sequence)입니다.

이제 여기에서 단계를 제어하는 하이퍼 매개변수에 대한 두 종류의 유사한 예를 보여주고 있습니다. GPT-4, 훈련 방법 등에 대한 정보를 너무 많이 공개하지 않았습니다. 그래서 저는 GPT-3의 수치를 사용하고 있지만, 물론 GPT-3는 지금, 약 3년 전쯤이면 조금 오래된 것입니다. 그러나 LLaMA는 Meta의 상당히 최근 모델입니다.

그래서 이것은 우리가 사전 훈련을 할 때 처리하는 대략적인 규모입니다. 어휘 크기는 일반적으로 10,000 토큰입니다. 컨텍스트 길이는 일반적으로 2,000, 4,000 또는 요즘에는 100,000 정도입니다. 그리고 이것은 GPT가 시퀀스에서 다음 정수를 예측하려고 할 때 볼 정수의 최대 수를 제어합니다.

예를 들어 LLaMA의 경우 대략적인 매개변수 수가 650억개임을 알 수 있습니다. 이제 LLaMA에는 GPT-3의 1,750억 개의 매개변수와 비교하여 65개의 매개변수만 있지만 LLaMA는 훨씬 더 강력한 모델이며 직관적으로 이는 모델이 훨씬 더 오래 훈련되기 때문입니다.

포함된 매개변수의 수만으로 모델의 성능을 판단해서는 안 됩니다.

트랜스포머 신경망을 지정하는 데 일반적으로 사용되는 여러 하이퍼파라미터의 표가 나와 있습니다.

heads의 수, 차원(dimension) 크기, 레이어(layers) 수 등이 있습니다.

그리고 하단에는 몇 가지 학습 하이퍼파라미터가 표시되어 있습니다. 예를 들어, 65B 모델을 교육하기 위해 Meta는 2,000개의 GPU, 약 21일의 교육, 약 수백만 달러를 사용했습니다. 이것이 사전 훈련 단계에서 염두에 두어야 할 대략적인 크기입니다.

이제 실제로 pretraining을 하면 어떻게 될까요?

대략적으로 말하자면, 우리는 토큰을 가져와 데이터 배치에 배치할 것입니다. 우리는 transformer에 입력할 이러한 배열을 가지고 있으며 이러한 배열은 배치 크기인 B이고 행에 쌓인 모든 독립적인 예이며 B x T이고 T는 최대 컨텍스트 길이입니다.

제 사진에는 10개밖에 없지만 이것이 컨텍스트 길이이므로 2,000, 4,000 등이 될 수 있습니다. 이것은 매우 긴 행이며 우리가 하는 일은 이러한 문서를 가져와서 행으로 묶고 이러한 특수 텍스트 끝 토큰으로 구분하여 기본적으로 transformer에게 새 문서가 시작되는 위치를 알려줍니다. 그래서 여기에 문서의 몇 가지 예가 있고 이를 이 입력으로 확장했습니다.

이제 이 모든 숫자를 transformer에 공급할 것입니다. 그리고 하나의 특정 셀에 초점을 맞추겠습니다. 하지만 이 다이어그램의 모든 셀에서 동일한 일이 발생합니다.

이제 녹색 셀을 살펴보겠습니다. 녹색 셀은 그 앞에 있는 모든 토큰을 살펴볼 것이므로 모든 토큰은 노란색입니다. 그리고 우리는 전체 컨텍스트를 transformer 신경망에 공급할 것입니다. 그리고 transformer는 시퀀스의 다음 토큰(이 경우에는 빨간색)을 예측하려고 시도할 것입니다.

이제 transformer는 안타깝게도 이 신경망 아키텍처에 대해 자세히 설명할 시간이 많지 않습니다. 일반적으로 또는 이와 유사한 것입니다.

물론 이러한 매개 변수를 tuning하면 이러한 셀 각각에 대해 약간씩 다른 예측 분포를 얻게 됩니다. 예를 들어 어휘 크기가 50,257 토큰인 경우 다음 항목에 대한 확률 분포를 지정해야 하기 때문에 기본적으로 뒤따를 모든 항목에 대한 확률을 가질 수 있기 때문에 그만큼 많은 수를 갖게 됩니다.

이제 특정 셀에 대한 이 특정 예에서 513이 다음에 올 것입니다. 그래서 우리는 이것을 transformer weights(가중치)를 업데이트하기 위한 supervision 소스로 사용할 수 있습니다. 그래서 우리는 이것을 기본적으로 병렬의 모든 단일 셀에 적용하고 있습니다. 그리고 우리는 배치를 계속 교환하고 transformer가 시퀀스에서 다음에 오는 토큰에 대해 올바른 예측을 하도록 노력하고 있습니다.

이 모델 중 하나를 훈련할 때 이것이 어떻게 보이는지 좀 더 구체적으로 보여드리겠습니다. 이것은 실제로 New York Times에서 나온 것이며 셰익스피어에 대해 소규모 GPT를 교육했습니다. 그래서 여기에 셰익스피어의 작은 스니펫이 있고 그들은 그것에 대해 GPT를 교육했습니다.

이제 초기화 초기에 GPT는 완전히 임의의 가중치로 시작하므로 완전히 임의의 출력도 얻게 됩니다. 그러나 시간이 지남에 따라 GPT를 더 오래 훈련할수록 모델에서 점점 더 일관되고 일관된 종류의 샘플을 얻게 됩니다.

물론 샘플에서 샘플링하는 방식은 다음에 무엇이 올지 예측하는 것입니다. 해당 분포에서 샘플링하고 계속 프로세스에 다시 공급하면 기본적으로 큰 시퀀스를 샘플링할 수 있습니다.

그래서 마지막에는 transformer가 단어와 공백을 넣을 위치, 쉼표를 넣을 위치 등에 대해 학습했음을 알 수 있습니다. 그래서 우리는 시간이 지남에 따라 점점 더 일관된 예측을 하고 있습니다.

이것은 모델 사전 교육을 수행할 때 보고 있는 종류의 플롯입니다. 효과적으로, 우리는 당신이 훈련하면서 시간이 지남에 따라 손실 함수를 보고 있습니다. 그리고 손실이 낮다는 것은 트랜스포머가 올바른 것을 예측한다는 것을 의미합니다. 시퀀스에서 올바른 다음 정수에 더 높은 확률을 제공합니다.

이제 한 달 후에 이 모델을 학습시킨 후 이 모델로 무엇을 할까요? 우리가 현장에서 가장 먼저 알아차린 것은 이러한 모델이 기본적으로 언어 모델링 프로세스에 있고 매우 강력한 일반 표현을 학습하며 임의의 다운스트림 작업에 대해 매우 효율적으로 fine-tuning할 수 있다는 것에 관심이 있습니다.

예를 들어, 감정 분류에 관심이 있는 경우 이전에는 많은 긍정과 부정을 수집한 다음 이를 위해 일종의 NLP 모델을 훈련시키는 접근 방식을 사용했습니다. 그러나 새로운 접근 방식은 감정, 분류를 무시하고 대규모 언어 모델 사전 교육을 수행하고 대규모 transformer를 교육한 다음에만 가능합니다. 몇 가지 예만 있을 수 있으며 이를 위해 모델을 매우 효율적으로 fine-tuning할 수 있습니다.

이것은 실제로 매우 잘 작동합니다. 그 이유는 기본적으로 transformer가 언어 모델링 작업에서 엄청난 양의 작업을 멀티태스킹해야 하기 때문입니다. 왜냐하면 다음 토큰을 예측하는 것만으로도 텍스트의 구조와 그 안의 모든 다른 개념에 대해 많은 것을 이해해야 하기 때문입니다.

이것이 GPT-1이었습니다.

이제 GPT-2 즈음에 사람들은 실제로 fine-tuning보다 훨씬 더 낫다는 사실을 알아차렸습니다. 실제로 이러한 모델을 매우 효과적으로 유도할 수 있습니다. 그래서 이들은 언어 모델이고 그들은 문서를 완성하기를 원합니다. 따라서 이러한 가짜 문서를 배열하는 것만으로도 실제로 작업을 수행하도록 그들을 속일 수 있습니다.

예를 들어, 우리는 약간의 구절이 있고 "QA, QA, QA"와 같은 종류의 작업을 수행합니다. 이것은 few-shot 프롬프트라고 합니다. 그런 다음 Q를 수행한 다음 transformer가 시도할 때 문서를 완성하면 실제로 질문에 대한 답변이 됩니다. 따라서 이것은 기본 모델을 프롬프트 엔지니어링하여 일종의 문서를 모방하고 작업을 수행하도록 믿게 만드는 예입니다.

그래서 이것은 prompting은 fine-tuning을 촉구하고 신경망 훈련이나 fine-tuning 등이 없어도 실제로 많은 문제에서 매우 잘 작동할 수 있음을 확인하는 시대가 시작되었다고 생각합니다.

이제 그 이후로 모든 사람이 훈련한 기본 모델의 전체 진화 트리를 보았습니다. 모든 모델을 사용할 수 있는 것은 아닙니다. 예를 들어 GPT-4 기본 모델은 출시되지 않았습니다. API를 통해 상호 작용할 수 있는 GPT-4 모델은 기본 모델이 아닙니다. 그것은 보조 모델이고 우리는 그것들을 얻는 방법을 조금 다룰 것입니다.

GPT-3 기본 모델은 DaVinci라는 이름의 API를 통해 사용할 수 있으며 GPT-2 기본 모델은 GitHub 저장소의 가중치로도 사용할 수 있습니다. 그러나 현재 가장 사용 가능한 기본 모델은 Meta의 LLaMA 시리즈일 것입니다.

이제 한 가지 지적할 점은 기본 모델이 assistant(조수)가 아니라는 것입니다. 그들은 당신의 질문에 답하기를 원하지 않습니다. 그들은 단지 문서를 완성하기를 원할 뿐입니다. 그래서 만약 당신이 그들에게 "빵과 치즈에 대한 시를 써라"라고 말한다면, 그것은 단지 – 알다시피, 그것은 더 많은 질문으로 질문에 답할 것입니다. 문서라고 생각하는 것을 완성하는 것입니다.

그러나 작동 가능성이 더 높은 기본 모델에 대해 특정 방식으로 메시지를 표시할 수 있습니다. 예를 들어 빵과 치즈에 대한 시가 있습니다. 이 경우 올바르게 자동 완성됩니다.

기본 모델을 보조자로 속일 수도 있습니다. 이를 수행하는 방법은 사람과 조수 사이에 일종의 문서가 있고 일종의 정보를 교환하는 것처럼 보이게 하는 특정 몇 번만 프롬프트를 만드는 것입니다.

그런 다음 맨 아래에 쿼리를 끝에 넣으면 기본 모델이 조건 자체와 같이 도움이 되는 도우미 및 일종의 답변이 될 것입니다. 그러나 이것은 그다지 신뢰할 수 없으며 실제로는 잘 작동하지 않지만 수행할 수는 있습니다.

Supervised Fine-tuning Stage

따라서 대신 기본 모델 문서 완성자가 아닌 실제 GPT 조수를 만드는 다른 경로가 있습니다.

그래서 supervised fine-tuning으로 우리를 데려갑니다. 따라서 supervised fine-tuning 단계에서는 작지만 고품질 데이터 세트를 수집할 것입니다. 그리고 이 경우 인간 계약자에게 신속하고 이상적인 응답 형식의 데이터를 수집하도록 요청할 것입니다. 그리고 우리는 이것들을 많이, 일반적으로 수만 개 정도 수집할 것입니다.

그런 다음 이 데이터에 대해 언어 모델링을 계속 수행할 것입니다. 따라서 알고리즘적으로 변경된 사항은 없습니다. 훈련 세트를 교체하는 중입니다. 그래서 예전에는 인터넷 문서였는데, 기본적으로 QA 즉각 대응하는 자료의 경우는 대용량/저품질, 저건 저품질/저품질이었습니다.

그래서 우리는 여전히 언어 모델링을 할 것입니다. 그런 다음 훈련 후 SFT(Supervised Fine-Tuning) 모델을 얻습니다. 이 모델을 실제로 배포할 수 있습니다. 그들은 실제 조수이며 어느 정도 작동합니다.

예제 데모가 어떤 모습인지 보여드리겠습니다. 그래서 여기에 인간 계약자가 생각해 낼 수 있는 것이 있습니다. "Can you write a short introduction about the relevance of the term monopsony (단독이라는 용어의 관련성에 대한 짧은 소개를 써주실 수 있나요)?" 또는 이와 유사한 질문이 있습니다. 그런 다음 계약자도 이상적인 응답을 작성합니다.

그리고 이러한 응답을 작성할 때 광범위한 라벨 문서를 따르고 있으며 도움이 되고 진실하며 무해해야 합니다. 여기에 있는 라벨링 지침입니다. 아마 당신은 그것을 읽을 수 없을 것이고 나도 읽을 수 없을 것입니다. 그러나 그들은 길고 이것은 지시를 따르고 이 지시를 완료하려고 노력하는 사람들일 뿐입니다.

이것이 데이터 세트의 모습입니다. 그리고 이러한 모델을 훈련시킬 수 있으며 이것은 어느 정도 작동합니다.

Reward Modeling

이제 실제로 여기에서 파이프라인을 계속 진행하고 보상 모델링과 강화 학습으로 구성된 인간 피드백의 강화 학습인 RLHF(Reinforcement Learning from Human Feedback)로 이동할 수 있습니다.

그래서 그 부분을 다룬 다음 추가 단계를 거쳐야 하는 이유와 SFT 모델과 비교하는 방법에 대해 다시 설명하겠습니다.
따라서 보상 모델링 단계에서 우리가 할 일은 이제 데이터 수집을 비교 형식으로 전환하는 것입니다.

여기 데이터 세트가 어떻게 생겼는지에 대한 예가 있습니다. 동일한 프롬프트가 맨 위에 있습니다. 어시스턴트에게 주어진 문자열이 회문인지 확인하는 프로그램이나 함수를 작성하도록 요청하는 것입니다.

그런 다음 우리가 하는 일은 이미 학습한 SFT 모델을 가져와 여러 완성을 만드는 것입니다. 따라서 이 경우에는 모델이 생성한 3개의 완성이 있습니다. 그런 다음 사람들에게 이러한 완료 순위를 매기도록 요청합니다.

따라서 잠시 동안 이것을 응시한다면 이러한 예측 중 일부를 비교하기에는 매우 어려운 일이며 사람들은 단일 프롬프트 완료 쌍에 몇 시간이 걸릴 수 있습니다. 그러나 이들 중 하나가 다른 것보다 훨씬 낫다고 판단하고 순위를 매긴다고 가정해 봅시다.

그런 다음 이러한 완성 사이의 가능한 모든 쌍에 대한 이진 분류와 매우 유사한 것으로 이를 따를 수 있습니다.

이제 행에 프롬프트를 배치하고 프롬프트는 여기에 있는 세 행 모두에서 동일합니다. 따라서 모두 같은 프롬프트이지만 완성도가 다르므로 노란색 토큰은 SFT 모델에서 나옵니다.

그런 다음 마지막에 또 다른 특별 보상 판독 토큰을 추가하고 기본적으로 이 단일 녹색 토큰에서만 transformer를 감독하고 transformer는 해당 프롬프트에 대한 완료가 얼마나 좋은지에 대한 보상을 예측합니다.

그래서 기본적으로 각 완료의 품질에 대해 추측합니다. 그런 다음 그것들 모두에 대해 추측을 하면 우리는 그것들의 순위를 알려주는 실측 정보도 갖게 됩니다. 그래서 우리는 실제로 이 숫자 중 일부가 다른 것보다 훨씬 높아야 한다고 강제할 수 있습니다. 우리는 이것을 손실 함수로 공식화하고 모든 계약자들의 비교에서 나오는 실측과 일치하는 보상 예측을 하도록 모델을 훈련합니다.

이것이 우리가 보상 모델을 훈련하는 방법이며 이를 통해 프롬프트에 대한 완료가 얼마나 좋은지 점수를 매길 수 있습니다.

Reinforcement Learning Stage

일단 보상 모델이 있으면 그 자체로는 어시스턴트로서 그다지 유용하지 않기 때문에 이것을 배치할 수 없지만, 지금 뒤따르는 강화 학습 단계에는 매우 유용합니다. 보상 모델이 있기 때문에 주어진 프롬프트에 대한 임의 완료의 품질에 점수를 매길 수 있습니다.

따라서 강화 학습 중에 우리가 하는 것은 기본적으로 다시 많은 프롬프트 모음을 얻고 이제 보상 모델과 관련하여 강화 학습을 수행하는 것입니다.

그 모습은 다음과 같습니다.

우리는 하나의 프롬프트를 취하여 행으로 배치하고 이제 SFT 모델을 사용합니다. 우리는 기본적으로 SFT 모델로 초기화된 학습하려는 모델을 사용하여 노란색으로 일부 완성을 생성합니다. 그런 다음 보상 토큰을 다시 추가하고 현재 고정된 보상 모델에 따라 보상을 읽습니다. 더 이상 변하지 않습니다.

이제 보상 모델은 이러한 프롬프트에 대한 모든 단일 완료의 품질을 알려줍니다. 따라서 우리가 할 수 있는 것은 이제 기본적으로 동일한 언어 모델링 손실 함수를 적용할 수 있지만 현재 노란색 토큰에 대해 훈련하고 있습니다. 그리고 우리는 보상 모델이 나타내는 보상으로 언어 모델링 목표를 저울질하고 있습니다.

예를 들어, 첫 번째 행에서 보상 모델은 이것이 상당히 높은 점수 완료라고 말했습니다. 따라서 첫 번째 행에서 샘플링하게 된 모든 토큰은 강화될 것이며 미래에 더 높은 확률을 갖게 될 것입니다. 반대로 두 번째 행에서 보상 모델은 이 완성, -1.2를 정말 좋아하지 않았습니다. 따라서 두 번째 행에서 샘플링한 모든 단일 토큰은 미래에 대해 약간 더 높은 확률을 갖게 될 것입니다. 그리고 우리는 많은 프롬프트에서 많은 배치로 이 작업을 반복합니다. 그리고 기본적으로 여기에 노란색 토큰을 생성하는 정책을 얻습니다. 기본적으로 모든 것이 여기에 있습니다. 여기에서 완료한 모든 항목은 이전 단계에서 교육한 보상 모델에 따라 높은 점수를 받습니다.

그것이 우리가 훈련하는 방법입니다. 이것이 바로 RLHF 파이프라인입니다. 그리고 마지막에는 배포할 수 있는 모델을 얻습니다. 예를 들어 ChatGPT는 RLHF 모델이지만 (inaudible) 등의 다른 모델은 SFT 모델입니다. 우리는 기본 모델, SFT 모델 및 RLHF 모델을 보유하고 있으며 이는 일종의 상태와 비슷합니다.

Why RLHF?

이제 왜 RLHF를 하고 싶습니까? 그다지 흥미롭지 않은 한 가지 대답은 그것이 더 잘 작동한다는 것입니다. 이것은 instruct GPT 논문에서 나온 것입니다. 얼마 전 이러한 실험에 따르면 이러한 PPO 모델은 RLHF입니다. 그리고 우리는 그것들을 인간에게 줄 때 많은 비교에서 기본적으로 선호된다는 것을 봅니다. 인간은 기본적으로 보조자가 되라는 메시지가 표시되는 기본 모델에 비해 SFT 모델에 비해 RLHF 모델에서 오는 토큰을 기본적으로 선호합니다. 그래서 더 잘 작동합니다.

하지만 이유를 물을 수 있습니다. 왜 더 잘 작동합니까?

그리고 저는 커뮤니티가 실제로 동의한 하나의 놀라운 대답이 있다고 생각하지 않지만 잠재적으로 한 가지 이유를 제시할 것입니다. 그것은 계산적으로 비교하는 것과 생성하는 것이 얼마나 쉬운지 사이의 비대칭성과 관련이 있습니다.

하이쿠(haiku)를 생성하는 예를 들어 보겠습니다. 모델에게 클립에 대한 하이쿠를 쓰라고 요청한다고 가정해 보겠습니다. 훈련 데이터를 제공하려는 계약자라면 SFT에 대한 기본 데이터를 수집하는 계약자라고 상상해 보십시오. 클립으로 멋진 하이쿠를 만들려면 어떻게 해야 합니까? 당신이 그것에 능숙하지 않을 수도 있지만, 내가 당신에게 하이쿠의 몇 가지 예를 든다면, 당신은 이 하이쿠들 중 일부를 다른 하이쿠들보다 훨씬 더 감상할 수 있을 것입니다. 그래서 어느 것이 좋은지 판단하는 것이 훨씬 쉬운 일입니다. 따라서 기본적으로 이 비대칭성은 비교가 인간으로서 잠재적으로 자신을 활용하고 약간 더 나은 모델을 만들기 위한 판단에 더 나은 방법이 되도록 만듭니다.

이제 RLHF 모델은 경우에 따라 기본 모델을 엄격하게 개선한 것이 아닙니다. 특히, 예를 들어 엔트로피가 약간 손실되는 것을 발견했습니다. 그것은 그들이 더 많은 (PT?) 결과를 제공한다는 것을 의미합니다. 더 낮은 변형을 출력할 수 있습니다. 기본 모델보다 변동이 적은 샘플을 출력할 수 있습니다. 기본 모델에는 많은 엔트로피가 있으며 다양한 출력을 제공합니다.

예를 들어, 내가 여전히 기본 모델을 사용하는 것을 선호하는 한 가지 장소는 기본적으로 n개의 항목이 있고 이와 유사한 항목을 더 생성하려는 설정입니다. 여기 제가 방금 준비한 예가 있습니다. 멋진 포켓몬 이름을 생성하고 싶습니다. 7개의 포켓몬 이름을 부여하고 기본 모델에 문서를 완성하도록 요청했습니다. 그리고 그것은 나에게 훨씬 더 많은 포켓몬 이름을 주었다. 이들은 허구입니다. 나는 그것들을 찾아보려고 노력했다. 나는 실제 포켓몬이 있다고 믿지 않는다. 그리고 이것은 기본 모델이 잘할 것이라고 생각하는 종류의 작업입니다. 왜냐하면 여전히 엔트로피가 많고 이전에 제공한 것과 같이 다양하고 멋진 종류의 더 많은 것을 제공할 것이기 때문입니다.

Assistant models in the wild

모든 것을 말했지만 이들은 현재 시점에서 사용할 수 있는 보조 모델과 비슷합니다. 사용 가능한 많은 보조 모델의 순위를 매기고 기본적으로 ELO 등급을 부여한 Berkeley 팀이 있습니다. 물론 현재 최고의 모델 중 일부는 GPT-4이며, Claude GPT 3.5와 여러 모델이 그 뒤를 잇고 있습니다. 이들 중 일부는 Kuna, Koala 등과 같은 가중치로 사용할 수 있습니다. 그리고 여기 처음 세 행은 모두 RLHF 모델이고 다른 모든 모델은 제가 아는 한 SFT 모델입니다.

이것이 우리가 높은 수준에서 이러한 모델을 훈련시키는 방법입니다.

Applications

이제 기어를 바꿔 문제에 GPT 도우미 모델을 가장 잘 적용할 수 있는 방법을 살펴보겠습니다.

이제 저는 구체적인 예를 들어 작업하고 싶습니다. 여기서 구체적인 예를 들어 보겠습니다. 기사나 블로그 게시물을 작성 중이고 마지막에 이 문장을 작성한다고 가정해 보겠습니다. “California’s population is 53 times that of Alaska.(캘리포니아 인구는 알래스카 인구의 53배입니다.)” 어떤 이유로 이 두 주의 인구를 비교하려고 합니다.

풍부한 내부 독백과 도구 사용에 대해 생각하고 이 마지막 문장을 생성하기 위해 실제로 두뇌에서 얼마나 많은 계산 작업이 수행되는지 생각해 보십시오. 이것이 당신의 뇌에서 어떻게 보일지 모릅니다.

좋습니다. 다음 단계에서는 블로그를 작성하겠습니다. 이 두 모집단을 비교해 보겠습니다. 좋아요, 우선, 당연히 이 두 모집단을 모두 확보해야 합니다. 이제 저는 이 인구를 제 머리 위로 알지 못할 수도 있다는 것을 알고 있습니다. 그래서 저는 제가 아는 것을 알고 있거나 제 자기 지식에 대해 알지 못하는 것과 비슷합니다. 도구를 사용하고 Wikipedia로 이동하여 캘리포니아 인구와 알래스카 인구를 조회합니다.

이제 저는 이 둘을 나누어야 한다는 것을 알고 있지만, 다시 한 번 39.2를 0.74로 나누는 것이 성공할 가능성이 매우 낮다는 것을 알고 있습니다. 그것은 내 머리로 할 수 있는 종류의 일이 아닙니다. 따라서 저는 계산기에 의존할 것입니다. 저는 계산기를 사용하여 펀칭하고 출력이 대략 53인지 확인할 것입니다. 그런 다음 아마도 53이 의미가 있도록 내 두뇌에서 반성 및 온전성 검사를 수행할 것입니다. 음, 그것은 상당히 큰 부분이지만 California는 가장 인구가 많은 주이므로 괜찮을 것 같습니다.

그런 다음 필요한 모든 정보를 얻었고 이제 글쓰기의 일종의 창의적인 부분에 도달했습니다. "California has 53x times greater.(캘리포니아는 53배 더 큽니다.)" 그리고 나서 스스로 생각합니다. 정말 어색한 표현입니다. 실제로 삭제하고 다시 시도하겠습니다. 그래서 저는 글을 쓰면서 제가 쓰고 있는 내용을 거의 검사하고 좋은지 아닌지 판단하는 별도의 프로세스를 가지고 있습니다. 그런 다음 삭제하고 재구성한 다음 결과에 만족할 수 있습니다.

기본적으로 간단히 말해서, 이와 같은 문장을 만들 때 내부 독백 측면에서 많은 일이 발생합니다. 하지만 GPT를 훈련할 때 이와 같은 문장은 어떻게 보일까요?

GPT의 관점에서 이것은 일련의 토큰일 뿐입니다. GPT는 이러한 토큰을 읽거나 생성할 때 청크, 청크, 청크, 청크로 이동하며 각 청크는 각 토큰에 대해 대략 동일한 양의 계산 작업입니다. 그리고 이러한 transformer는 매우 얕은 네트워크가 아닙니다. 그들은 약 80개의 추론 레이어를 가지고 있지만 80개는 여전히 많지 않습니다. 따라서 이 transformer는 모방하기 위해 최선을 다할 것입니다. 하지만 물론 여기서 프로세스는 여러분이 수행한 프로세스와 매우 매우 다르게 보입니다.

특히 최종 아티팩트에서 우리가 생성한 다음 결국 LLM에 공급하는 데이터 세트에서 모든 내부 대화가 완전히 제거됩니다. 그리고 귀하와 달리 GPT는 모든 단일 토큰을 살펴보고 모든 토큰에 동일한 양의 컴퓨팅을 소비합니다. 따라서 실제로 좋아할 것이라고 기대할 수 없습니다. 음, 토큰당 너무 많은 일을 할 것이라고 기대할 수 없습니다.

또한 특히 기본적으로 이러한 transformer는 토큰 시뮬레이터와 같습니다. 그들은 그들이 모르는 것을 모릅니다. 그들은 단지 다음 토큰을 모방합니다. 그들은 자신이 잘하는 것과 못하는 것을 모릅니다. 그들은 단지 다음 토큰을 모방하기 위해 최선을 다할 뿐입니다. 루프에 반영되지 않습니다. 그들은 온전함을 확인하지 않습니다. 기본적으로 실수를 수정하지 않습니다. 그들은 단지 토큰 시퀀스를 샘플링합니다. 머릿속에 별도의 내부 독백 흐름이 없지 않나요? 그들은 무슨 일이 일어나고 있는지 평가하고 있습니다.

이제 그들은 일종의 인지적 이점을 가지고 있다고 말하고 싶습니다. 즉, 그들은 실제로 100억 개의 매개변수를 가지고 있기 때문에 방대한 수의 영역에 걸쳐 매우 큰 사실 기반 지식을 가지고 있다는 것입니다. 그것은 많은 사실을 저장하는 많은 저장소이며, 또한 상대적으로 크고 완벽한 작업 메모리를 가지고 있다고 생각합니다. 컨텍스트 창에 맞는 것은 내부 자체 주의 메커니즘을 통해 트랜스포머에서 즉시 사용할 수 있습니다. 그래서 완벽한 기억과 비슷하지만 그 크기가 유한합니다. 그러나 트랜스포머는 그것에 매우 직접적으로 접근할 수 있습니다. 따라서 컨텍스트 창 안에 있는 모든 것을 무손실로 기억할 수 있습니다.

그것이 내가 그 두 가지를 비교하는 방법입니다. 제가 이 모든 것을 언급하는 이유는 제 생각에 자극은 여기 있는 우리의 두뇌와 LLM 두뇌와 같은 두 종류의 아키텍처 사이의 인지적 차이를 보완하는 것이라고 생각하기 때문입니다. 거의 그렇게 보시면 됩니다.

예를 들어 사람들이 발견한 한 가지는 실제로 잘 작동합니다. 특히 작업에 추론이 필요한 경우 트랜스포머가 토큰당 너무 많은 추론을 수행할 것으로 기대할 수 없습니다. 따라서 점점 더 많은 토큰에 추론을 퍼뜨려야 합니다. 예를 들어 트랜스포머에게 매우 복잡한 질문을 주고 단일 토큰으로 답을 얻을 것으로 기대할 수 없습니다. 시간이 충분하지 않습니다. 이러한 트랜스포머는 생각하고, 인용하거나 인용하지 않으려면 토큰이 필요합니다. 저는 때때로 말하고 싶습니다.

그래서 이것은 잘 작동하는 것 중 일부입니다. 예를 들어 질문에 답할 때 작업을 표시해야 하는 트랜스포머를 보여주는 몇 가지 짧은 프롬프트가 있을 수 있습니다. 그리고 몇 가지 예를 들면 트랜스포머가 해당 템플릿을 모방하고 평가 측면에서 더 잘 작동하게 됩니다.

또한 트랜스포머가 작업을 표시하도록 조건을 지정하기 때문에 단계적으로 생각해 봅시다. 그리고 작업을 표시하는 모드로 전환되기 때문에 토큰당 계산 작업이 줄어듭니다. 따라서 시간이 지남에 따라 추론이 느려지기 때문에 결과적으로 성공할 가능성이 더 큽니다.

여기 또 다른 예가 있습니다. 이것을 자기 일관성(Self-consistency)이라고합니다. 우리는 글쓰기를 시작할 수 있는 능력이 있다는 것을 알았지만 잘 되지 않았습니다. 다시 시도할 수 있고 여러 번 시도하고 가장 잘 작동하는 것을 선택할 수 있습니다. 이러한 접근 방식에서는 한 번만 샘플링하는 것이 아니라 여러 번 샘플링한 다음 좋은 것을 찾은 다음 해당 샘플만 보관하거나 다수결 투표를 하는 등의 프로세스를 가질 수 있습니다. 기본적으로 이러한 트랜스포머는 다음 토큰을 예측하는 과정에서 귀하와 마찬가지로 운이 좋지 않을 수 있습니다. 그리고 그들은 그다지 좋지 않은 토큰을 샘플링할 수 있었고 추론의 측면에서 일종의 막다른 골목처럼 내려갈 수 있습니다.

그래서 당신과 달리 그들은 그것으로부터 회복할 수 없습니다. 그들은 샘플링하는 모든 단일 토큰에 갇혀 있습니다. 그래서 그들은 이 순서가 잘 풀리지 않을 것이라는 것을 알더라도 그 순서를 계속할 것입니다. 그들에게 되돌아보고, 검사하거나, 찾으려고 노력하고, 기본적으로 주위를 둘러볼 수 있는 능력을 주십시오.

여기에도 하나의 기술이 있습니다. 실제로 LLM은 그들이 망쳤을 때를 압니다. 예를 들어, 운이 맞지 않는 시를 생성하도록 모델에 요청하면 시가 나올 수 있지만 실제로는 운이 맞습니다. 그러나 특히 GPT-4와 같은 더 큰 모델의 경우 그냥 물어볼 수 있습니다. 임무를 완수했습니까? 그리고 실제로 GPT-4는 자신이 임무를 수행하지 못했다는 사실을 잘 알고 있습니다. 샘플링에서 운이 좋지 않았습니다. 그래서 그것은 당신에게 말할 것입니다, 아니오, 나는 실제로 과제를 충족하지 못했습니다. 자, 다시 시도하겠습니다.

그러나 당신이 그것을 촉구하지 않으면 그것은 알지도 못합니다. 다시 방문하는 것을 모릅니다. 프롬프트에서 이를 보충해야 합니다. 받으셔야 확인이 가능합니다. 확인을 요청하지 않으면 자체적으로 확인하지 않습니다. 그것은 단지 토큰 시뮬레이터입니다.

좀 더 일반적으로, 이러한 기술 중 많은 부분이 시스템 2를 재생성한다고 말하는 bucket에 속한다고 생각합니다. 여러분은 인간을 위한 시스템 1, 시스템 2 사고에 익숙할 것입니다. 시스템 1은 빠르고 자동적인 프로세스이며 토큰을 샘플링하는 LLM에 해당한다고 생각합니다. 그리고 시스템 2는 더 느리고 의도적으로 계획하는 뇌의 한 부분입니다.

그래서 이것은 실제로 지난 주에 나온 논문입니다. 공간이 꽤 빠르게 진화하고 있기 때문입니다. 그것은 생각의 나무라고 불리며 생각의 나무에서 이 논문의 저자는 주어진 프롬프트에 대해 여러 완성을 유지할 것을 제안했습니다. 그리고 그들은 또한 그 과정에서 점수를 매기고 잘 진행되고 있는 것을 유지하고 있습니다. 그래서 많은 사람들이 기본적으로 LLM을 위해 우리의 두뇌에 있는 이러한 능력 중 일부를 되살리기 위해 일종의 프롬프트 엔지니어링을 가지고 놀고 있습니다.

자, 여기서 주목하고 싶은 한 가지는 이것이 단순한 프롬프트가 아니라는 것입니다. 이것은 실제로 여러 프롬프트를 유지해야 하기 때문에 일부 Python 글루 코드와 함께 사용되는 프롬프트이며 확장할 프롬프트를 파악하기 위해 여기에서 몇 가지 트리 검색 알고리즘을 수행해야 합니다. Python 글루 코드와 (와일드?) 루프 또는 더 큰 알고리즘에서 호출되는 개별 프롬프트의 공생입니다.

나는 또한 여기에 AlphaGo와 정말 멋진 유사점이 있다고 생각합니다. 알파고는 바둑을 칠 때 다음 돌을 놓는 정책이 있는데, 이 정책은 원래 인간을 흉내내어 훈련한 것이다. 그러나 이 정책 외에도 Monte-Carlo 트리 검색도 수행합니다. 그리고 기본적으로 머리 속에서 여러 가능성을 실행하고 모든 가능성을 평가하고 잘 작동하는 가능성만 유지합니다. 그래서 제 생각에는 이것이 일종의 AlphaGo와 비슷하다고 생각합니다. 하지만 그것이 의미가 있다면 텍스트의 경우입니다.

Tree of Thought와 마찬가지로 사람들은 단순한 질문/답변 프롬프트가 아니라 많은 프롬프트를 함께 연결하는 Python 글루 코드와 훨씬 더 비슷해 보이는 더 일반적인 기술을 탐색하기 시작했습니다.

오른쪽에는 생각, 행동, 관찰, 생각, 행동, 관찰의 순서로 프롬프트에 대한 답변을 구성하는 React라는 이 논문의 예가 있습니다. 질문에 답하기 위한 일종의 사고 과정인 전체 롤아웃입니다. 그리고 이러한 작업에서 모델은 도구 사용도 허용됩니다.

왼쪽에는 Auto GPT의 예가 있습니다. 그런데 이제 Auto GPT는 최근에 많은 과대 광고를 받은 프로젝트이지만 여전히 영감을 주는 흥미로운 프로젝트라고 생각합니다. LLM이 일종의 작업 목록을 유지하고 계속해서 재귀적으로 작업을 세분화할 수 있는 프로젝트입니다. 그리고 나는 이것이 현재 잘 작동하지 않는다고 생각하며 사람들에게 실제 응용 프로그램에서 사용하도록 조언하지 않습니다. 시간이 지남에 따라 이것이 어디로 가고 있는지에 대해 일반적으로 영감을 얻는 것이라고 생각합니다.

이는 모델 시스템 2에 생각을 부여하는 것과 같습니다.

다음으로 흥미로운 점은 LLM의 거의 심리적인 단점은 LLM이 성공하기를 원하지 않는다는 것입니다.

그들은 모방하고 싶어합니다. 당신은 성공하기를 원하고 그것을 요구해야 합니다.

제 말은 트랜스포머가 훈련될 때 훈련 세트가 있다는 것입니다. 그리고 훈련 데이터에는 성능 품질의 전체 스펙트럼이 있을 수 있습니다.

예를 들어 물리학 질문이나 그와 비슷한 질문에 대한 프롬프트가 있을 수 있고 완전히 잘못된 학생 솔루션이 있을 수 있지만 매우 옳은 전문가 답변이 있을 수도 있습니다. 그리고 트랜스포머는 저품질 솔루션과 고품질 솔루션의 차이를 구분할 수 없습니다. 즉, 저품질 솔루션과 고품질 솔루션에 대해 알고 있지만 기본적으로 언어 모델링에 대한 교육을 받았기 때문에 모든 것을 모방하려고 합니다. 그래서 테스트 시간에 실제로 좋은 성능을 요구해야 합니다.

이 예에서, 이 논문에서 그들은 다양한 프롬프트를 시도했고, 많은 토큰에 대한 추론을 펼치는 것과 같기 때문에 단계별로 매우 강력하다고 생각합시다. 그러나 더 나은 방법은 올바른 답을 얻을 수 있도록 단계별로 해결해 보자는 것입니다. 그래서 그것은 정답을 얻기 위한 일종의 조건화와 같습니다. 그리고 이것은 실제로 트랜스포머가 더 잘 작동하도록 합니다. 왜냐하면 트랜스포머는 말도 안 되는 것처럼 저품질 솔루션에 확률 질량을 헤지할 필요가 없기 때문입니다.

따라서 기본적으로 강력한 솔루션을 요청하십시오.

예를 들어, 당신은 이 주제에 대한 최고의 전문가입니다. 당신이 IQ 120인 것처럼 행동하십시오. 그러나 너무 많은 IQ를 요구하지 마세요. 400 정도의 IQ를 요구하면 데이터 분포를 벗어나거나 더 나쁜 경우 일부 공상과학 관련 데이터 분포에 있을 수 있습니다. 공상 과학 역할극이나 그와 비슷한 것을 맡는 것입니다. 적절한 IQ를 찾아야 한다고 생각합니다. 거기에 U 자형 곡선이 있습니다.

다음으로 우리가 본 것처럼 문제를 해결하려고 할 때 우리는 자신이 잘하는 것과 못하는 것을 알고 컴퓨팅 도구에 의존합니다. 잠재적으로 LLM과 동일한 작업을 수행하려고 합니다. 특히 우리는 그들에게 계산기, 코드 해석기 등 검색 기능을 제공하고 싶을 수 있으며 이를 위한 많은 기술이 있습니다.

다시 한 번 명심해야 할 것은 이러한 트랜스포머는 기본적으로 자신이 모르는 것을 모를 수 있다는 것입니다. 프롬프트에서 트랜스포머에게 말하고 싶을 수도 있습니다. 암산에 능숙하지 않습니다. 아주 큰 수의 덧셈, 곱셈 등을 해야 할 때마다 대신 이 계산기를 사용하세요. 다음은 계산기를 사용하는 방법입니다. 이 토큰 조합 등을 사용하십시오. 모델은 기본적으로 당신과 나처럼 자신이 잘하는 것과 못하는 것을 모르기 때문에 실제로 철자를 써야 합니다.

다음으로 매우 흥미로운 점은 우리가 검색만 가능한 세상에서 왔다는 것입니다. 끝까지 추는 LLM의 메모리에만 있는 다른 극단으로 흔들렸습니다. 그러나 실제로 이러한 검색 증강 모델(retrieval augmented models) 사이에는 전체 공간이 있으며 이는 실제로 매우 잘 작동합니다.

내가 언급했듯이 트랜스포머의 컨텍스트 창은 작업 메모리입니다. 작업과 관련된 정보로 작업 메모리를 로드할 수 있다면 모델은 모든 메모리에 즉시 액세스할 수 있기 때문에 매우 잘 작동합니다. 그래서 많은 사람들이 기본적으로 검색 증강 세대(retrieval augmented generation)에 정말 관심이 있다고 생각합니다.

그리고 하단에는 많은 다른 유형의 데이터에 대한 한 종류의 데이터 커넥터가 있는 LAMA 인덱스의 예가 있습니다. 그리고 그 모든 데이터를 인덱싱할 수 있고 LLM에서 액세스할 수 있도록 만들 수 있습니다.

새로운 레시피는 관련 문서를 가져오고, 청크로 분할하고, 모두 삽입하고, 기본적으로 해당 데이터를 나타내는 삽입 벡터(embedding vectors)를 얻는 것입니다. 이를 벡터 저장소(vector store)에 저장한 다음 테스트 시간에 벡터 저장소에 일종의 쿼리를 만듭니다. 작업과 관련이 있을 수 있는 청크를 가져와 프롬프트에 입력한 다음 생성합니다. 이것은 실제로 잘 작동할 수 있습니다.

이것은 당신과 내가 문제를 해결할 때와 비슷하다고 생각합니다. 메모리에서 모든 것을 할 수 있고 트랜스포머는 매우 크고 광범위한 메모리를 가지고 있지만 일부 기본 문서를 참조하는 데 정말 도움이 됩니다. 무언가를 찾기 위해 교과서로 돌아가거나 무언가를 찾기 위해 라이브러리의 문서로 돌아가는 자신을 발견할 때마다 트랜스포머도 확실히 그렇게 하기를 원합니다. 라이브러리의 일부 문서가 작동하는 방식에 대해 약간의 기억이 있지만 찾아보는 것이 훨씬 좋습니다. 여기에도 동일하게 적용됩니다.

다음으로 제약 프롬프팅(Constrained Promptin)에 대해 간단히 이야기하고 싶었습니다. 나는 또한 이것이 매우 흥미롭다고 생각합니다. 이것은 기본적으로 LLM의 출력에서 특정 템플릿을 시행하는 기술입니다. 지침은 실제로 Microsoft의 한 예입니다. 이제 LLM의 출력이 JSON이 되도록 강제합니다. 그리고 이것은 실제로 출력이 이 형식을 취한다는 것을 보장할 것입니다. 왜냐하면 그것들이 들어가서 트랜스포머에서 나오는 모든 다른 토큰의 확률을 엉망으로 만들고 그 토큰을 고정하기 때문입니다. 그런 다음 트랜스포머는 여기의 공백만 채우고 있습니다. 그런 다음 해당 공백에 들어갈 수 있는 항목에 대해 추가 제한을 적용할 수 있습니다.

이것은 정말 도움이 될 수 있으며 이러한 종류의 제약 조건 샘플링도 매우 흥미롭다고 생각합니다.

또한 fine-tuning에 대해 몇 마디 말하고 싶었습니다. 프롬프트 엔지니어링으로 정말 멀리 갈 수 있는 경우이지만 모델을 fine-tuning하는 것에 대해 생각할 수도 있습니다.

이제 모델을 fine-tuning에한다는 것은 실제로 모델의 가중치를 변경한다는 의미입니다. 실제로 이를 수행하는 것이 훨씬 더 쉽게 접근할 수 있게 되었으며, 이는 최근에 개발되어 라이브러리가 있는 여러 기술 때문입니다.

예를 들어 LoRA와 같은 매개변수 효율적인 fine-tuning 기술을 사용하면 모델의 작고 희소한 부분만 훈련하도록 할 수 있습니다. 대부분의 모델은 기본 모델에 고정되어 있으며 일부는 변경할 수 있습니다. 그리고 그것은 경험적으로 꽤 잘 작동하며 모델의 작은 부분만 조정하는 것이 훨씬 저렴합니다. 또한 대부분의 모델이 고정되어 있기 때문에 경사 하강법으로 업데이트되지 않기 때문에 해당 부분을 계산하는 데 매우 낮은 정밀도의 추론을 사용할 수 있습니다. 따라서 모든 것이 훨씬 더 효율적입니다.

또한 제가 언급한 바와 같이 현재 다양한 오픈 소스 고품질 기반 모델을 보유하고 있습니다. 그리고 저는 LAMA가 꽤 좋다고 생각합니다. 비록 상업적으로 허가되지는 않았지만 지금 당장은 믿습니다.

명심해야 할 점은 기본적으로 fine-tuning은 기술적으로 훨씬 더 복잡하다는 것입니다. 제대로 하려면 훨씬 더 많은 기술적 전문성이 필요하다고 생각합니다. 꽤 복잡할 수 있는 데이터 세트 및/또는 합성 데이터 파이프라인(synthetic data pipelines)에 대한 인간 데이터 계약자가 필요합니다. 이렇게 하면 반복 주기가 확실히 느려집니다.

그리고 높은 수준에서 SFT는 언어 모델링 작업을 계속하고 있기 때문에 달성할 수 있다고 말하고 싶습니다. 비교적 간단합니다. 그러나 RLHF는 매우 연구 영역이며 작업하기가 훨씬 더 어렵습니다. 따라서 누군가가 자신의 RLHF 구현을 시도한다고 조언하지 않을 것입니다. 이것들은 꽤 불안정하고 훈련하기가 매우 어렵습니다. 제 생각에 지금 당장은 매우 초보자에게 친숙한 것이 아닙니다. 그리고 잠재적으로 여전히 매우 빠르게 변할 가능성이 있습니다.

나는 이것이 바로 지금 내 일종의 기본 권장 사항이라고 생각합니다. 귀하의 작업을 두 가지 주요 부분으로 나눌 것입니다. 첫 번째는 최고의 성능을 달성하는 것이고, 두 번째는 이 순서대로 성능을 최적화하는 것입니다.

첫째, 현재 최고의 성능은 GPT-4 모델에서 나옵니다. 지금까지 가장 유능합니다. 매우 상세한 프롬프트를 사용하십시오. 그들은 많은 작업 컨텍스트, 관련 정보 및 지침을 가지고 있습니다. 이메일로 답장을 보낼 수 없는 경우 작업 계약자에게 무엇을 말할 것인지 생각해 보십시오. 그러나 작업 계약자는 인간이며 내면의 독백이 있고 매우 영리하다는 점을 명심하십시오. LLM은 이러한 자질을 가지고 있지 않으므로 LLM의 심리학을 거의 생각하고 이에 대한 프롬프트를 제공해야 합니다.

관련 컨텍스트 및 정보를 이러한 프롬프트에 검색 및 추가하고 기본적으로 많은 프롬프트 엔지니어링 기술을 참조하십시오. 그 중 일부는 위의 슬라이드에 강조 표시되어 있지만 이 역시 공간이 매우 넓기 때문에 온라인에서 프롬프트 엔지니어링 기술을 찾아보라고 권하고 싶습니다. 거기에는 다루어야 할 것이 많습니다.

몇 가지 간단한 예를 들어 실험해 보십시오. 이것이 말하는 것은 단지 말하고 싶은 것이 아니라 가능할 때마다 보여주고 싶다는 것입니다. 가능한 경우 사용자가 의미하는 바를 실제로 이해하는 데 도움이 되는 모든 예를 제공하십시오.

도구와 플러그인을 실험하여 기본적으로 LLM에게 어려운 작업을 오프로드한 다음 단일 프롬프트 및 답변이 아닌 것에 대해 생각하십시오. 잠재적인 변화와 반영, 그것들을 함께 붙이는 방법, 잠재적으로 여러 샘플을 만들 수 있는 방법 등에 대해 생각해 보십시오.

마지막으로, 잠시 동안 계속해야 할 프롬프트 엔지니어링을 짜냈다고 생각한다면 응용 프로그램에 맞게 모델을 잠재적으로 fine-tuning할 수 있는 몇 가지를 살펴보십시오. 그리고 여기에 전문가의 취약한 연구 영역이 있습니다. 저는 그것이 작동하도록 할 수 있다면 현재 SFT보다 약간 더 잘 작동하는 RLHF라고 말하고 싶습니다. 그러나 다시 말하지만 이것은 꽤 관련이 있습니다. 그리고 비용을 최적화하려면 더 낮은 용량 모델이나 더 짧은 프롬프트 등을 탐색하십시오.

또한 LLM이 현재 적합하다고 생각되는 사용 사례에 대해 몇 마디 말하고 싶었습니다. 특히 오늘날 LLM에는 많은 제한 사항이 있습니다. 그래서 저는 귀하의 모든 응용 프로그램에 대해 확실히 염두에 둘 것입니다. 그건 그렇고, 이것은 전체 연설이 될 수 있으므로 자세히 다룰 시간이 없습니다.

모델이 편향될 수 있습니다. 그들은 정보를 조작하고 환각(hallucinate) 시킬 수 있습니다. 추론 오류(resoning errors)가 있을 수 있습니다. 그들은 전체 종류의 응용 프로그램에 어려움을 겪을 수 있습니다. 그들은 지식 컷오프가 있기 때문에 예를 들어 2021년 9월에 대한 정보를 모를 수 있습니다.

프롬프트 주입(prompt injection), 탈옥 공격(jailbreak attacks), 데이터 중독 공격(data poisioning attacks)을 포함하여 매일 Twitter에 나오는 것과 같은 광범위한 공격에 취약합니다.

지금 제가 추천하는 것은 저부담 애플리케이션에서 LLM을 사용하고, 항상 사람의 감독과 결합하고, 영감과 제안의 원천으로 사용하고, 어딘가에서 작업을 수행하는 완전히 자율적인 에이전트 대신 부조종사를 생각하는 것입니다. 모델이 지금 거기에 있는지는 확실하지 않습니다.

GPT-4는 놀라운 인공물이라는 말로 마무리하고 싶었습니다. 그것이 존재한다는 것에 매우 감사하고 아름답습니다. 수학, 코딩 등을 할 수 있는 많은 영역에 걸쳐 엄청난 지식을 가지고 있습니다.

또한 생태계에 구축되고 통합되는 다른 모든 것의 번창하는 생태계가 있습니다. 제가 말한 것 중 일부입니다. 그리고 이 모든 기능을 손끝에서 사용할 수 있습니다.

다음은 GPT-4에 질문을 하고 메시지를 표시하고 응답을 받기 위한 코드 측면에서 필요한 모든 것입니다. 이 경우 "Microsoft Build 2023의 청중에게 영감을 줄 수 있는 말을 할 수 있습니까?"라고 물었습니다. 저는 이것을 Python에 입력했고 그대로 GPT-4는 다음과 같이 말했습니다.

그리고 그나저나 기조연설에서 이 트릭을 사용했는지 몰랐기 때문에 제가 영리하다고 생각했습니다. 하지만 이건 정말 잘해요.

“신사숙녀 여러분, Microsoft Build 2023의 혁신가 및 선구자 여러분, 그 어느 때보다 뛰어난 인재들의 모임에 오신 것을 환영합니다. 여러분은 미래의 건축가이자 인류가 번성하는 디지털 영역을 형성하는 공상가입니다. 기술의 무한한 가능성을 받아들이고 아이디어가 상상만큼 높이 솟아오를 수 있도록 하십시오. 다음 세대를 위해 더욱 연결되고 놀랍고 포용적인 세상을 함께 만들어 갑시다. 창의력을 발휘하고 미지의 세계를 탐험하며 꿈을 현실로 만들 준비를 하세요. 당신의 여정은 오늘부터 시작됩니다.”

[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항

데이터 세상 — Thu, 13 Jul 2023 15:32:37 +0900

References

https://www.nnlabs.org/power-requirements-of-large-language-models/

[Large Language Model] PaLM (Pathways Language Model)

데이터 세상 — Thu, 13 Jul 2023 14:56:17 +0900

PaLM (Pathways Language Model) (2022.04)

Google, 540 billion parameters, available via API

As the scale of the model increases, the performance improves across tasks while also unlocking new capabilities.

다양한 작업을 처리하고 새로운 작업을 빠르게 학습할 수 있는 모델을 구축하는 것을 목표로 하는 Google의 Pathways AI architecture를 기반으로 합니다.

PaLM은 경로 시스템으로 훈련된 5,400억 개의 매개변수 모델로, 수백 가지 언어 관련 작업을 수행할 수 있으며 (출시 당시) 많은 작업에서 최첨단 성능을 달성했습니다.

PaLM의 놀라운 기능 중 하나는 농담 설명과 같은 여러 복잡한 논리적 단계가 필요한 시나리오에 대한 설명을 생성하는 것이었습니다.

References

[Large Language Model] Llama 2 (Large Langauge Model Meta AI)

데이터 세상 — Thu, 13 Jul 2023 14:45:18 +0900

Llama 2 (2023.02)

Large Language Model Meta AI

Meta AI, Multiple Sizes, downloadable by application

https://ai.meta.com/llama/

Llama 2 - Meta AI

We have a broad range of supporters around the world who believe in our open approach to today’s AI — companies that have given early feedback and are excited to build with Llama 2, cloud providers that will include the model as part of their offering

ai.meta.com

Llama는 ‘Large Language Model Meta AI’의 약자로, Meta AI에서 공개한 대규모 AI 언어 모델입니다.

Llama 2 모델은 70억에서 650억 매개변수에 이르는 다양한 매개변수 크기로 제공됩니다.

Meta는 Llama가 대형 모델을 교육하는 데 필요한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장합니다.
다른 LLM과 마찬가지로 이 모델은 일련의 단어를 입력으로 사용하여 작동하고 텍스트를 재귀적으로 생성하기 위해 다음 단어를 예측합니다. 모델에 대한 액세스는 연구원, 정부 산하기관, 학계 종사자 및 Meta에 지원서를 제출한 후에만 사용할 수 있습니다.

메타가 이 모델을 한정적인 학술 연구원을 대상으로 공개한 것이 알파카(Alpaca), 비큐냐(Vicuna) 등의 수많은 파생형 모델들의 탄생에 기여했다고 합니다.

이미지 출처: (논문) A Survey of Large Language Models

Llama 강점 - 왜 집중받고 있는가.

상업적으로도 이용 가능한 오픈 소스

메타는 Llama의 다음 버전인 Llama 2를 소개하면서 다음과 같이 말을 했습니다.

소프트웨어가 개방돼 있으면 더 많은 사람이 빠르게 문제를 찾아내고 식별하고 해결할 수 있어 안전과 보안을 향상시킬 수 있다.
- 마크 저커버그(메타 CEO)

이처럼 메타는 Llama 2를 상업적으로도 이용 가능한 오픈 소스로 공개했습니다

경량화

Llama 2는 매개변수 규모에 따라 세 가지 모델(70억 개, 130억 개, 700억 개)로 제공됩니다.

거대 컴퓨팅 자원을 갖출 수 없는 신생 기업이나 개발자도 적절한 모델을 선택해 연구 및 상업적 활용을 가능하도록 했습니다.

AI 윤리와 책임성(Responsible AI)에 대해 사회적 관심이 높은 만큼, 안전성과 유용성에 대한 보상 모델을 제작한 것 또한 의미가 있습니다.

Llama 2 특징

Llama 2는 기존 버전보다 40% 더 많은 2조 개의 토큰으로 학습되었습니다.(1.4T→2T 토큰).

컨텍스트 길이도 2배 증가한 4095으로 설정됐습니다.(2K→4K).

매개변수 규모에 따라 세 가지 모델이 제공됩니다.(Llama-2-7B, 13B, 70B).

fine-tuning된 모델은 100만 개 이상의 인간 주석에 대해 훈련되었습니다.

안전성(Safety)과 유용성(Helpfulness)을 위한 두 보상 모델(Rewards Model, RM)을 만들었습니다.

추론, 코딩, 지식 태스크를 포함하는 벤치마크 테스트에서 ‘MPT’, ‘Falcon’ 등의 타 LLM들보다 성능이 뛰어납니다.

무료로 상업적 이용이 가능합니다.

단, 월간 활성 사용자(MAU)가 7억 명의 회사가 활용할 경우 메타와 별도의 라이센스 계약이 필요합니다.

Llama 2는 추론, 코딩, 숙련도 및 지식 테스트를 포함한 많은 외부 벤치마크에서 다른 오픈 소스 언어 모델보다 성능이 뛰어나다고 합니다.

https://ai.meta.com/llama/

References

[Large Language Model] MT-NLG

데이터 세상 — Thu, 13 Jul 2023 14:42:21 +0900

MT-NLG (Megatron-Turing Nature Language Generation) (2021.10)

Nvidia / Microsoft, 530 billion parameters, API Access by application

Transformer-based Megatron의 아키텍처를 사용하였습니다.

완료 예측, 독해, 상식 추론, 자연 언어 추론, 단어 의미 명확화가 가능합니다.

References

https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/

[Large Language Model] LaMDA

데이터 세상 — Thu, 13 Jul 2023 14:38:38 +0900

LaMDA (Language Model for Dialogue Applications) (2021.05)

Google, 173 billion parameters, Not Open Source, No API or Downloads

약 1370억개의 파라미터, 약 30억개의 문서, 11억개의 대화를 사전학습 데이터로 사용

사용자와 보다 자연스럽고 매력적인 대화를 할 수 있도록 설계된 모델입니다.

LaMDA가 다른 언어 모델과 차별화되는 점은 LaMDA가 대화에 대해 훈련되었고 모델이 다른 유형의 언어와 구분되는 개방형 토론(open-ended discussions)을 설정하는 다양한 미묘함을 식별할 수 있다는 사실입니다.

LaMDA의 잠재적 사용 사례는 고객 서비스 및 챗봇에서 개인 비서 등에 이르기까지 다양합니다.

LaMDA 자체는 Meena라는 이전 Google Chatbot을 기반으로 합니다.

LaMDA가 제공하는 대화형 서비스는 BARD라고 하며 '곧' API를 통해 제공될 예정입니다.

References

https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/

[Large Language Model] ChatGPT

데이터 세상 — Thu, 13 Jul 2023 14:12:14 +0900

ChatGPT (2022.11.30)

OpenAI, 20 billion parameters, Not Open Source, API Access Only

대규모 언어모델(LLM, Large Language Model)에 기반한 대화형 인공지능 서비스

ChatGPT는 텍스트 전용 모델이며 2022년 11월 Open AI에서 출시했습니다.

일반적으로 GPT-4가 더 나은 성능을 나타내지만 GPT-4가 할 수 있는 많은 텍스트 기반 기능을 수행할 수 있습니다.

ChatGPT는 InstructGPT의 형제 모델입니다.

InstructGPT 자체는 프롬프트를 수신하고 특정 지침을 따르는 자세한 응답을 제공하도록 특별히 훈련되었으며 ChatGPT는 자연어 대화에 참여하도록 설계되었습니다.
OpenAI는 더 많은 LLM 사용 사례를 잠금 해제하는 최근 발표된 ChatGPT 플러그인과 같은 업데이트 및 새로운 기능을 자주 푸시합니다.

ChatGPT에 대한 기본(non-peak) 액세스에는 구독이 필요하지 않으므로 개인 프로젝트나 실험에 적합합니다.

피크 시간에도 일반 액세스가 필요한 경우 ChatGPT 플러스 구독이 필요합니다.

GPT3.5, 1750억 개의 파라미터(매개변수)

GPT-3는 ‘규모를 키우면 무엇이든 할 수 있다’는 가능성을 보여줬습니다.

In-Context Learning을 활용하여 Few-Shot Learning으로 다양한 Task에서 높은 성능을 보입니다.

그러나,

막대한 학습 비용이 듭니다.

인터넷으로 학습한 모델들은 인터넷의 크기만큼 방대한 편향을 가지고 있습니다.

온라인 상에 존재하는 수많은 가짜 정보와 편견을 그대로 학습했습니다.

학습에 사용된 예제를 외우고 패턴을 분석, 학습하는 것이지 실제로 추론해내는 것이 아닙니다.

진짜 일상 대화는 전혀 못합니다.

간단한 논리에도 약하고 상식도 없습니다.

실시간은 고사하고 최근 정보도 모릅니다.

완전히 틀린 오답을 진짜처럼 얘기합니다.

ChatGPT 학습 과정

먼저 지시문에 따라 결과를 완성하는 초기 모델을 완성한 후,

사람의 feedback을 모사하는 보상 모델(reward model)을 확보하여

이를 통해 초기 모델이 사람이 더 선호하는 결과를 추론하도록 강화학습을 진행하였습니다.

Supervised Learning의 경우, 인간 트레이너가 사용자와 ChatGPT 양쪽 모두를 연기하는 대화가 모델에 입력되었습니다.

Reinforcement Learning 단계에서는 인간 트레이너들이 먼저 모델이 이전 대화에서 만든 응답들에 순위를 매겼습니다.

한 번에 영어 기준 3,000개 정도 단어를 처리하고,

약 8,000개 단어(책 4~5페이지, 토큰 4,096)를 기억해 대화를 나눕니다.

Step 1.예제 데이터 수집 후 supervised policy를 학습 (3,000억 개 이상의 단어 입력)

=> SFT(Supervised fine-tuning) 모델 확보

인간 AI 트레이너가 사용자와 AI 어시스턴트(생성자 및 판별자)로서 양쪽 모두에 입력을 제공했습니다.

Step 2. 결과물에 대한 사람의 선호도 데이터를 학습

=> Reward Model 확보

사람이 무작위로 선택된 모델 작성 메시지를 검토하고 모델의 다양한 완성도에 순위를 매긴 다음 이를 다시 GAN에 입력하여 보상 모델을 추가로 학습시켰습니다.

Step 3. 강화학습을 사용해 Reward Model에 대해 policy를 최적화

=> InstructGPT

References

[Prompt Engineering] RAG(Retrieval Augmented Generation)

데이터 세상 — Tue, 11 Jul 2023 18:57:33 +0900

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

논문: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Large pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still lim

arxiv.org

2020 NIPS에 발표

pre-training으로 미처 parameterize하지 못한 외부의 지식들을 활용할 수 있는 general한 seq2seq 구조를 제안한 논문

a versatile pattern that can unlock a number of use cases requiring factual recall of information, such as querying a knowledge base in natural language.

자연어로 기술 자료를 쿼리하는 것과 같이 사실에 입각한 정보 회수가 필요한 다양한 사용 사례를 잠금 해제할 수 있는 다목적 패턴

ChatGPT의 경우 2021년 9월까지의 데이터를 기준으로 학습하였습니다. 그러나, 21년 9월 이후의 정보에 대해서도 응답을 생성해서 질문에 답을 합니다. 이는 Hallucination(환각)이라고 부르는데, 이것은 ChatGPT에서 사용한 GPT 모델이 "auto-regression LLM"이기 때문입니다.

Auto-Regression LLM은 이전 단어를 보고 가장 높은 확률의 단어를 다음 단어로 예측하므로 단어의 순서에 따라 얼마든지 다른 답변을 출력할 수 있습니다.

즉, 학습한 정보에 해답이 없더라도, 학습한 방식을 기준으로 확률적으로 그럴 듯한 응답을 생성합니다.

그러나, 최신의 지식 정보를 기준으로 정확한 답변을 전달해야 하는 요구사항이 있는 경우, LLM을 재학습하지 않고 RAG를 사용해서 언어 모델이 정확한 응답을 하게 할 수 있습니다.

RAG를 사용하면,

사용자 질문에 해당되는 응답 정보의 문서 정보를 미리 저장한 Vector Score에서 검색하고, 그 검색 결과에 해당되는 본문을 LLM에 전달하여, LLM이 생성한 본문의 요약된 결과를 사용자에게 응답하는 방식입니다.

가장 간단한 형태의 RAG 3단계

Index knowledge base passages (once): 지식 기반 구절 색인화(1회)
Retrieve relevant passage(s) from knowledge base (for every user query): 기술 자료에서 관련 구절 검색(모든 사용자 쿼리에 대해)
Generate a response by feeding retrieved passage into a large language model (for every user query): 검색된 구절을 대규모 언어 모델에 공급하여 응답 생성(모든 사용자 쿼리에 대해)

Conversational Search

Phase #1. Ingest your own data (자체 데이터 수집)

원본 파일에서 문서 데이터 추출
문서를 청크 단위로 구분
청크를 임베딩화
임베딩을 벡터 저장소에 저장

Phase #2. Query your documents (문서 쿼리)

(a) 임베딩에 대한 쿼리

(b) 가장 일치하는 청크를 얻기

(d) LLM의 응답을 사용자에게 전달

Query your documents

개요

Pre-trained 언어 모델은 factual knowledge를 매개변수에 저장하고 downstream NLP task에 대해 fine-tuning을 수행할 때 좋은 결과를 얻는것으로 나타났습니다. 그러나 knowledge에 접근하고 정확하게 조작하는 것은 여전히 제한되어 있으므로 knowledge-intensive task에 대해서는 task-specific architecture보다 성능이 떨어집니다.

언어 생성을 위해 Pre-trained model(parametic memory)과 non-parametric memory(=retrieval-based)를 결합한 Retrieval-Augmented Generation(RAG)를 제안하고 범용적인 fine-tuning 방법에 대해 제안합니다.

이는, 광범위하고 지식집약적인 NLP task에서 모델을 평가하고 3개의 Open-domain QA Task에서 seq2seq model 및 task-specific retrieve&extract architecture보다 더 우수한 성능을 보여줍니다.

Language Generation task의 경우 RAG model이 SotA seq2seq baseline보다 더 구체적이고 다양하며 사실적인 언어를 생성하는것을 보여줍니다.

Pre-trained 언어 모델은 암시적인 지식기반으로서 외부 메모리에 접근하지 않고도 Pre-train 과정을 통해 많은 지식을 배우는 것으로 나타났지만, 메모리를 쉽게 확장하거나 수정할 수 없으며 예측에 대한 통찰력을 직접적으로 제공할 수 없는 단점이 있습니다.
Parametric memory와 non-Parametric memory를 결합한 model은 지식을 수정하고 확장할 수 있으며 해석할 수 있기 때문에 이러한 문제 중 일부를 해결했습니다.

최근에 제안된 REALM 및 ORQA는 좋은 결과를 보여주었지만 Open-domain extractive QA에 대해서는 성능평가를 하였습니다.

본 논문에서는 RAG(Retrieval-Augmented Generation)를 제안하며 이는 general-purpose fine-tuning approach를 통해 non-parametric memory를 사용한 pre-trained parametric memory generation model입니다.

여기서 parametric memory는 Pre-trained seq2seq transformer이고 non-parametric memory는 pre-trained neural retriever를 사용하는 wikipedia의 dense vector index입니다. 이러한 요소들은 end-to-end probabilistic model로 결합합니다.

Document retriever는 입력(Query)을 통해 latent document를 제공하고 seq2seq model은 latent document와 입력(Query)을 통해 출력을 생성합니다.

Answer basis 또는 answer token basis를 기준으로 top-k 근사치를 통해 latent variable을 marginalization 합니다.

T5 및 BART와 마찬가지로 RAG는 seq2seq task에서 fine-tuning되기 때문에 sequence genetor와 retriever가 함께 학습됩니다.

본 논문에서는 광범위하고 지식 집약적인 task에 대해 RAG를 실험합니다. 모든 실험에서 Wikipedia 덤프(18년 12월)를 사용하고 100-word chnunk로 분할하여 총 21,015,324개의 document를 만듭니다.

DPR document encoder를 사용하여 각 document에 대한 document embedding을 계산하고 (inference:)효율적인 검색을 위해 Hierarchical Navigable Small World approximation를 사용하는 FAISS를 통해 단일 index를 만듭니다.

Parameterizing : 모델의 가중치에 지식을 주입하는 과정입니다. 우리가 다양한 목적함수를 바탕으로 Large Language Model을 Pre-training하는 이유가 결국 knowledge를 parameterizing하기 위함이라고 볼 수 있습니다.
Knowledge Intensive Tasks : 사람조차도 외부지식 (ex. 위키피디아 검색) 없이 해결하기 어려운 문제를 일컫습니다. 즉 모델의 관점에서 보면, parameterized되지 못한 외부 지식이 필요한 문제입니다.
MIPS : Maximum Inner Product Search의 약어로, 우리에게 vector space에 mapping된 query 가 있고 여러 외부 정보들 가 있다고 가정할 때 query 와 내적(or 코사인 유사도)가 높은 외부 정보들 를 찾는 과정을 의미합니다. 최근의 Facebook의 FAISS가 이를 빠르게 구현해놓은 좋은 라이브러리로 각광받고 있습니다.

Method

저자들이 제시한 framework를 QA System으로 한정지어 예시를 들어보면, 우선 question을 BERT에 태운 후 [CLS] Token을 빼와서 query vectory를 만든 후, wikipedia 각 document 역시 BERT(question encoding한 BERT와 다른 객체)를 태워 [CLS] Token을 빼와서 DB를 구축합니다. 다음, query vectory와 가장 유사한 (=내적 값이 큰) k개의 document vector에 해당하는 문서를 retrieve 합니다. 마지막으로 retrieved된 document와 question을 concat해 seq2seq의 encoder 입력에 넣은 후 answer을 decoder에서 generate하도록 훈련합니다.

Facebook에서 제공한 RAG의 전체적인 학습 방법

RAG는 크게 2가지 모델로 나누어집니다.
1. Retriever : question 를 기반으로 유사한 document 를 retrieve하는 모델 (=)
2. Seq2Seq Generator : Retriever가 반환한 유사한 document 와 question 를encoder에 넣고 decoder에서 answer 를 generate 하는 모델 (=

K개의 유사한 document들을 가져와서 answer를 generate하는데 활용한다고 했는데 이 K개를 어떠한 식으로 concat하는가?

1. Models

RAG-Sequence Model

맨 처음에 question vector 와 유사한 document를 뽑고 각 document 1개랑 question vector 를 concat시켜서 총 K개의 forwarding을 진행한 후 이를 marginalize하는 방법입니다.

수식의 오른편을 보면 하나의 유사한 document 에 대해서 answer y를 generate한 후 그 document와 question의 유사도인 와 곱한 후 이를 모든 documents에 대해서 marginalize해 가중 평균하는 구조입니다.

RAG-Token Model

매 target token마다 다른 document를 retreive하면서 answer를 생성하는 방법입니다. 수식의 오른편을 보시면 매 time-step마다 유사한 K개의 document가 각각 question vector 와 concat해서 output token 에 대한 확률을 계산하고 마찬가지로 document와 question의 유사도인 와 곱하면서 marginalize해 가중 평균하는 구조입니다.

2. Retriever: DPR

Retrievers는 상당히 직관적입니다. 이전에 설명드린것처럼 question과 document를 서로 다른 BERT를 통과해 [CLS] Token을 계산한 후 내적을 통해 유사도를 구하는 모델입니다. 저자들은 이미 wikipedia document로 pre-trained된 모델을 활용했다고 하며, 각각 document index를 non-parametric memory로 지정하였습니다.

검색 구성요소 는 DPR을 기준으로 하며 DPR은 bi-encoder architecture를 따릅니다.

여기서 는 transformer에 의해 생성된 document의 dense representation이고 는 다른 매개변수를 가진 transformer에 의해 생성된 query representation입니다.
가장 높은 prior probability 를 갖는 k개의 요소 의 리스트 를 효율적으로 계산하기 위해 FAISS 라이브러리에서 제공하는 MIPS(Maximum Inner Product Search) index를 사용합니다.

학습은 TriviaQA, Natural Question를 통해 답변이 포함된 document를 검색하도록 수행합니다.

3. Generator: BART

Generator로는 BART-large를 활용했고, 이전에 언급한 것처럼 [document;question]식으로 concat된 encoder input을 만들어 answer를 generate 하였습니다.

Generator 구성요소 는 BART의 encoder, decoder를 사용하여 모델링하며 400M parameter를 가진 BART-large를 사용합니다. BART를 통해 생성할때 input 와 검색된 컨텐츠 를 결합하기위해 간단하게 concatenation합니다.

4. Training

저자들은 매 question마다 유사한 K개의 document에 대한 정답 label 없이 훈련을 진행하였고, DPR의 경우 question을 encoding하는 BERT만 gradient를 흘리고 document를 encoding하는 BERT는 학습하지 않았습니다.

검색할 document를 감독하지 않고 Retriever와 Generator를 공동으로 학습합니다. 입력/출력 쌍 가 주어지면 Adam을 통해

를 minimize합니다. 학습 중 document encoder를 업데이트하면 docmuent indexing을 정기적으로 업데이트 해야하므로 비용이 많이 소모됩니다. 그래서 query encoder와 generator를 fine-tuning하고 document encoder를 고정상태로 유지합니다.

5. Decoding

Test 및 decoding 단계에서 RAG-sequence와 RAG-token은 를 근사하는 다른 방법을 필요로 합니다.

RAG-Token

Token 별로 새로운 document를 condition해주는 모델인 RAG-Token Model은 기존의 beam-search를 그대로 활용해주어도 됩니다. 왜냐하면 어차피 각 hypothesis가 이미 이전 time-step까지 도출해낸 text-sequence는 주어져 있고, 와 새롭게 retrieve된 document 와 함께 다음 time-step의 vocab distribution을 계산하는 것은 추가적인 input만 생길 뿐, 기존의 beam-search에서 벗어나는게 없기 때문입니다.

RAG-Token Model은 transition probability를 가진 auto-regressive seq2seq generator로 볼 수 있습니다.

Decoding 단계에서 를 standard beam decoder를 사용하여 구할 수 있습니다.

RAG-Sequence

문제는 RAG-Sequence Model입니다. 애초에 answer을 generate할 때 하나의 document 은 서로 다른 answer을 generate할 것이기 때문에 기존의 beam-search에서 이를 marginalize하기는 불가능합니다. 따라서 저자들은 우선은 각각의 document 에 대해서 beam-search를 진행하고, 모든 document 가 공통된 beam을 갖도록 각 document 에 등장한 beam에 대해서 추가적인 forward pass를 진행해주고, 이를 와 곱하면서 marginalize해준다고 하였습니다. 하지만 이렇게 계산해줄 경우, 각 document별로 수많은 beam을 generate하는 forward pass를 진행해주어야 함으로, 저자들은 애초에 question 와 document 에서 등장하지 않는 beam은 전부 등장확률을 0으로 지정했다고 합니다.

각 candidate codument 에 대해 beam search를 사용하여 에 대해 각 hypothesis를 scoring합니다.
모든 beam에 대한 hypothesis 의 확률을 추정하기 위해 beam에 나타나지 않는 각 document 에 대해 추가 forward pass를 수행하고generator score에 를 곱하여 margninal에 대한 beam 사이의 확률을 합합니다. (“Thorough Decoding”)

더 긴 sequence의 경우 효율적인 디코딩을 위해 로 부터 beam search동안 가 생성되지 않은 에 대한 근사값을 더 만들 수 있다. 이것은 candidate set 가 생성된 후 추가적인 forward pass를 수행하지 않아도 됩니다.(“Fast Decoding”)

Vector Search + LLM(RAG)

벡터 검색은 이제 모든 검색에서 일반적입니다(Google, Bing, 선호하는 검색 엔진 선택). 전체 검색 데이터베이스에 이 4개의 문서만 있는 경우를 생각해 보십시오. “Tell me something about a big tree.”라고 질문할 수 있습니다.

출력은 다음과 같습니다.

During yesterday’s storm, a large tree fell on the road.

데이터베이스에서 가장 관련성이 높은 문서입니다. 그러나 LLM에 동일한 질문을 하고 마지막에 4개의 '문서'를 추가하면 다음과 같은 결과를 얻을 수 있습니다(이 예에서는 ChatGPT).

A big tree is typically a large, towering plant with a sturdy trunk, branches, and an extensive network of roots. These trees can reach impressive heights, often extending well above the surrounding vegetation. They serve as essential components of many ecosystems, providing shade, shelter, and food for various organisms.

The incident you mentioned about a large tree falling on the road during a storm indicates the power and impact of severe weather conditions. Storms with strong winds can uproot or break trees, leading to road blockages and potential hazards for vehicles and pedestrians.

In another scenario you mentioned, while driving on the road in Bandipur, you encountered a large elephant crossing the road. Bandipur is a national park and wildlife sanctuary located in India, known for its rich biodiversity and diverse animal population. Elephants are one of the prominent species found in Bandipur and are known to traverse the area, sometimes crossing roads. Encounters like these highlight the importance of wildlife conservation and the need for humans to coexist with animals in their natural habitats.

Switching topics to Bonsai, they are miniature trees that are grown in small pots and meticulously shaped and pruned to maintain their small size. Bonsai cultivation is an ancient art form that originated in East Asia and has gained popularity worldwide. Due to their limited root space, Bonsai trees require regular watering to prevent them from drying out. The small pots can cause the soil to dry quickly, so it’s crucial to monitor the moisture levels and water them accordingly.

Finally, you mentioned observing a bird swooping in on a baby chipmunk through your window. This observation reflects a moment of nature in action, where a bird might have been hunting for food. Birds of prey and certain bird species, such as hawks or owls, are known to swoop down on small mammals like chipmunks as part of their natural hunting behavior. It’s fascinating to witness such interactions, as they provide insights into the dynamics of the animal kingdom.

Overall, these snippets of nature — whether they involve big trees, elephants, Bonsai trees, or bird predation — highlight the diversity and wonder of the natural world that surrounds us.

그 대답은 훨씬 더 둥글게 보였습니다. ChatGPT는 주어진 컨텍스트와 함께 수조 개의 문서에 대한 훈련을 통해 얻은 내부 지식을 사용하고 있었습니다.

그러나 ChatGPT 프롬프트에 맞지 않는 문서가 4개 이상(아마도 수천 또는 수백만 개) 있다고 가정해 보겠습니다. 이 경우 벡터 검색을 사용하여 답변을 포함할 가능성이 가장 높은 컨텍스트를 좁혀서 프롬프트에 추가하고 다음과 같이 동일한 질문을 할 수 있습니다.

ChatGPT answer

그런 다음 문서와 임베딩을 저장하는 데이터베이스를 가질 수 있습니다. 쿼리를 저장하고 쿼리를 기반으로 가장 관련성이 높은 문서를 찾는 다른 DB를 가질 수 있습니다.

Document DB (Left) and Quey DB (Right)

쿼리별로 가장 유사한 문서가 있으면 ChatGPT와 같은 LLM에 피드할 수 있습니다. 이 간단한 트릭으로 문서 검색을 사용하여 LLM을 확장했습니다. 이를 RAG(Retrieval Augmented Generation)라고도 합니다.

Building Industry-Specific Q&A Models Using RAG

RAG Prototype

위의 다이어그램은 질문 답변을 위해 사용자 정의 문서에 대해 LLM을 활용하는 기본 RAG를 구축하는 방법을 간략하게 보여줍니다.

첫 번째 부분은 여러 문서를 관리 가능한 청크로 분할하는 것입니다. 관련 매개변수는 최대 청크 길이입니다. 이러한 청크는 일반적인 질문에 대한 답변을 포함하는 텍스트의 일반적인(최소) 크기여야 합니다. 질문에 대한 답변이 문서 내의 여러 위치에 있을 수 있기 때문입니다.

예를 들어 '2015년부터 2020년까지 X 회사의 실적은 어땠습니까?'라는 질문을 할 수 있습니다. 또한 문서의 다른 부분에 수년간 회사 실적에 대한 특정 정보가 포함된 큰 문서(또는 여러 문서)가 있을 수 있습니다. 이상적으로는 이 정보가 포함된 문서의 모든 이질적인 부분을 캡처하고 함께 연결하고 이러한 필터링되고 연결된 문서 청크를 기반으로 응답하기 위해 LLM에 전달하기를 원할 것입니다.

최대 컨텍스트 길이(maximum context length)는 기본적으로 다양한 청크를 함께 연결하기 위한 최대 길이입니다. 질문 자체와 출력 답변을 위한 공간을 남겨둡니다(ChatGPT와 같은 LLM에는 질문, 컨텍스트 및 답변과 같은 모든 콘텐츠를 포함하는 엄격한 길이 제한이 있음을 기억하십시오.

유사성 임계값(similarity threshold)은 질문을 문서 청크와 비교하여 답변을 포함할 가능성이 가장 높은 상위 청크를 찾는 방법입니다. 코사인 유사도는 일반적으로 사용되는 메트릭이지만 다른 메트릭에 가중치를 부여할 수 있습니다. 예를 들어 특정 키워드가 있는 문맥에 가중치를 더 주기 위해 키워드 측정항목을 포함합니다. 예를 들어 문서를 요약하기 위해 LLM에 질문을 할 때 '추상(abstract)' 또는 '요약(summary)'이라는 단어가 포함된 컨텍스트에 가중치를 부여할 수 있습니다.

결론

RAG는 사용자 지정 문서에서 구동되는 LLM을 사용하는 좋은 방법을 제공합니다. Microsoft, Google 및 Amazon과 같은 회사는 조직에서 플러그 앤 플레이 방식으로 사용할 수 있는 앱을 구축하기 위해 경쟁하고 있습니다. 그러나 이 분야는 아직 초기 단계이며 맞춤형 문서에 대해 벡터 검색 기반 LLM을 사용하는 산업별 앱이 선두주자가 되어 경쟁에서 우위를 점할 수 있습니다.

어떤 LLM을 사용할지, 사용자 지정 문서에 대해 모델을 fine-tune하거나 완전히 훈련시킬지 여부를 묻는 사람들이 있었지만 LLM과 벡터 검색 간의 동기화를 엔지니어링하는 역할은 과소평가되었습니다. 다음은 응답의 품질을 크게 향상시키거나 저하시킬 수 있는 몇 가지 고려 사항입니다.

Length of document chunks (문서 청크의 길이)

올바른 답변이 텍스트의 다양한 부분에 포함되어 함께 연결해야 하는 경우 문서를 더 작은 청크로 분리하여 여러 컨텍스트를 쿼리에 추가할 수 있어야 합니다.

Similarity and retrieval metrics (유사성 및 검색 메트릭)

때로는 일반 코사인 유사성만으로는 충분하지 않습니다. 예를 들어 많은 문서에 동일한 주제에 대한 상충되는 정보가 포함되어 있는 경우 해당 문서 내의 메타데이터를 기반으로 특정 문서로 검색을 제한할 수 있습니다. 이를 위해 유사성 외에도 다른 필터링 메트릭을 사용할 수 있습니다.

Model Architecture (모델 아키텍처)

효율성과 확장성을 위해 벡터 임베딩 모델, 문서 데이터베이스, 프롬프트, LLM 모델 선택 등 다양한 측면을 고려해야 합니다.

Avoiding Hallucinations (환각 피하기)

증강된(augmented) ChatGPT는 네팔의 GDP에 맞는 금액을 얻었지만 연도는 틀렸습니다. 이러한 경우 프롬프트 선택, ChatGPT 친화적인 형식으로 데이터 추출, 환각이 있는 경우의 비율 및 어떤 솔루션이 잘 작동하는지 평가하는 것 사이에 많은 피드백이 필요합니다.

References

Large Language Model (LLM)

데이터 세상 — Tue, 11 Jul 2023 18:20:10 +0900

Large Language Models (LLMs), 대규모 언어 모델

대규모 언어 모델(LLM, Large Language Models)은 방대한 양의 텍스트를 처리하고 정확한 결과를 생성하는 기능으로 인해 자연어 처리(NLP) 세계에서 관심을 끌고 있습니다. 이러한 모델은 수억에서 수십억 단어가 포함된 대규모 데이터 세트에서 학습됩니다. 알려진 바와 같이 LLM은 대규모 데이터 세트를 통해 이동하고 단어 수준에서 패턴을 인식하는 Transformer 아키텍처를 포함한 복잡한 알고리즘에 의존합니다. 이 데이터는 모델이 자연어와 컨텍스트에서 사용되는 방식을 더 잘 이해하고 텍스트 생성, 텍스트 분류 등과 관련된 예측을 수행하는 데 도움이 됩니다.

Large Language Model 이란

a class of deep learning models designed to process and understand vast amounts of natural language data

방대한 양의 자연어 데이터를 처리하고 이해하도록 설계된 딥 러닝 모델 클래스

대규모 언어 모델(LLM)은 언어와 함께 작동하는 AI 시스템 유형입니다. LLM은 언어 모델링, 즉 단순하지만 유용한 디지털 표현을 만드는 것을 목표로 합니다. 용어의 '큰' 부분은 더 많은 매개변수를 사용하여 언어 모델을 학습하는 추세를 설명합니다.

LLM의 일반적인 예로는 OpenAI의 GPT-4, Google의 PaLM 및 Meta의 LLaMA가 있습니다. 특정 제품(예: OpenAI의 ChatGPT 또는 Google의 Bard)을 LLM 자체로 참조할지 아니면 기본 LLM에서 제공한다고 말할지 모호합니다.

용어로 LLM은 종종 AI 실무자가 언어와 함께 작동하는 시스템을 지칭하는 데 사용됩니다.
GPT(Generative Pre-trained Transformer)는 이러한 대규모 언어 모델 중 하나입니다.

Pretrained

이 모델은 초기에 많은 양의 텍스트 데이터에 대해 학습됩니다.

Fine-tuning

이 모델은 특정 생성 작업에 맞게 fine-tuning됩니다.

Transformer

자연어 데이터를 처리하고 분석하는 데 사용되는 머신 러닝 아키텍처 유형입니다.

Encoders and decoders

인코더와 디코더는 텍스트와 같은 데이터 시퀀스를 처리하고 생성하는 데 사용되는 트랜스포머 아키텍처의 구성 요소입니다.

인코더는 문장과 같은 일련의 입력 데이터를 가져와서 일련의 인코딩된 표현으로 변환합니다. 각 표현은 원본 입력 데이터에 대한 정보를 캡처하지만 추상화 수준은 다릅니다. 최종 인코딩된 표현은 일반적으로 입력 시퀀스를 요약하는 벡터입니다.

반면에 디코더는 인코딩된 표현을 가져와 원래 문장을 다른 언어로 번역하는 것과 같은 새로운 데이터 시퀀스를 생성하는 데 사용합니다.

디코더는 인코딩된 표현과 지금까지 생성된 토큰을 기반으로 시퀀스의 다음 토큰을 예측하여 이를 수행합니다.

다음은 인코더와 디코더가 함께 작동하여 문장을 영어에서 프랑스어로 번역하는 방법의 예입니다.

문장 입력: "The cat sat on the mat."
인코딩된 표현: [0.2, 0.5, -0.1, 0.4, ...]
대상 언어: 프랑스어
디코더 출력: 'Le chat s'est assis sur le tapis.'

이 예에서 인코더는 영어 문장을 입력으로 사용하고 저차원 공간에서 문장의 의미를 캡처하는 인코딩된 표현을 생성합니다. 그런 다음 디코더는 이 인코딩된 표현을 사용하여 대상 언어인 프랑스어로 새로운 토큰 시퀀스를 생성합니다. 최종 출력은 원래 문장과 동일한 의미를 캡처하지만 다른 언어로 번역된 문장입니다.

대규모 언어 모델은 (주로) 텍스트 생성 작업을 해결하여 보다 효과적인 human-machine 소통을 가능하게 하는 머신 러닝 모델로 정의할 수 있습니다. 이것이 바로 LLM이 방대한 양의 텍스트 데이터를 처리 및 이해하고 문장에서 단어 간의 패턴과 관계를 학습해야 하는 이유입니다. GPT-4 및 ChatGPT는 다양한 작업을 위한 텍스트 생성에서 뛰어난 성능을 보여주는 고급 LLM입니다.

LLM은 신경망 아키텍처, 특히 transformer 아키텍처를 기반으로 구축되어 대규모 텍스트 데이터 세트에서 복잡한 언어 패턴과 단어 또는 구문 간의 관계를 캡처할 수 있습니다. 사실 LLM은 transformer의 변형으로도 이해할 수 있습니다.

Transformer 아키텍처는 cross-attention 및 self-attention와 같은 메커니즘에 의존하며, 이를 통해 모델은 주어진 맥락에서 서로 다른 단어나 구의 중요성을 평가하여 텍스트의 단어 간의 관계를 이해할 수 있습니다.

cross-attention 메커니즘을 통해 모델은 생성된 텍스트에서 다음 단어를 정확하게 예측하는 데 필요한 입력 텍스트의 중요한 부분을 식별할 수 있습니다. 반대로 self-attention 메커니즘은 처리 중에 입력의 다양한 섹션에 선택적으로 주의를 기울이는 모델의 기능을 말합니다.

transformer 아키텍처는 Vaswani 등의 논문 'Attention Is All You Need'에서 소개된 encoder-decoder architecture를 기반으로 하는 자연어 처리 작업을 위한 신경망 모델을 나타냅니다.

트랜스포머 아키텍처의 핵심 구성 요소는 모델이 각 위치에 대한 표현을 계산하기 위해 입력 시퀀스의 다른 부분에 주의를 기울일 수 있게 해주는 셀프 어텐션 메커니즘입니다. 트랜스포머는 인코더 네트워크와 디코더 네트워크의 두 가지 주요 구성 요소로 구성됩니다. 인코더 네트워크는 입력 시퀀스를 사용하여 숨겨진 상태 시퀀스를 생성하는 반면, 디코더 네트워크는 대상 시퀀스를 사용하고 인코더의 출력을 사용하여 예측 시퀀스를 생성합니다. 인코더와 디코더는 모두 여러 계층의 self-attention 및 feedforward 신경망으로 구성됩니다.

[NLP] Transformer Model

Transformer Model Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017) Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델 병렬화가 가능하고 학습

yumdata.tistory.com

Different types of LLMs

Autoregressive Language Models

GPT

[NLP] GPT

GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Langu

yumdata.tistory.com

자동회귀(Autoregressive) 모델은 이전 단어가 주어진 시퀀스에서 다음 단어를 예측하여 텍스트를 생성합니다.

주어진 맥락에서 훈련 데이터 세트의 각 단어의 가능성을 최대화하도록 훈련됩니다. 자동 회귀 언어 모델의 가장 잘 알려진 예는 OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈이며 GPT-4는 가장 최신의 가장 강력한 모델입니다.

Autoencoding Language Models

BERT

[NLP] BERT

BERT(Bidirectional Encoder Representations for Transformers) Pre-training of Deep Bidirectional Transformers for Language Understanding 2018년 10월 논문이 공개된 구글의 새로운 Language Representation Model 모든 자연어 처리 분야에서

yumdata.tistory.com

자동 인코딩 모델은 마스크되거나 손상된 버전에서 원래 입력을 재구성하여 입력 텍스트의 고정 크기 벡터 표현(임베딩이라고도 함)을 생성하는 방법을 학습합니다. 주변 컨텍스트를 활용하여 입력 텍스트에서 누락되거나 가려진 단어를 예측하도록 훈련됩니다.

Google에서 개발한 BERT(Bidirectional Encoder Representations from Transformers)는 가장 유명한 자동 인코딩 언어 모델 중 하나입니다. 감정 분석, 명명된 엔터티 인식 및 질문 답변과 같은 다양한 NLP 작업에 맞게 fine-tuning 할 수 있습니다.

Combination of autoencoding and autoregressive

T5(Text-to-Text Transfer Transformer)

[NLP][Language Model] T5(Text-to-Text Transfer Transformer)

Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필

yumdata.tistory.com

LLMs Use Case Scenarios

전통적인 NLP 알고리즘은 일반적으로 단어의 즉각적인 맥락만 보는 반면 LLM은 맥락을 더 잘 이해하기 위해 많은 양의 텍스트를 고려합니다. 다음은 텍스트 생성 및 텍스트 완성을 위한 자동 회귀 및 자동 인코딩 대규모 언어 모델의 사용을 보여주는 두 가지 예제 시나리오입니다.

자기회귀 모델이 어떻게 작동하는지 예를 들어 보겠습니다. 앞에서 배운 것처럼 GPT와 같은 자동 회귀 모델은 주어진 입력 프롬프트를 기반으로 일관되고 문맥적으로 관련 있는 문장을 생성합니다.

자동 회귀 모델에 대한 입력이 다음과 같다고 가정해 보겠습니다.
“Introducing new smartphone, the UltraPhone 3000, which is designed to”

생성된 텍스트는 다음과 같습니다.
“redefine your mobile experience with its cutting-edge technology and unparalleled performance.”

자동 인코딩 모델이 작동하는 방식에 대한 또 다른 예를 들어 보겠습니다. 앞에서 배운 것처럼 BERT와 같은 자동 인코딩 모델은 문장에서 누락되거나 가려진 단어를 채우는 데 사용되어 의미론적으로 의미 있고 완전한 문장을 생성합니다.

자동 인코딩 모델에 대한 입력이 다음과 같다고 가정해 보겠습니다.
The latest superhero movie had an _______ storyline, but the visual effects were _______.
완성된 텍스트는 다음과 같습니다.

The latest superhero movie had an decent storyline, but the visual effects were mind-blowing.

Key Building Blocks

LLM(Large Language Models)은 자연어 데이터를 효율적으로 처리하고 이해할 수 있게 해주는 몇 가지 주요 빌딩 블록으로 구성됩니다.

Tokenization

토큰화는 일련의 텍스트를 모델이 이해할 수 있는 개별 단어, 하위 단어 또는 토큰으로 변환하는 프로세스입니다.

LLM에서 토큰화는 일반적으로 BPE(Byte Pair Encoding) 또는 WordPiece와 같은 하위 단어 알고리즘을 사용하여 수행되며, 이는 텍스트를 빈도가 높은 단어와 희귀한 단어를 모두 캡처하는 더 작은 단위로 분할합니다. 이 접근 방식은 모든 텍스트 시퀀스를 나타내는 기능을 유지하면서 모델의 어휘 크기를 제한하는 데 도움이 됩니다.

Embedding

임베딩은 고차원 공간에서 의미론적 의미를 캡처하는 단어 또는 토큰의 연속적인 벡터 표현입니다. 이를 통해 모델은 개별 토큰을 신경망에서 처리할 수 있는 형식으로 변환할 수 있습니다. LLM에서 임베딩은 훈련 프로세스 중에 학습되며 결과 벡터 표현은 동의어 또는 유추와 같은 단어 간의 복잡한 관계를 캡처할 수 있습니다.

Attention

LLM의 어텐션 메커니즘, 특히 트랜스포머에 사용되는 셀프 어텐션 메커니즘을 통해 모델은 주어진 컨텍스트에서 다른 단어나 구문의 중요성을 평가할 수 있습니다. 입력 시퀀스의 토큰에 서로 다른 가중치를 할당함으로써 모델은 덜 중요한 세부 정보를 무시하면서 가장 관련성이 높은 정보에 집중할 수 있습니다. 입력의 특정 부분에 선택적으로 초점을 맞추는 이 기능은 장기적인 종속성을 캡처하고 자연어의 뉘앙스를 이해하는 데 중요합니다.

Pre-training

Pre-training은 특정 작업을 위해 fine-tuning하기 전에 일반적으로 unsupervised 또는 self-supervised되는 대규모 데이터 세트에서 LLM을 훈련하는 프로세스입니다.

사전 학습 중에 모델은 일반적인 언어 패턴, 단어 간의 관계 및 기타 기본 지식을 학습합니다. 이 프로세스는 더 작은 작업별 데이터 세트를 사용하여 fine-tuning할 수 있는 사전 훈련된 모델을 생성하여 다양한 NLP 작업에서 높은 성능을 달성하는 데 필요한 레이블이 지정된 데이터의 양과 훈련 시간을 크게 줄입니다.

Transfer Learning

특정 태스크를 학습한 모델을 다른 태스크 수행에 재 사용하는 기법

Transfer Learning은 pre-training 중에 얻은 지식을 활용하여 새로운 관련 작업에 적용하는 기술입니다.

LLM의 맥락에서 transfer learning에는 해당 작업에서 높은 성능을 달성하기 위해 더 작은 작업별 데이터 세트에서 사전 훈련된 모델을 fine-tuning하는 작업이 포함됩니다. transfer learning의 이점은 모델이 사전 훈련 중에 학습된 방대한 양의 일반 언어 지식으로부터 이점을 얻을 수 있도록 하여 레이블이 지정된 대규모 데이터 세트와 각각의 새로운 작업에 대한 광범위한 훈련의 필요성을 줄인다는 것입니다.

Examples of Large Language Models

[NLP] Language Model 종류

[Large Language Model] FLAN-T5

[Large Language Model] GPT-NeoX-20B

[Large Language Model] mT5-xxl

[Large Language Model] Flan-UL2

[Large Language Model] BLOOMZ & mT0

[Large Language Model] BLOOM

결론

대규모 언어 모델은 인간의 개입을 최소화하면서 자연어 데이터를 빠르고 정확하게 처리하기 위한 강력한 도구입니다. 이러한 모델은 텍스트 생성, 감정 분석, 질문 응답 시스템, 자동 요약, 기계 번역, 문서 분류 등과 같은 다양한 작업에 사용할 수 있습니다. 방대한 양의 텍스트 데이터를 빠르고 정확하게 처리할 수 있는 LLM의 능력 덕분에 LLM은 다양한 산업 분야의 다양한 응용 프로그램을 위한 귀중한 도구가 되었습니다. NLP 연구자와 전문가는 빠르게 진화하는 이 분야에서 앞서 나가려면 대규모 언어 모델에 확실히 익숙해져야 합니다. 대체로 대규모 언어 모델은 기계가 자연어를 더 잘 이해하고 텍스트를 처리할 때 더 정확한 결과를 생성할 수 있도록 하기 때문에 NLP에서 중요한 역할을 합니다. 이러한 모델은 딥 러닝 신경망과 같은 AI 기술을 활용하여 방대한 양의 데이터를 빠르게 분석하고 다양한 산업 분야의 다양한 응용 프로그램에 사용할 수 있는 매우 정확한 결과를 제공할 수 있습니다.

White Papers for Learning Large Language Models

Neural Machine Translation by Jointly Learning to Align and Translate (2014) by Bahdanau, Cho, and Bengio, https://arxiv.org/abs/1409.0473
Attention Is All You Need (2017) by Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin, https://arxiv.org/abs/1706.03762
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) by Devlin, Chang, Lee, and Toutanova, https://arxiv.org/abs/1810.04805
Improving Language Understanding by Generative Pre-Training (2018) by Radford and Narasimhan, https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019), by Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer, https://arxiv.org/abs/1910.13461
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (2023) by Yang, Jin, Tang, Han, Feng, Jiang, Yin, and Hu, https://arxiv.org/abs/2304.13712

References

https://vitalflux.com/large-language-models-concepts-examples/

[Large Language Model] MPT-7B, MPT-7B-Instruct

데이터 세상 — Tue, 11 Jul 2023 15:16:34 +0900

MPT-7B

https://huggingface.co/mosaicml/mpt-7b

mosaicml/mpt-7b · Hugging Face

MPT-7B MPT-7B is a decoder-style transformer pretrained from scratch on 1T tokens of English text and code. This model was trained by MosaicML. MPT-7B is part of the family of MosaicPretrainedTransformer (MPT) models, which use a modified transformer archi

huggingface.co

a decoder-style transformer pretrained from scratch on 1T tokens of English text and code

trained by MosaicML

MPT-7B는 MosaicPretrainedTransformer(MPT) 모델 제품군의 일부로 효율적인 훈련 및 추론에 최적화된 수정된 transformer 아키텍처를 사용합니다.

이러한 아키텍처 변경에는 위치 임베딩을 ALiBi(Attention with Linear Biases)로 대체하여 성능 최적화된 레이어 구현 및 컨텍스트 길이 제한 제거가 포함됩니다. 이러한 수정 덕분에 MPT 모델은 높은 처리량 효율성과 안정적인 수렴으로 훈련될 수 있습니다. MPT 모델은 또한 표준 HuggingFace 파이프라인과 NVIDIA의 FasterTransformer 모두에서 효율적으로 제공될 수 있습니다.

이 모델은 llm-foundry repository에서 찾을 수 있는 MosaicML LLM 코드베이스를 사용합니다. LLM pretraining, finetuning 및 추론(inference)을 위해 MosaicML platform에서 MosaicML의 NLP 팀에 의해 훈련되었습니다.

Training Data

Streaming Datasets

데이터는 MosaicML StreamingDataset 라이브러리를 사용하여 형식화되어 데이터를 객체 스토리지에 호스팅하고 훈련 중에 컴퓨팅 클러스터로 효율적으로 스트리밍합니다. StreamingDataset은 훈련을 시작하기 전에 전체 데이터 세트를 다운로드할 필요가 없으며 데이터 세트의 모든 지점에서 훈련을 즉시 재개할 수 있습니다.

Data Mix

이 모델은 1T 토큰(배치 크기 1760 및 시퀀스 길이 2048)에 대해 훈련되었습니다. 다음 데이터 조합에 대해 교육을 받았습니다.

MPT-7B-Instruct

https://huggingface.co/mosaicml/mpt-7b-instruct

mosaicml/mpt-7b-instruct · Hugging Face

MPT-7B-Instruct MPT-7B-Instruct is a model for short-form instruction following. It is built by finetuning MPT-7B on a dataset derived from the Databricks Dolly-15k and the Anthropic Helpful and Harmless (HH-RLHF) datasets. This model was trained by Mosaic

huggingface.co

짧은 형태의 지시를 따르기 위한 모델.

Databricks Dolly-15k 및 Anthropic Helpful and Harmless (HH-RLHF) 데이터 세트에서 파생된 데이터 세트에서 MPT-7B를 finetuning하여 구축

[Large Language Model] GPT-NeoX-20B

데이터 세상 — Tue, 11 Jul 2023 15:00:39 +0900

GPT-NeoX-20B

https://huggingface.co/EleutherAI/gpt-neox-20b

EleutherAI/gpt-neox-20b · Hugging Face

GPT-NeoX-20B is a 20 billion parameter autoregressive language model trained on the Pile using the GPT-NeoX library. Its architecture intentionally resembles that of GPT-3, and is almost identical to that of GPT-J- 6B. Its training dataset contains a multi

huggingface.co

Transformer(Decoder)-based Language Model

GPT-NeoX library를 사용하여 Pile에서 훈련된 자동 회귀 언어 모델(autoregressive language model)

아키텍처는 의도적으로 GPT-3과 유사하며 GPT-J- 6B와 거의 동일합니다.

training 데이터 세트에는 이 모델의 범용 특성을 반영하는 다양한 영어 텍스트가 포함되어 있습니다.

Limitations and biases

GPT-NeoX-20B의 핵심 기능은 텍스트 문자열을 가져와 다음 토큰을 예측하는 것입니다.

통계적으로 가장 가능성이 높은 다음 토큰이 가장 '정확한' 텍스트를 생성할 필요는 없음을 기억하십시오. 사실적으로 정확한 출력을 생성하기 위해 GPT-NeoX-20B에 의존하지 마십시오.

이 모델은 외설적이거나 불쾌감을 주는 욕설 및 텍스트를 포함하는 것으로 알려진 데이터 세트인 Pile에서 훈련되었습니다.

GPT-NeoX-20B는 프롬프트 자체에 명시적으로 공격적인 내용이 포함되어 있지 않더라도 사회적으로 용인되지 않거나 바람직하지 않은 텍스트를 생성할 수 있습니다.

인간 독자에게 제시하기 전에 이 모델의 출력을 큐레이팅하는 것이 좋습니다. 인위적으로 생성된 텍스트를 사용하고 있음을 청중에게 알리십시오.

Training dataset

The Pile은 영어로 된 825GiB 범용 데이터 세트입니다.

대규모 언어 모델 교육을 위해 특별히 EleutherAI에서 만들었습니다. 여기에는 22개의 다양한 출처에서 가져온 텍스트가 포함되어 있으며 대략 다섯 가지 범주로 나뉩니다:

학술 작문(예: arXiv), 인터넷(예: CommonCrawl), 산문(예: Project Gutenberg), 대화(예: YouTube 자막) 및 기타(예: GitHub, Enron 이메일) ).

모든 데이터 소스, 방법론 및 윤리적 함의에 대한 논의는 파일 문서(https://arxiv.org/abs/2101.00027)를 참조하십시오.

Pile은 GPT-NeoX-20B 훈련에 사용되기 전에 중복 제거되지 않았습니다.

[Large Language Model] mT5-xxl

데이터 세상 — Tue, 11 Jul 2023 14:44:10 +0900

mT5-xxl

https://huggingface.co/google/mt5-xxl

google/mt5-xxl · Hugging Face

Google's mT5 mT5 is pretrained on the mC4 corpus, covering 101 languages: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, Eng

huggingface.co

An encoder-decoder model based on the T5

pretrained on the mC4 corpus, covering 101 languages (including Korean)

mT5는 supervised training을 제외하고 mC4에서만 pre-trained을 받았습니다. 따라서 이 모델은 downstream task에서 사용할 수 있기 전에 fine-tuned되어야 합니다.

최근의 '텍스트-텍스트 전송 변환기'(T5)는 통합된 텍스트-텍스트 형식 및 확장을 활용하여 다양한 영어 NLP 작업에서 최신 결과를 얻었습니다. 이 백서에서는 101개 언어를 다루는 새로운 Common Crawl 기반 데이터 세트에서 사전 훈련된 T5의 다국어 변형인 mT5를 소개합니다. 우리는 mT5의 설계 및 수정된 교육을 설명하고 많은 다국어 벤치마크에서 최신 성능을 시연합니다. 이 작업에 사용된 모든 코드 및 모델 체크포인트는 공개적으로 사용할 수 있습니다.

[Large Language Model] Flan-UL2

데이터 세상 — Tue, 11 Jul 2023 14:21:12 +0900

Flan-UL2

https://huggingface.co/google/flan-ul2

google/flan-ul2 · Hugging Face

Flan-UL2 is an encoder decoder model based on the T5 architecture. It uses the same configuration as the UL2 model released earlier last year. It was fine tuned using the "Flan" prompt tuning and dataset collection. You can use the convert_t5x_checkpoint_t

huggingface.co

Google, 20 billion parameters, downloadable from HuggingFace

An encoder-decoder model based on the T5 architecture and instruction-tuned using the Fine-tuned Language Net.

Flan-UL2는 인코더 디코더 모델이며 그 핵심은 Flan을 사용하여 훈련된 T5 model 의 강화된 버전입니다. Flan-T5의 '이전' 버전을 능가하는 성능을 보여준다. Flan-UL2는 Apache-2.0 라이선스를 보유하고 있으며 사용법 및 교육에 대한 세부 정보가 공개되었으므로 자체 호스팅 또는 fine-tuning 가능한 모델에 대한 선택입니다.

Flan-UL2의 200억 매개변수가 너무 많은 경우 5가지 크기로 제공되고 요구 사항에 더 적합할 수 있는 Flan-T5의 이전 반복을 고려하십시오.

2022년 초 출시된 UL2 모델과 동일한 구성을 사용합니다.

'Flan' 프롬프트 튜닝 및 데이터 세트 수집을 사용하여 fine-tuned되었습니다.

원래 UL2 모델은 512의 수용 필드로만 훈련되었으므로 N이 큰 N-shot 프롬프트에 적합하지 않았습니다.

Flan-UL2 체크포인트는 2048의 수용 필드를 사용하여 상황에 맞는 몇 번의 학습(few-shot in-context learning)에 더 유용합니다.

원래 UL2 모델에는 좋은 성능을 얻기 위해 다소 필수적인 모드 스위치 토큰도 있었습니다. 그러나 추론 또는 finetuning 중에 종종 약간의 변경이 필요하기 때문에 약간 번거롭습니다. 이 업데이트/변경에서는 Flan 명령 튜닝을 적용하기 전에 '모드 토큰'을 잊어버리기 위해 추가 100k 단계(작은 배치 포함)에 대해 UL2 20B를 계속 교육합니다. 이 Flan-UL2 체크포인트는 더 이상 모드 토큰이 필요하지 않습니다.

Introduction to UL2

https://huggingface.co/google/ul2

google/ul2 · Hugging Face

UL2 is a unified framework for pretraining models that are universally effective across datasets and setups. UL2 uses Mixture-of-Denoisers (MoD), apre-training objective that combines diverse pre-training paradigms together. UL2 introduces a notion of mode

huggingface.co

UL2는 데이터세트와 설정 전반에 걸쳐 보편적으로 효과적인 사전 학습 모델을 위한 통합 프레임워크입니다.

UL2는 다양한 사전 훈련 패러다임을 함께 결합하는 사전 훈련 목표인 MoD(Mixture-of-Denoisers)를 사용합니다.

UL2는 다운스트림 fine-tuning이 특정 사전 훈련 체계와 관련된 모드 전환 개념을 도입합니다.

개요

Paper: Unifying Language Learning Paradigms

Unifying Language Learning Paradigms

Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training

arxiv.org

기존의 사전 훈련(pre-trained)된 모델은 일반적으로 특정 문제 클래스에 맞춰져 있습니다. 현재까지 올바른 아키텍처와 사전 훈련 설정이 무엇인지에 대한 합의가 아직 없는 것 같습니다.

이 백서에서는 데이터 세트와 설정 전반에 걸쳐 보편적으로 효과적인 사전 학습 모델을 위한 통합 프레임워크를 제시합니다.

일반적으로 결합되는 두 가지 개념인 사전 교육 목표를 사용하여 architecture 원형을 분리하는 것으로 시작합니다.

다음으로, 우리는 NLP에서 자기 감독(self-supervision)을 위한 일반화되고 통합된 관점을 제시하고 서로 다른 사전 훈련 목표가 서로 캐스팅될 수 있는 방법과 서로 다른 목표 사이의 보간이 어떻게 효과적일 수 있는지 보여줍니다.

그런 다음 다양한 사전 훈련 패러다임을 함께 결합하는 사전 훈련 목표인 MoD(Mixture-of-Denoisers)를 제안합니다.

또한 다운스트림 fine-tuning이 특정 사전 훈련 체계와 관련된 모드 전환 개념을 도입합니다.

여러 사전 훈련 목표를 비교하기 위해 광범위한 제거 실험을 수행하고 여러 다양한 설정에서 T5 및/또는 GPT 유사 모델을 능가하여 Pareto-frontier를 추진한다는 것을 발견했습니다.

마지막으로 모델을 최대 200억 개의 매개변수로 확장하여 언어 생성(자동 및 인간 평가 사용), 언어 이해, 텍스트 분류, 질문 응답, 상식 추론, 긴 텍스트 추론에 이르기까지 50개의 잘 확립된 감독 NLP 작업에서 SOTA 성능을 달성합니다.
구조화된 지식 접지 및 정보 검색. 우리의 모델은 또한 문맥 학습에서 강력한 결과를 달성하여 제로샷 SuperGLUE에서 175B GPT-3을 능가하고 원샷 요약에서 T5-XXL의 성능을 세 배로 늘립니다.

Training

Flan-UL2

Flan-UL2 모델은 UL2 체크포인트를 사용하여 초기화한 후 Flan Prompting을 사용하여 추가로 학습했습니다. 이것은 원래 훈련 코퍼스가 C4라는 것을 의미합니다.

'Scaling Instruction-Finetuned language models(Chung et al.)'(때때로 Flan2 논문이라고도 함)에서 핵심 아이디어는 데이터 세트 모음에서 대규모 언어 모델을 교육하는 것입니다. 이러한 데이터 세트는 다양한 작업에서 일반화를 가능하게 하는 지침으로 표현됩니다. Flan은 주로 학업 과제에 대한 교육을 받았습니다. Flan2에서는 Flan으로 명령 조정된 200M에서 11B 매개변수 범위의 일련의 T5 모델을 출시했습니다.

Flan 데이터 세트는 'The Flan Collection: Designing Data and Methods for Effective Instruction Tuning'(Longpre et al.)에서도 오픈 소스로 제공되었습니다.

UL2 Pretraining

모델은 C4 말뭉치에서 사전 훈련됩니다.

사전 훈련을 위해 모델은 배치 크기 1024로 C4(2백만 단계)에서 총 1조 개의 토큰에 대해 훈련됩니다.

시퀀스 길이는 입력 및 대상에 대해 512/512로 설정됩니다. 드롭아웃은 사전 훈련 중에 0으로 설정됩니다. 사전 훈련에는 약 1조 개의 토큰에 대해 한 달이 약간 넘게 걸렸습니다. 이 모델에는 32개의 인코더 레이어와 32개의 디코더 레이어, dmodel은 4096, df는 16384가 있습니다. 각 헤드의 차원은 총 16개의 헤드에 대해 256입니다. 우리 모델은 8의 모델 병렬성을 사용합니다. 어휘 크기 32000의 T5와 동일한 문장 조각 토크나이저가 사용됩니다(T5 토크나이저에 대한 자세한 내용을 보려면 여기를 클릭하십시오).

UL-20B는 T5와 매우 유사하지만 다른 목적과 약간 다른 스케일링 노브로 훈련된 모델로 해석할 수 있습니다.

UL-20B는 Jax 및 T5X 인프라를 사용하여 훈련되었습니다.

Mixture of Denoisers

강력한 범용 모델은 사전 교육 중에 다양한 문제를 해결하기 위해 노출되어야 한다고 추측합니다.
pre-training이 self-supervision을 사용하여 수행된다는 점을 감안할 때 이러한 다양성이 모델의 목적에 주입되어야 한다고 주장합니다. 그렇지 않으면 모델이 long-coherent 텍스트 생성과 같은 특정 기능이 부족할 수 있습니다.

R-Denoiser

일반 잡음 제거는 T5에 도입된 표준 범위 손상으로, 범위 길이로 2~5개의 토큰 범위를 사용하여 입력 토큰의 약 15%를 마스킹합니다.

이 범위는 유창한 텍스트를 생성하는 방법을 배우는 대신 지식을 습득하는 데 짧고 잠재적으로 유용합니다.

S-Denoiser

입력에서 대상으로 작업을 프레이밍할 때 엄격한 순차적 순서를 관찰하는 노이즈 제거의 특정 사례, 즉 접두사 언어 모델링. 이를 위해 입력 시퀀스를 컨텍스트와 대상으로 토큰의 두 하위 시퀀스로 분할하여 대상이 미래 정보에 의존하지 않도록 합니다.

이는 컨텍스트 토큰보다 이전 위치의 대상 토큰이 있을 수 있는 표준 범위 손상과 다릅니다. Prefix-LM 설정과 유사하게 컨텍스트(접두사)는 양방향 수용 필드를 유지합니다. 메모리가 매우 짧거나 메모리가 없는 S-Denoising은 표준 인과 언어 모델링과 유사한 정신에 있습니다.

X-Denoiser

노이즈 제거의 극단적인 버전으로 모델이 입력의 상당 부분을 복구해야 하며 입력의 작거나 중간 부분이 주어집니다. 이것은 모델이 상대적으로 제한된 정보로 메모리에서 긴 대상을 생성해야 하는 상황을 시뮬레이션합니다. 이를 위해 입력 시퀀스의 약 50%가 마스킹되는 적극적인 노이즈 제거와 함께 예제를 포함하도록 선택합니다. 이는 스팬 길이 및/또는 손상률을 증가시키는 것입니다. 스팬이 길거나(예: ≥ 12 토큰) 부패율이 큰 경우(예: ≥ 30%) 사전 훈련 작업을 극단적인 것으로 간주합니다. X-denoising은 규칙적인 스팬 손상과 목표와 같은 언어 모델 사이의 보간에 의해 동기가 부여됩니다.

Fine-tuning

모델은 N이 일반적으로 50k에서 100k인 N 사전 훈련 단계 후에 지속적으로 fine-tuning되었습니다.

즉, 사전 교육의 각 Nk 단계 후에 모델이 각 다운스트림 작업에서 fine-tuning됩니다.

모델이 지속적으로 fine-tuning되므로 컴퓨팅을 절약하기 위해 최첨단에 도달하면 작업에 대한 fine-tuning이 중지됩니다.

전체적으로 이 모델은 265만 단계에 대해 훈련되었습니다.

[Large Language Model] BLOOMZ & mT0

데이터 세상 — Tue, 11 Jul 2023 13:46:13 +0900

BLOOMZ & mT0

https://huggingface.co/bigscience/mt0-xxl

bigscience/mt0-xxl · Hugging Face

Accuracy on Winogrande XL (xl) validation set self-reported 63.380 Accuracy on XWinograd (en) test set self-reported 81.290 Accuracy on XWinograd (fr) test set self-reported 78.310 Accuracy on XWinograd (jp) test set self-reported 78.620 Accuracy on XWinog

huggingface.co

논문: https://arxiv.org/abs/2211.01786

Crosslingual Generalization through Multitask Finetuning

Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and m

arxiv.org

a family of models capable of following human instructions in dozens of languages zero-shot

crosslingual task mixture (xP3)에서 BLOOM 및 mT5 사전 훈련된 다국어 언어 모델을 fine-tuning하고 보이지 않는 작업 및 언어에 대한 교차 언어 일반화가 가능한 결과 모델

Datasets

pretraining: mc4

https://huggingface.co/datasets/mc4

108 languages including Korean

finetuning: xP3

https://huggingface.co/datasets/bigscience/xP3

Crosslingual Public Pool of Prompts

46개 언어 및 16개 NLP 작업에 대한 프롬프트 및 데이터 세트 모음

수십 가지 언어로 zero-shot 사람의 지시를 따를 수 있는 다국어 언어 모델인 BLOOMZ 및 mT0의 교육에 사용

Name	Explanation	Example models
xP3	Mixture of 13 training tasks in 46 languages with English prompts without Korean Korea - language code: ko, country code: kr programming_language: - C - C++ - C# - Go - Java - JavaScript - Lua - PHP - Python - Ruby - Rust - Scala - TypeScript	bloomz & mt0-xxl
xP3x	Mixture of 17 tasks in 277 languages(including Korean) with English prompts Korean - Code: kor_Hang - Kilobytes: 4,642,468 - %: 0.68 - Samples: 3,415,920 - %: 0.64	WIP - Join us at Project Aya @C4AI to help!
xP3mt	Mixture of 13 training tasks in 46 languages with English prompts	bloomz-mt & mt0-xxl-mt
xP3all	Mixture of 13 training tasks in 46 languages with prompts in 20 languages (machine-translated from English)
xP3megds	xP3 + evaluation datasets adding an additional 3 tasks for a total of 16 tasks in 46 languages with English prompts	bloomz
P3	Repreprocessed version of the English-only P3 with 8 training tasks	bloomz-p3&mt0-xxl-p3

Architecture

Same as mt5-xxl (mT5-xxl)

mT5 (Multilingual T5)

https://github.com/google-research/multilingual-t5

Language (101 languages)

Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Korean, Kurdish, Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scottish Gaelic, Serbian, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Sotho, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Uzbek, Vietnamese, Welsh, West Frisian, Xhosa, Yiddish, Yoruba, Zulu

mT5-Small (300 million parameters): gs://t5-data/pretrained_models/mt5/small
mT5-Base (580 million parameters): gs://t5-data/pretrained_models/mt5/base
mT5-Large (1.2 billion parameters): gs://t5-data/pretrained_models/mt5/large
mT5-XL (3.7 billion parameters): gs://t5-data/pretrained_models/mt5/xl
mT5-XXL (13 billion parameters): gs://t5-data/pretrained_models/mt5/xxl

BLOOMZ & mT0 Model Family

Multitask finetuned on xP3. Recommended for prompting in English.
Parameters	300M	580M	1.2B	3.7B	13B	560M	1.1B	1.7B	3B	7.1B	176B
Finetuned Model	mt0-small	mt0-base	mt0-large	mt0-xl	mt0-xxl	bloomz-560m	bloomz-1b1	bloomz-1b7	bloomz-3b	bloomz-7b1	bloomz
Multitask finetuned on xP3mt. Recommended for prompting in non-English.
Finetuned Model					mt0-xxl-mt					bloomz-7b1-mt	bloomz-mt
Multitask finetuned on P3. Released for research purposes only. Strictly inferior to above models
Finetuned Model					mt0-xxl-p3					bloomz-7b1-p3	bloomz-p3
Original pretrained checkpoints. Not recommended.
Pretrained Model	mt5-small	mt5-base	mt5-large	mt5-xl	mt5-xxl	bloom-560m	bloom-1b1	bloom-1b7	bloom-3b	bloom-7b1	bloom

Limitations

프롬프트 엔지니어링:

성능은 프롬프트에 따라 다를 수 있습니다.

BLOOMZ 모델의 경우 모델이 입력을 계속하려고 하지 않도록 입력이 중지되는 시점을 매우 명확하게 표시하는 것이 좋습니다.

예를 들어 끝에 마침표(.)가 없는 'Translate to English: Je t'aime' 프롬프트는 모델이 프랑스어 문장을 계속하려고 시도하는 결과를 초래할 수 있습니다.

더 나은 프롬프트는 예입니다.

"Translate to English: Je t'aime.", "Translate to English: Je t'aime. Translation:" "What is "Je t'aime." in English?"

또한 가능한 한 많은 컨텍스트를 모델에 제공하는 것이 좋습니다.

예를 들어, Telugu로 대답하게 하려면 모델에게 다음과 같이 말하십시오.

"Explain in a sentence in Telugu what is backpropagation in neural networks.".

[Large Language Model] BLOOM

데이터 세상 — Tue, 11 Jul 2023 13:42:46 +0900

BLOOM (2022.11)

https://bigscience.huggingface.co/blog/bloom

BLOOM

Our 176B parameter language model is here.

bigscience.huggingface.co

논문: https://arxiv.org/abs/2211.05100

BigScience Large Open-science Open-access Multilingual Language Model

176 billion parameters, Downloadable Model, Hosted API Available

BLOOM은 산업 규모의 컴퓨팅 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 계속하도록 훈련된 자동 회귀 대형 언어 모델(autoregressive LLM)입니다.

BLOOM은 명시적으로 훈련되지 않은 텍스트 작업을 텍스트 생성 작업으로 캐스팅하여 수행하도록 지시할 수도 있습니다.

70개국 1000명 이상의 연구원, 250개 이상 연구기관이 협업해 만들어낸 오픈소스 AI 다국어 언어 모델이며,

1.5TB 텍스트 데이터셋을 바탕으로 384개의 엔비디아 A100에서 3개월 넘게 학습했습니다.

46개의 자연어와 13개의 프로그래밍 언어로 텍스트를 생성하며, 이 프로젝트는 GPT-3와 같은 다른 대규모 언어 모델의 범위를 공유하지만 특히 더 투명하고 해석 가능한 모델을 개발하는 것을 목표로 합니다. BLOOM은 반드시 교육의 일부가 아닌 일반적인 텍스트 작업을 수행하기 위해 지침을 따르는 모델 역할을 할 수 있습니다.

GPT-3와 동등한 1760억 개의 매개변수를 가짐
46개국 언어 (no Korean)
13가지 프로그래밍 언어

Tokenization

A byte-level Byte Pair Encoding (BPE) algorithm
A simple pre-tokenization rule, no normalization
Vocabulary size of 250,680

BigScience

https://bigscience.huggingface.co/

BigScience Research Workshop

A one-year long research workshopon large multilingual models and datasets Update: Introducing The World's Largest Open Multilingual Language Model - BLOOM You can find the model here and learn more by reading our blog post. The acceleration in Artifi

bigscience.huggingface.co

BigScience는 컨소시엄이나 공식 법인이 아닙니다.

HuggingFace, GENCI 및 IDRIS에 의해 시작되고 연구 워크숍으로 조직된 공개 협업입니다.

이 연구 워크샵은 AI, NLP, 사회 과학, 법률, 윤리 및 공공 정책에 걸쳐 많은 연구 분야에 걸쳐 연구 관심이 있는 여러 소속의 학계, 산업계 및 독립 연구원을 모았습니다.

[Large Language Model] FLAN-T5

데이터 세상 — Tue, 11 Jul 2023 13:38:47 +0900

FLAN-T5

https://huggingface.co/docs/transformers/model_doc/flan-t5

FLAN-T5

Reinforcement learning models

huggingface.co

논문: https://arxiv.org/pdf/2210.11416.pdf

An encoder-decoder model based on the T5

Scaling Instruction – Fine-tuned Language Models

여러 타스크를 통해 fine-tuned된 T5의 향상된 버전

Flan

프롬프팅을 기반으로 하는 사전 교육 방법

FLAN-T5-XL

https://huggingface.co/google/flan-t5-x

google/flan-t5-xl · Hugging Face

If you already know T5, FLAN-T5 is just better at everything. For the same number of parameters, these models have been fine-tuned on more than 1000 additional tasks covering also more languages. As mentioned in the first few lines of the abstract : Flan-P

huggingface.co

60 Languages including Korean

taskmaster2, djaym7/wiki_dialog, deepmind/code_contests, lambada, gsm8k, aqua_rat, esnli, quasc 및 qed를 포함하는 데이터 세트의 Flan 컬렉션에서 훈련된 T5 모델

FLAN-T5-XXL

https://huggingface.co/google/flan-t5-xxl

google/flan-t5-xxl · Hugging Face

huggingface.co

an 11 billion parameter model based on the Flan-T5 family

Language(s) (NLP): English, German, French

[Generative AI] Prompt Engineer (프롬프트 엔지니어)

데이터 세상 — Tue, 11 Jul 2023 10:19:17 +0900

Prompt Engineering

[Generative AI] Prompt Engineering (프롬프트 엔지니어링)

Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이

yumdata.tistory.com

Prompt Engineer (프롬프트 엔지니어)

주요 역할

프롬프트 설계 및 개발(프롬프트 엔지니어링): AI 모델이 이해하고 반응할 수 있는 효과적인 프롬프트를 개발하고 최적화
시스템 통합: 자연어 처리(NLP) 알고리즘과 기존 시스템 및 인터페이스와의 통합을 관리
테스트 및 평가: 프롬프트의 성능을 평가하고 개선하며, 사용자 경험 및 비즈니스 요구 사항을 충족시키는지 확인

필요 역량

AI 교육 및 경험

AI 언어 모델 구조에 대한 이해: 인공지능에 대한 기본적인 원리와 개념을 명확히 이해
AI의 다양한 기초와 모델들에 대한 이해
데이터의 전처리와 라벨링 및 모델의 하이퍼파라미터의 종류와 사용 방법을 이해

다양한 AI 모델들을 사용해본 경험

Generative AI 기술과 플랫폼에 대한 이해

사용하고자 하는 Generative AI 서비스에 대한 기술 이해와 플랫폼에 대한 이해가 선행되어야 함
문제 해결 능력과 비판적 사고를 가져야 함
창의력과 호기심도 필요

포트폴리오 구축 및 커뮤니티 활용

창의성(문제해결력)

틀에서 벗어나 다양한 방식으로 프롬프트를 작성할 수 있는 관점
문제 해결 능력과 비판적 사고를 가져야 함
창의력과 호기심도 필요

Prompt Engineer 모집 공고 공통 요소들

다양한 초거대AI와 생성형 인공지능 모델(GPT-3, ChatGPT, CLOVA, DALL-E, Stable Diffusion 등)의 아키텍처 작동 개념 숙지
생성형 AI의 API, 확장 등 다양한 응용 활용에 능숙
범용적으로 쓰일 수 있는 프롬프트 기법 적용 역량(예제 선택 전략 / Chain-of-thought 등)
의사소통 능력이 뛰어나고 AI 기술의 개념에 대한 명확한 설명 및 문서 작성 가능
문제 해결 능력 및 문제 해결을 위한 사고력, 창의력 보유
최소한의 기본적인 프로그램 작성 기술 보유(파이선 등)
새로운 기술과 연구 및 업계의 동향에 적극적인 관심과 최신 정보 파악 능력

6 Steps to Develop Your Skills in Prompt Engineering

출처: https://www.premierbpo.com/blog/prompt-engineering/

1. 사용자 경험 디자인 원칙의 강력한 기반 구축

효과적인 메시지를 만들기 전에 사용자가 디지털 인터페이스와 상호작용하는 방식과 경험에서 기대하는 바를 이해해야 합니다.

예를 들어 전자상거래 웹사이트의 결제 흐름을 설계한다고 가정해 보겠습니다. 결제 프로세스의 단계 수, 사용자가 제공해야 하는 정보 유형, 프로세스를 안내하는 데 사용되는 프롬프트의 명확성과 사용 편의성과 같은 요소를 고려해야 합니다.

2. 기술력 개발

HTML, CSS, 자바스크립트와 같은 프롬프트를 만드는 데 사용되는 도구와 기술을 숙지하세요.

예를 들어 사용자가 웹페이지의 특정 요소 위로 마우스를 가져갈 때 표시되는 도움말을 디자인한다고 가정해 보겠습니다. CSS를 사용하여 툴팁의 스타일을 지정하는 방법과 자바스크립트를 사용하여 툴팁의 모양과 동작을 트리거하는 방법을 이해해야 합니다.

3. 업계 동향을 최신 상태로 유지

사용자 경험 디자인 및 디지털 인터페이스 개발에 초점을 맞춘 블로그, 포럼 및 소셜 미디어 채널을 팔로우하세요.

예를 들어 새로운 디자인 패턴에 대한 도움말을 읽거나 디자이너가 팁과 모범 사례를 공유하는 온라인 커뮤니티에 가입할 수 있습니다.

4. 테스트 및 반복

테스트는 prompt engineering의 필수적인 부분입니다.

분석 및 사용자 피드백을 사용하여 메시지의 문제점을 식별하고 그에 따라 디자인을 수정하세요.

예를 들어 A/B 테스트를 수행하여 다양한 유형의 프롬프트의 효과를 비교하거나 실제 사용자의 피드백을 수집하여 프롬프트가 수신되는 방식에 대한 통찰력을 얻을 수 있습니다.

5. 다른 사람과 협업

prompt engineering을 위해서는 다른 설계자, 개발자 및 이해관계자와의 협업이 필요합니다.

교차 기능 팀과 함께 작업하고 다양한 배경과 분야의 동료와 효과적으로 커뮤니케이션하는 연습을 하세요.

예를 들어 UX 연구원과 협력하여 사용자 테스트를 수행하거나 프런트 엔드 개발자와 협력하여 디자인을 구현할 수 있습니다.

6. 포트폴리오 구축

prompt engineering 경험을 쌓으면서 작업을 보여주고 전문성을 보여주는 포트폴리오를 만드세요.

다양한 유형의 프롬프트 예시를 포함하고 테스트와 반복을 통해 얻은 결과를 강조표시하세요.

예를 들어 작업의 영향을 보여주는 측정 항목과 함께 다양한 클라이언트 또는 프로젝트를 위해 만든 프롬프트 디자인의 우수사례를 포함할 수 있습니다

5 Non-tech prompt engineering skills

출처: https://zapier.com/blog/prompt-engineering/

1. Communication

프로젝트 관리자, 교사 또는 작업을 성공적으로 완료하는 방법에 대해 다른 사람들에게 정기적으로 브리핑하는 사람과 마찬가지로 prompt engineer는 지시를 잘 내릴 필요가 있습니다. 대부분의 사람들은 지침을 완전히 이해하기 위해 많은 예가 필요하며 AI도 마찬가지입니다.

2. Subject matter experise

많은 프롬프트 엔지니어는 의료 연구와 같은 특정 사용 사례에 대한 챗봇 조정을 담당합니다.
이것이 산업별 전문성을 요구하는 즉각적인 엔지니어링 채용 공고가 자주 발생하는 이유입니다.
의료, 법률, 마케팅 또는 목공 분야에 관계없이 주제 전문 지식은 강력한 프롬프트를 만드는 데 유용합니다.

3. Language

AI가 성공하려면 의도가 있어야 합니다. 그렇기 때문에 동사, 어휘 및 시제를 사용하여 중요한 목표를 표현하는 데 능숙한 사람들이 AI 성능을 향상시킬 수 있는 수단을 가지고 있습니다.
프로그래밍 언어를 사용하는 대신 AI 프롬프트는 산문(prose)을 사용합니다. 즉, 사람들이 프롬프트를 개발할 때 내면의 언어학 애호가를 불러일으켜야 합니다

4. Critical Thinking

Generative AI는 방대한 양의 정보를 합성하는 데 탁월하지만 환각(hallucinations)을 유발할 수 있습니다.

AI 환각은 챗봇이 품질이 좋지 않거나 불충분한 데이터로 훈련되거나 설계되었을 때 발생합니다. 챗봇이 환각을 일으키면 단순히 거짓 정보를 토해냅니다(다소 권위 있고 설득력 있는 방식으로).

prompt engineer는 이 약점을 찌르고 봇이 더 나아지도록 훈련시킵니다.
이것은 주제에 대해 적절한 수준의 친숙도를 갖는 것이 핵심임을 강조합니다. 누군가가 신뢰할 수 있는 사실 확인이 불가능한 것을 생성하는 챗봇을 갖는 것은 좋은 생각이 아닐 것입니다.

5. Creativity

새로운 것을 시도하는 것은 바로 창의성의 정의이며 좋은 프롬프트 엔지니어링의 본질이기도 합니다.
예를 들어, 언어를 정확하게 사용하는 것이 중요하지만 약간의 실험도 필요합니다. 모델이 클수록 복잡성이 커지고 결과적으로 예상치 못한 놀라운 결과가 나올 가능성이 높아집니다.
다양한 프롬프트를 시도한 다음 결과에 따라 해당 지침을 수정함으로써 생성 AI 사용자는 진정으로 독특한 것을 생각해낼 가능성을 높일 수 있습니다.

Prompt Marketplace

다양한 prompt marektplace에서 제공되는 무료 혹은 유료 프롬프트를 살펴보고, 프롬프트 작성법 등을 익힐 수 있습니다.

그리고, 역량이 확보된다면 prompt marketplace에 프롬프트를 제공해서 프롬프트 작성에 기여할 수도 있습니다.

Prompt Marketplace	기능	지원하는 Generative AI	홈페이지
chatX	단순화된 형태 무료/유료의 프롬프트 제공	ChatGPT, DALL-E 2, Midjourney, StableDiffusion	https://chatx.ai/
PromptBase	필터를 제공해 원하는 프롬프트 찾기 쉬움	ChatGPT, DALL-E 2, Midjourney, StableDiffusion	https://promptbase.com/
PromptSea	Web3.0 형식으로 지갑이 연결되어 암호화폐로 구매 가능 프롬프트 외 AI-art도 거래됨	Midjourney	https://www.promptseat.io/
neutronfield	Text-to-Image용 프롬프트 거래	DALL-E 2, Midjourney, StableDiffusion, Disco Diffusion, Cryiyon	https://neutronfield.com/
Prompt Town	한국에 위치를 둔 마켓플레이스	ChatGPT, DALL-E 2, Midjourney, StableDiffusion	https://prompt.town/
prompthero	가장 크고 다양한 콘텐츠와 미디어를 보유 디즈코드로 커뮤니티 구성	ChatGPT, DALL-E 2, Midjourney, StableDiffusion, Openjourney	https://prompthero.com/

References

[Prompt Tuning] Multi-task Prompt Tuning

데이터 세상 — Mon, 3 Jul 2023 20:40:35 +0900

Multi-task Prompt Tuning

Multitask Prompt Tuning enables Parameter-efficient Transfer Learning

https://openreview.net/pdf?id=Nk2pDtuhTq

MPT를 활용하면 여러 작업에 적용되는 단일 소프트 프롬프트를 만들 수 있습니다.

MPT is a variant of prompt tuning that leverages a transferable shared prompt that has distilled knowledge from multiple tasks. The shared prompt is then tuned with the user’s data.

This technique was developed in the MIT-IBM Watson AI Lab.

Empirical results demonstrate that MPT outperforms prompt tuning across a number of benchmarks.

Another MPT differentiator is the ability to tune a single prompt on several tasks.

MPT는 여러 작업에서 얻은 지식을 추출한 전송 가능한 공유 프롬프트를 활용하는 프롬프트 조정의 변형입니다. 그러면 공유 프롬프트가 사용자 데이터에 맞게 조정됩니다.
이 기술은 MIT-IBM Watson AI Lab에서 개발되었습니다.

경험적 결과에 따르면 MPT는 여러 벤치마크에서 즉각적인 조정보다 성능이 뛰어납니다.
MPT의 또 다른 차별화 요소는 여러 작업에 대해 단일 프롬프트를 조정하는 기능입니다.

References

[논문리뷰] The Power of Scale for Parameter-Efficient Prompt

데이터 세상 — Wed, 21 Jun 2023 17:33:50 +0900

The Power of Scale for Parameter-Efficient Prompt Tuning

Google Research 2019.09
https://arxiv.org/pdf/2104.08691.pdf
https://arxiv.org/abs/2104.08691

The Power of Scale for Parameter-Efficient Prompt Tuning

In this work, we explore "prompt tuning", a simple yet effective mechanism for learning "soft prompts" to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned throug

arxiv.org

The Huggingface PEFT Library

https://github.com/huggingface/peft

GitHub - huggingface/peft: PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

PEFT: State-of-the-art Parameter-Efficient Fine-Tuning. - GitHub - huggingface/peft: PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

github.com

PEFT 접근 방식을 사용하면 적은 계산 비용으로 전체 fine-tuning에 비해 충분한 성능을 얻을 수 있습니다.

이는 레이블이 지정된 데이터 및/또는 컴퓨팅 리소스가 제한될 때 선호되는 접근 방식입니다.

Fine-tuning	Parameter-efficient fine-tuning(PEFT)
모든 모델 매개변수 조정	소수의 (추가) 모델 매개변수 조정
호스팅이 필요한 기본 모델의 복사본을 생성	몇 MB 이하의 작은 체크포인트를 생성
1,000~100,000개의 라벨이 지정된 데이터 포인트가 필요	100~1,000개의 라벨이 지정된 데이터 포인트가 필요
기본 모델에 비해 대상 작업에서 상당한 성능 향상	기본 모델 크기 및 사용된 데이터에 따라 전체 미세 조정과 비교 가능
치명적인 망각에 빠지기 쉽다	치명적인 망각을 극복

Prompt Tuning

Soft Prompt

모델 fine tuning의 대안인 Prompt tuning은 모델 가중치를 동결하고 프롬프트의 매개변수를 업데이트 합니다.
결과 프롬프트는 'soft prompt'입니다.

Model Tuning vs Prompt Tuning (Lester et al.)

위의 이미지는 model tuning과 prompt tuning을 대조합니다.

model tuning에서는 다른 작업에서 동일한 모델을 미세 튜닝합니다. 이렇게 하면 입력을 쉽게 일괄 처리할 수 없는 몇 가지 다른 모델이 제공됩니다.

반면 prompt tunig을 사용하면 모든 작업에 동일한 모델을 사용할 수 있습니다. 추론 시간에 적절한 프롬프트를 추가하기만 하면 다양한 작업에서 일괄 처리가 더 쉬워집니다. 이것은 정기적인 프롬프팅이 갖는 이점과 거의 동일합니다. 또한 여러 작업에서 단일 모델에 대해 훈련된 soft prompt는 종종 토큰 길이가 동일합니다.

Soft Prompt 작동 원리

soft prompting의 기본 논리를 이해하기 위해 주어진 프롬프트에서 모델 추론이 작동하는 방식에 대해 생각해 봅시다.
What's 2+2?
1) What, 's, 2, +, 2, ?로 토큰화될 수 있습니다.
2) 그런 다음 각 토큰은 값의 벡터로 변환됩니다.
3) 이 값의 벡터는 모델 매개변수로 간주될 수 있습니다. 이 프롬프트의 가중치만 조정하여 모델을 추가로 훈련할 수 있습니다.
이러한 가중치를 업데이트하기 시작하자마자 토큰의 벡터는 더 이상 어휘의 실제 임베딩과 일치하지 않습니다.

결론
프롬프트 튜닝은 더 큰 모델에서 더 잘 수행됩니다.
모델이 클수록 소프트 프롬프트 토큰도 덜 필요합니다.
그럼에도 불구하고 20개 이상의 토큰은 상당한 성능 향상을 가져오지 않습니다.

Interpretable Soft Prompts(해석 가능한 Soft Prompt)

소프트 프롬프트는 어휘의 실제 토큰에 해당하지 않는 일련의 벡터입니다. 이로 인해 프롬프트를 해석하기가 어렵습니다. 그러나 우리는 여전히 벡터를 어휘에서 가장 가까운 토큰에 매핑하여 그렇게 하려고 시도할 수 있습니다. 그러나 예상되는 소프트 프롬프트는 종종 제멋대로입니다. 그들은 작업을 잘 해결할 수 있지만 어휘에서 임의의 토큰에 투영됩니다.

예를 들어 GSM8K2와 같은 수학 문제를 학습하는 경우 You are a mathematician. Solve this question:이라는 프롬프트로 시작할 수 있습니다.
prompt tuning을 수행한 다음 이를 다시 토큰 공간에 투영하면 A bus is a bus. Do thing here:와 같이 무의미한 결과가 남을 수 있습니다. 이 무의미한 프롬프트에 매핑되는 soft prompt가 작업에서 더 나은 성능을 제공할 수 있는 경우가 많습니다.

The Waywardness Hypothesis(고집불통 가설)

Khashabi et al.은 이 놀라운 가설을 제안합니다. 작업이 주어지면 개별 대상 프롬프트에 대해 작업을 잘 수행하면서 그것에 투사되는 연속적인 프롬프트가 존재한다고 말합니다.

이는 1000개의 서로 다른 작업이 주어지면 동일한 개별 프롬프트에 매핑되는 1000개의 서로 다른 성능 소프트 프롬프트(각 작업에 대해 하나씩)가 있음을 의미합니다.

Interpretability Risks(해석 위험)

소프트 프롬프트를 해석할 때 발생하는 여러 가지 위험을 강조하기 위해 Waywardness Hypothesis를 사용합니다. 특히, 소프트 프롬프트는 오해의 소지가 있는 의도를 제공하는 별개의 프롬프트로 투사될 수 있습니다.

순위 이력서에 대한 소프트 프롬프트를 고려하십시오. 토큰 공간에 투영하면 You hiring manager. Rank good resumes:가 될 수 있습니다. 이것은 괜찮은 것 같고 아마도 문법적으로 약간 부족할 것입니다. 그러나 토큰 good는 white에 대한 토큰과 유사한 프로젝션을 가질 수 있으며 프롬프트에 암시적 편향이 존재할 수 있습니다. 약간 다른 프로젝션 방법을 사용하면 You hiring manager. Rank white resumes:로 끝날 수 있습니다. 이것은 분명히 상당히 다르며 중요한 의미를 가질 수 있습니다.

규칙적인 불연속 프롬프트를 해석하는 것과 유사하게 프롬프트에 존재할 수 있는 편향을 극도로 의식해야 합니다. 소프트 프롬프트는 해석하기 더 어렵기 때문에 특히 주의해야 합니다.

Prefix Tuning

Prefix tuning은 GPT 모델에서 자연어 생성(NLG) 작업을 위해 설계되었으며, Prompt tuning과 매우 유사합니다.

사전에 훈련된(pre-trained) 모델의 나머지 매개변수를 동결된 상태로 유지하면서 훈련 및 업데이트할 수 있는 일련의 타스크 별 벡터를 입력 앞에 추가합니다.

Prefix tuning은 소프트 프롬프트를 사용합니다. 사전 훈련된 LLM을 고정한 상태로 유지하면서 훈련하는 입력 임베딩에 자유 매개변수가 있는 벡터가 연결됩니다.
Prefix tuning에서는 각 변환기 레이어에 벡터가 추가됩니다.

Prompt Tuning

Prompt Tuning은 벡터가 입력 레이어에만 추가되는 Prefix Tuning의 간단한 변형입니다.

[Prompt Tuning] Multi-task Prompt Tuning

Prefix Tuning vs Prompt Tuning

prefix 파라미터가 모든 모델 layer에 삽입되는 반면 prompt tuning은 prompt 파라미터만 모델 입력 임베딩에 추가됩니다.

prefix 파라미터는 또한 불안정성을 유발하고 성능을 저하시키기 때문에 soft prompt에서 직접 훈련하는 대신 별도의 feed-forward network(FFN)에 의해 최적화 됩니다.

FFN은 soft prompt를 업데이트한 후 삭제됩니다.

P-Tuning

P-Tuning은 prompt tuning의 변형입니다.

LSTM 모델을 사용하여 연속된 공간에서 더 나은 프롬프트를 자동으로 검색하고 최적화하는 방법입니다.

다양한 모델 규모(300M~10B)에서 잘 작동하는 것으로 경험적으로 입증되었습니다.

References

[무료 머신 러닝 실습 시스템] Machine Learning for Kids

데이터 세상 — Wed, 21 Jun 2023 15:43:09 +0900

Machine Learning for Kids

https://machinelearningforkids.co.uk/

Machine Learning for Kids

An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch.

machinelearningforkids.co.uk

이 무료 도구는 머신 러닝 시스템을 교육하고 이를 사용하여 무언가를 구축하기 위한 실습 경험을 제공하여 머신 러닝을 소개합니다.

텍스트, 숫자, 이미지 또는 소리를 인식하도록 머신 러닝 모델을 교육하기 위한 사용하기 쉬운 안내 환경을 제공합니다.

이는 교육용 코딩 플랫폼인 스크래치 및 앱 인벤터에 이러한 모델을 추가하고 아이들이 훈련하는 머신 러닝 모델로 프로젝트를 만들고 게임을 만들 수 있도록 도와줌으로써 아이들에게 코딩을 소개하고 가르치는 기존의 노력을 기반으로 합니다.

이 도구는 2017년에 처음 제공되었으며 현재 전 세계 수천 개의 학교, 코드 클럽 및 가족이 사용하고 있습니다.

이 도구는 전적으로 웹 기반이며 사용하기 위해 설치나 복잡한 설정이 필요하지 않습니다.

그것은 학교와 아이들을 위해 자원 봉사자가 운영하는 코딩 그룹이 교실에서 사용하도록 설계되었으며 교사 또는 그룹 리더가 학생들의 액세스를 관리하고 관리할 수 있는 관리 페이지를 제공합니다.

IBM Watson의 API를 사용하여 Dale Lane이 구축하고 있습니다.

구현에 대한 자세한 내용은 GitHub에서 소스 코드를 보거나 기술에 대한 일부 블로그 게시물을 읽을 수 있습니다.

Prompt Engineering vs Prompt Tuning vs Fine Tuning

데이터 세상 — Wed, 21 Jun 2023 13:33:59 +0900

Prompt(프롬프트)

사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트

모델에 제공하는 광범위한 지침으로, 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구

텍스트는 사용자와 generative AI 모델 간의 주요 통신 수단

예) 긴 기사를 요약하고 싶으면
"Summarize the above in one sentence" 같은 프롬프트와 기사 텍스트를 LLM(Large Language Model)에 입력

AI 프롬프트는 모델의 사고 과정을 위한 출발점 역할을 하므로 AI 모델과 상호 작용하는 데 필수적입니다.
간단하고 간단한 질문부터 AI가 정보를 합성하고 추론을 도출하거나 창의적인 솔루션을 제공해야 하는 보다 복잡하고 미묘한 하위 작업에 이르기까지 다양합니다.
프롬프트의 품질과 명확성은 AI 모델에서 생성되는 출력에 큰 영향을 미칠 수 있으므로 사용자의 의도와 원하는 결과를 효과적으로 전달하는 프롬프트를 만드는 것이 중요합니다.

Prompt 구성 요소

지시사항(Instruction)

AI 모델이 수행하기를 원하는 작업
구체적으로 어떤 작업을 해야 하는지에 대해 명확한 지시를 정의

모델이 개 산책 사업에 대한 아이디어를 나열하도록 하려면 다음과 같이 지시할 수 있습니다.

"List ideas for starting a dog-walking business:”

"List ideas for starting a large, wildly successful dog-walking business"

상황(Context)

AI 모델이 답변을 하게 되는 주변의 상황 또는 외부의 정보 및 추가 내용
지시사항이 이루어지는 상황에 대해서 AI에게 인지시킴으로써 해당 상황 내에서 지시에 대한 답을 내도록 한정하는 역할

프롬프트에 배경 또는 컨텍스트 정보를 포함하면 모델 출력이 원하는 방향으로 조금씩 움직일 수 있습니다.

특히 프롬프트 텍스트에 나타나는 (토큰화된) 단어는 생성된 출력에 포함될 가능성이 더 큽니다.

Examaples

원하는 모델 응답의 형식 또는 모양을 나타내려면 생성된 텍스트가 따르기를 원하는 패턴을 보여주는 하나 이상의 예제 입력 쌍과 해당하는 원하는 출력을 포함한다.

입력 값
구하고자 하는 최종 답에 대한 질문
지시와 상황을 기본 내용으로 해 최종으로 구하는 답을 얻게 하는 목표 내용

출력 형식
결과물의 형식 또는 형태 요소
입력값에 대한 출력 형태이므로 어떤 출력을 내도록 할 것인지는 매우 중요
출력의 형태가 간명할수록 원하는 결과에 가깝게 됨

Cue

큐는 원하는 경로에서 생성된 출력을 시작할 가능성이 있는 프롬프트 끝에 있는 텍스트

* 모델이 프롬프트에 응답하는 것처럼 보이지만 실제로는 프롬프트에 텍스트를 추가하거나 프롬프트를 계속하고 있음을 기억하십시오.

Zero-shot Prompting

zero-shot prompting에서 AI 모델은 기존 지식과 언어에 대한 일반적인 이해뿐만 아니라 프롬프트의 큰 언어에 포함된 정보에서 추론하는 능력에만 의존합니다. 이 접근 방식은 응답을 안내하는 데 도움이 되도록 모델에 각각 제한적이거나 광범위한 수의 예제가 제공되는 소수 학습 및 다중 학습과 대조됩니다.

예시)
다양한 소스의 텍스트가 포함된 대규모 데이터 세트에서 학습된 GPT-3과 같은 강력한 AI 언어 모델이 있다고 상상해 보십시오.
AI 언어 모델이 주어진 기사에 대한 요약을 제공하기를 원합니다.

'다음 기사를 세 문장으로 요약하십시오.'와 같은 간결한 지침이 뒤따르는 기사 텍스트를 AI 모델에 제공하기만 하면 제로샷 프롬프팅을 사용할 수 있습니다. 그런 다음 AI 모델은 기사 요약 작업에 대해 명시적으로 훈련되지 않은 상태에서 입력 텍스트를 처리하고 가장 중요한 사항을 추출하고 요약을 생성합니다.

이것은 GPT-3 및 유사한 AI 모델이 훈련 중에 큰 언어 모델과 광범위한 텍스트를 가지고 있기 때문에 해당 작업에 대한 특정 예나 사전 훈련 없이도 요약과 같은 새로운 작업을 일반화하고 수행할 수 있기 때문에 가능합니다.

One-shot Prompting

one-shot prompting은 AI 모델에 사용되는 기술로, 모델에 작업 설명과 단일 예제를 제공하여 학습하고 주어진 프롬프트에 대한 응답을 생성합니다. AI 모델은 이 작업 설명과 예제를 참조로 사용하여 작업을 이해하고 적절한 출력을 생성합니다.

one-shot prompting은 예가 없는 소프트 프롬프트를 제공하는 제로샷 프롬팅과 모델의 반응을 안내하기 위해 여러 예를 포함하는 소수 또는 다수 샷 학습 사이의 균형을 이룹니다.

one-shot prompting에서 AI 모델은 제공된 예와 결합된 기존 지식과 언어에 대한 일반적인 이해를 활용하여 당면한 작업을 수행합니다. 이 접근 방식은 모델이 one-shot prompting만 사용하여 원하는 출력을 추론하는 데 어려움을 겪을 수 있는 경우에 특히 유용할 수 있습니다.

Few-shot Prompting

https://renaissancerachel.com/prompting/

few-shot prompting은 주어진 프롬프트에서 학습하고 응답을 생성하기 위해 적은 수의 예(일반적으로 2~10개)만 모델에 제공하는 AI 모델과 함께 사용되는 기술입니다. 이러한 예는 모델이 작업을 더 잘 이해하고 더 정확한 출력을 생성할 수 있도록 하는 참조 역할을 합니다.

few-shot prompting는 one-shot prompting보다 AI 모델에 더 많은 지침을 제공하는 동시에 광범위한 교육 데이터가 필요하지 않습니다. 제공된 몇 가지 예에서 모델을 일반화하고 그 이해를 새로운 보이지 않는 프롬프트에 적용하는 데 도움이 됩니다.

Prompt Engineering (프롬프트 엔지니어링)

by OpenAI CEO
Writing a really great prompt for a chatbot persona is an amazingly high-leverage skill and an early example of programming in a little bit of natural language
챗봇 페르소나를 위해 훌륭한 프롬프트를 작성하는 것은 활용성이 굉장히 높은 기술이며 몇 마디의 자연어로 프로그래밍하는 것의 초기 모습니다.

AI가 최적의 결과물을 만들어낼 수 있도록, AI 프롬프트를 작성하는 작업

Generative AI을 기반으로 한 AI 모델로부터 더 복잡한 태스크들에 대해 정확한 답변을 이끌어내도록 유도하면서 환각(hallucination) 현상과 같은 오류를 줄이는데 기여하고 있습니다.
AI에게 질문을 잘해 AI를 효과적으로 쓰는 방법입니다.
AI로부터 최상의 답변을 끌어내기 위해 최적의 단어, 즉 입력값들의 조합을 찾는 작업입니다.

대규모 언어 모델(LLM)이 일관성 있고 고품질의 텍스트 출력을 생성할 수 있도록 하는 효과적인 프롬프트를 설계하고 제작하는 작업

원하는 출력 결과물을 이해하고 요구 사항을 충족하는 텍스트를 생성하는 모델의 기능을 최대화하는 명확하고 간결한 입력을 제공하는 것을 목표로 합니다.

프롬프트를 구성하는 방식이 결과물의 퀄리티를 좌우!!

프롬프트 엔지니어링은 기본적으로 인간이 손으로 디자인한 프롬프트, 특히 자연어 처리에 중점을 둔 프롬프트이기 때문에 AI 모델 작업의 중요한 측면입니다. 여기에는 AI 모델의 성능, 안정성 및 유용성을 개선하기 위한 프롬프트 설계 및 최적화가 포함되어 생성된 출력이 사용자의 의도 및 원하는 결과와 일치하도록 합니다.

이 프로세스에서는 필요에 따라 컨텍스트와 예제를 제공하면서 명확하고 간결한 프롬프트를 작성해야 합니다. 주어진 작업에 대해 가장 효과적인 프롬프트 구조와 구문을 식별하기 위해 종종 반복적인 개선이 필요합니다.

프롬프트 엔지니어링을 마스터함으로써 사용자는 AI 모델에서 보다 정확하고 관련성이 높으며 신뢰할 수 있는 결과를 얻을 수 있으므로 보다 효율적이고 생산적인 상호 작용이 가능합니다.

프롬프트 엔지니어링의 주요 목표는 사용자의 의도와 원하는 결과를 전달하는 프롬프트를 세심하게 만들어 모델의 성능, 정확성 및 유용성을 극대화하는 것입니다. 이는 명확한 지침, 충분한 컨텍스트 및 필요한 경우 예를 제공하는 것을 포함하여 몇 가지 기술과 고려 사항을 통해 달성됩니다.

Prompt Engineering이 필요한 이유

프롬프트 엔지니어링은 AI 모델, 특히 자연어 처리에 중점을 둔 모델의 잠재력을 최대한 활용하는 데 있어 중요한 측면입니다.

프롬프트 엔지니어링의 중요성은 모델 출력의 품질, 정확성 및 관련성에 직접적인 영향을 미친다는 것입니다. 잘 만들어진 프롬프트는 사용자 경험을 향상시킬 뿐만 아니라 모델에 적절한 지침과 명확성을 제공하여 작업 복잡성을 해결합니다. 그렇게 함으로써 모호성을 해결하고 전반적인 효율성을 개선하며 원하는 출력을 얻는 데 필요한 반복 횟수를 줄임으로써 시간과 리소스를 절약합니다.

또한 프롬프트 엔지니어링을 통해 사용자 지정이 가능하여 사용자가 특정 요구 사항이나 선호도에 따라 AI 모델의 응답을 조정할 수 있습니다. 결과적으로 보다 개인화되고 상황에 맞는 관련 출력이 생성됩니다.

프롬프트 엔지니어링의 또 다른 중요한 측면은 윤리적 고려 사항을 다루는 역할입니다. 적절한 제약 조건과 지침으로 프롬프트를 작성함으로써 AI 모델은 잠재적으로 유해하거나 편향되거나 공격적인 콘텐츠를 생성하는 것을 방지하고 결과를 윤리적 고려 사항 및 사용자 기대치에 맞춥니다.

본질적으로 프롬프트 엔지니어링은 사용자와 AI 모델 간의 상호 작용을 최적화하여 생성된 출력이 사용자의 기대를 충족하고 특정 요구 사항을 충족하여 궁극적으로 보다 효율적이고 생산적인 상호 작용을 유도하는 데 필수적입니다.

Auto-Regression LLM의 한계

LLM은 단어의 순서를 비롯한 프롬프트의 작은 변화에 따라 응답의 품질이 상당히 다를 수 있습니다.
LLM은 명령(Instruction)과 예제(Example)의 미묘한 패턴을 감지하여 답변을 조정합니다. 따라서 LLM 의 답변 결과는 프롬프트(ex. 프롬프트에 포함된 특정 명령뿐만 아니라 단어의 선택, 단어의 순서)에 따라 민감하게 달라질 수 있습니다.

대표적인 LLM인 GPT 모델이 Auto-Regression 모델임을 기억하십시오.
Auto-Regression LLM은 이전 단어를 보고 가장 높은 확률의 단어를 다음 단어로 예측하므로 단어의 순서에 따라 얼마든지 다른 답변을 출력할 수 있습니다.

Human-Computer 간의 인터페이스로 자연어 사용

컴퓨터가 발명된 이후, 컴퓨터의 프로세서에서 실행되는 기계어를 인간이 직접 프로그래밍하는 것을 시작으로 인간과 컴퓨터간 인터페이스는 컴퓨터의 구조를 잘 알지 못하여도 쉽게 프로그래밍할 수 있도록 고급 프로그래밍 언어의 형태로 점점 더 발전되어 왔습니다. 결국 우리가 현재 사용하는 GUI 등은 쉽고 직관적인 인터페이스를 제공하기 위한 결과입니다.

하지만 인간에게는 자연어를 능가하는 사용자 인터페이스는 없습니다.
반대로 컴퓨터에게 자연어만큼 불친절한 인터페이스는 없습니다.
자연어는 매우 모호하고, 부정확하고, Context에 매우 의존적이며, 사람마다 해석이 다를 수 있습니다.

LLM은 주위 환경의 Context를 이해하는데 한계를 갖음

현재의 LLM은 사람과 달리 장기 기억을 갖지 못하고 다양한 감각 기관의 도움을 받을 수 없기 때문에 자기 주위의 컨텍스트를 이해할 수 없습니다.
프롬프트 엔지니어링은 자연어의 복잡성과 다양성을 유지하면서 AI 시스템을 명확하게 프로그래밍할 수 있는 방법을 제공합니다.

하지만 프롬프트 엔지니어링에도 단점이 있습니다. 예를 들어 LLM으로부터 원하는 답변을 유도하는 것은 내부가 어떻게 동작하는지 알지 못하는 블랙 박스를 제어하는 것과 유사하기 때문에 원하는 답변을 얻기 위한 프롬프트를 만드는데 많은 시간이 필요합니다.

Prompt Engineer

[Generative AI] Prompt Engineer (프롬프트 엔지니어)

Prompt Tuning

https://renaissancerachel.com/prompting/

프롬프트 튜닝은 프롬프트 형태로 모델에 제공된 입력을 정제하는 프롬프트 엔지니어링에 비해 더 무거운 접근 방식입니다.
AI 모델의 매개변수를 fine-tuning함으로써 프롬프트 튜닝을 통해 모델의 동작을 보다 정확하게 조정하여 보다 정확하고 적절하며 신뢰할 수 있는 출력을 얻을 수 있습니다.

프롬프트 튜닝을 통해 모델은 내부 표현에 대한 미묘한 조정을 학습하여 Foundation 모델을 광범위하게 재교육하거나 수정하지 않고도 특정 작업이나 프롬프트에서 더 잘 수행할 수 있습니다. 보다 상업적인 의미에서 프롬프트 튜닝을 통해 제한된 데이터를 가진 회사는 대규모 모델을 좁은 작업에 맞게 조정할 수 있습니다.

말 그대로 대규모 언어 모델(LLM, Large Language Model) 자체를 fine-tuning하는 기술로, 주어진 입력 프롬프트에 대해 원하는 답변을 생성하는 LLM을 만드는 것을 목표로 합니다.

프롬프트 튜닝을 통해 LLM은 내부 표현에 대한 미묘한 조정을 배우며 LLM을 광범위하게 재학습하거나 수정하지 않고도 특정 작업이나 프롬프트를 더 잘 수행할 수 있습니다.
제한된 데이터를 가진 회사는 LLM을 협소한 태스크에 맞게 튜닝할 수 있습니다.

프롬프트 튜닝은 입력 프롬프트와 해당 프롬프트에 대해 사용자가 원하는 출력을 포함하는 특수 데이터셋으로 LLM을 fine-tuning 함으로써 모델의 동작을 최적화하고 향후 유사한 프롬프트를 처리하는 능력을 향상시킬 수 있습니다.

Model Tuning vs Prompt Tuning (https://arxiv.org/pdf/2104.08691.pdf)

Fine-tuning은 Pre-training된 모델을 각 task A, B, C에 해당하는 데이터셋을 이용하여 학습하는 것으로 모델의 weight가 변경됩니다.
반면 프롬프트 튜닝은 Pre-training된 모델의 weight를 변경하지 않고 모델에 입력되는 프롬프트에 해당하는 weight만을 학습합니다.
모델 weight 보다 프롬프트 weight가 훨씬 더 작기 때문에 fine-tuning보다 프롬프트 튜닝의 학습 시간이 빠른 장점이 있습니다.

Prompt Tuning는 어떻게 동작되는가

프롬프트 튜닝은 사용자와 AI 모델 간의 안내된 커뮤니케이션 프로세스로 시각화할 수 있습니다.
AI를 고도로 지식이 풍부하지만 때로는 대화에서 지나치게 문자적이거나 장황한 파트너라고 생각하십시오. 귀하의 목표는 신중하게 디자인된 텍스트 프롬프트를 사용하여 AI에서 가장 정확하고 관련성이 있으며 간결한 정보를 추출하는 것입니다.

초기 프롬프트 튜닝으로 시작하십시오. 예를 들어 사용자의 쿼리가 '프롬프트 튜닝이란 무엇입니까?'인 경우 'AI에서 프롬프트 튜닝의 개념과 목적을 설명하십시오.'와 같이 보다 구체적으로 쿼리를 수정합니다. 그런 다음 AI의 응답을 분석하고 필요한 경우 프롬프트를 다시 수정하여 더 정확하고 간결한 답변을 얻습니다.

Prompt Tuning 중요점

프롬프트 튜닝은 보다 집중적이고 간결한 출력을 장려함으로써 지나치게 장황하거나 문자 그대로의 경향과 같은 AI 모델의 고유한 한계를 극복하는 데 도움이 됩니다.
AI 기술이 계속 진화하고 우리 삶의 다양한 측면에 점점 더 통합됨에 따라 AI 모델의 성능을 최적화하는 데 즉각적인 튜닝에 대한 철저한 이해가 필수적이며 궁극적으로 더 유익한 인간-AI 협업으로 이어질 것입니다. 이러한 시너지를 촉진함으로써 우리는 AI 기술이 가능한 가장 효과적인 방식으로 우리에게 서비스를 제공하여 생산성을 높이고 광범위한 영역에서 더 나은 의사 결정을 용이하게 할 수 있습니다.

Prompt Engineering vs Prompt Tuning

Model Tuning vs Prompt Tuning vs Prompt Engineering (https://ai.googleblog.com/2022/02/guiding-frozen-language-models-with.html)

프롬프트 튜닝과 프롬프트 엔지니어링의 주요 차이점은 프로프트 튜닝이 더 자동화된다는 것입니다.
프롬프트 튜닝을 사용하면 사용자가 프롬프트를 제공하기만 하면 LLM이 나머지 작업을 수행합니다.
프롬프트 엔지니어링을 사용하면 사용자가 직접 프롬프트를 설계해야 하므로 더 많은 시간이 소요될 수 있습니다.

prompt engineering과 prompt tuning은 AI 성능과 출력을 최적화하기 위한 두 가지 보완적인 접근 방식입니다. 두 전략 모두 사용자와 AI 간의 상호 작용을 개선하는 데 중점을 두지만 구체적인 목표와 기술이 다릅니다.

Prompt Engineering

프롬프트 엔지니어링은 AI 모델에서 원하는 응답을 도출하기 위해 효과적인 입력 프롬프트를 설계하는 기술입니다. 이 프로세스는 종종 프롬프트를 공식화하는 데 창의성과 실험이 필요하며 AI의 강점과 약점에 대한 깊은 이해가 필요합니다. 컨텍스트를 추가하고 기대치를 명확히 하고 AI의 응답을 기반으로 프롬프트를 반복적으로 개선함으로써 사용자는 AI가 보다 정확하고 관련성 있으며 컨텍스트 인식 결과를 생성하도록 안내할 수 있습니다.
프롬프트 엔지니어링은 사용자가 Foundation 모델을 수정하지 않고도 더 나은 출력을 얻을 수 있으므로 사전 훈련된 모델로 작업할 때 특히 유용합니다.

Prompt Tuning

프롬프트 튜닝은 AI 모델 자체를 fine-tuning하는 고급 기술로, 특히 주어진 입력 프롬프트에 대해 원하는 응답을 생성하는 모델의 기능을 목표로 합니다.
프롬프트 튜닝은 특정 프롬프트 또는 프롬프트 구조에서 AI 모델의 성능을 개선하는 데 중점을 둔 보다 광범위한 fine-tuning 프로세스의 하위 집합으로 볼 수 있습니다.
입력 프롬프트의 예와 해당하는 원하는 출력을 포함하는 특수 데이터 세트에서 AI 모델을 교육함으로써 사용자는 모델의 동작을 최적화하고 향후 유사한 프롬프트를 처리하는 능력을 향상시킬 수 있습니다.

프롬프트 엔지니어링과 프롬프트 튜닝은 모두 AI의 성능을 향상시키고 사용자의 잠재력을 극대화한다는 궁극적인 목표를 제공합니다.
프롬프트 엔지니어링은 종종 더 빠르고 더 적은 계산 리소스를 필요로 하지만, 프롬프트 튜닝은 AI의 동작을 보다 중요하고 지속적으로 개선할 수 있으므로 AI 모델을 특정 요구 사항과 과제에 맞게 조정하려는 사용자에게 강력한 도구가 됩니다.
실제로 사용자는 AI 모델에서 가능한 최상의 결과를 얻기 위해 고유한 강점을 활용하여 이러한 기술을 조합하여 사용할 수 있습니다.

	장점	단점
Prompt Engineering	출력을 더 많이 제어할 수 있기 때문에 프롬프트 튜닝보다 좀더 효과적 LLM을 원하는 출력으로 안내하도록 프롬프트를 신중하게 만들 수 있음	사람의 입력이 더 많이 필요하기 때문에 프롬프트 튜닝보다 더 많은 시간이 소요됨 프롬프트는 신중하게 작성해야 하며 효과적인 프롬프트를 찾기 위해 시행 착오가 필요
Prompt Tuning	프롬프트 튜닝은 더 자동화되어 있기 때문에 프롬프트 엔지니어링보다 빠르고 쉬움 프롬프트는 모델에 의해 자동으로 생성되며 사람의 입력이 필요하지 않음	출력에 대한 많은 제어를 허용하지 않기 때문에 프롬프트 엔지니어링 보다 덜 효과적 프롬프트는 모델에 의해 생성되며 사람이 세심하게 만든 프롬프트만큼 효과적이지 않음

Fine-tuning

https://renaissancerachel.com/prompting/

모델 튜닝에서는 서로 다른 작업에서 동일한 모델을 미세 조정(fine tune)합니다. 이렇게 하면 입력을 쉽게 일괄 처리할 수 없는 몇 가지 다른 모델이 제공됩니다.
GPT-3와 같은 사전 훈련된 모델은 초기에 방대한 양의 데이터, 학습 언어 패턴, 문법 및 일반 지식 습득에 대해 훈련됩니다. 그러나 이러한 모델은 특수 작업에서 최적으로 수행하거나 도메인별 응답을 생성하는 데 여전히 어려움을 겪을 수 있습니다.

fine-tuning은 사용자가 특정 요구 사항에 맞게 AI 모델을 조정하려고 할 때 시작됩니다. 해당 작업 또는 산업의 뉘앙스를 반영하는 더 작고 선별된 데이터 세트를 제공함으로써 사용자는 AI 모델의 이해를 구체화하고 대상 도메인에서 성능을 향상시킬 수 있습니다. 이러한 사용자 지정을 통해 AI 모델은 방대한 일반 지식을 유지할 뿐만 아니라 고유한 산업별 요구 사항을 능숙하게 처리할 수 있습니다.

예를 들어, 제약 산업에 종사하는 회사는 의학 문헌 및 제약 지침에 대한 언어 모델을 fine-tuning하여 AI가 해당 컨텍스트에서 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있도록 합니다.

fine-tuning을 활용하여 사용자는 AI 언어 모델의 잠재력을 최대한 활용하여 특정 요구 사항과 과제를 충족하는 강력한 도구로 변환하여 궁극적으로 효율성 향상, 더 나은 의사 결정 및 성공적인 AI 배포로 이어질 수 있습니다.

Fine-tuning 은 어떻게 동작되는가

fine-tuning 프로세스 자체에는 특정 수의 에포크 동안 이 특수 데이터 세트에서 AI 모델을 교육하는 것이 포함되어 모델이 매개 변수를 조정하고 사용자 애플리케이션에 고유한 패턴, 용어 및 뉘앙스를 학습할 수 있습니다. 이 교육은 과적합 또는 과소적합을 방지하고 모델의 일반 지식을 유지하는 것과 특정 사용 사례에 맞게 조정하는 것 사이에서 올바른 균형을 유지하도록 신중하게 수행해야 합니다.

fine-tuning 프로세스가 완료되면 AI 모델은 사용자의 대상 도메인에 능숙한 고도로 사용자 정의된 도구가 됩니다. 그런 다음 이 맞춤형 모델을 배포하여 사용자의 특정 문제를 해결하고 사전 훈련된 범용 모델이 달성할 수 있는 것보다 더 정확하고 관련성 있고 신뢰할 수 있는 결과를 얻을 수 있습니다.
fine-tuning을 수용함으로써 사용자는 AI 기술의 진정한 잠재력을 잠금 해제하고 고유한 요구 사항을 충족하는 강력한 동맹으로 변환하여 궁극적으로 해당 영역에서 성공과 혁신을 주도할 수 있습니다.

Fine-tuning은 왜 중요한가

AI 모델을 fine-tuning함으로써 사용자는 모델이 특정 상황에서 더 정확하고 관련성 있고 신뢰할 수 있는 결과를 생성하도록 할 수 있으며, 이는 결과적으로 더 나은 의사 결정, 효율성 향상 및 생산성 증가로 이어집니다. 이 사용자 정의 프로세스를 통해 AI 모델은 사용자의 목표와 목표에 보다 잘 부합하여 고유한 문제를 해결하는 데 있어 보다 효과적이고 가치 있는 자산이 됩니다.

또한 fine-tuning은 초기에 훈련된 데이터의 다양하고 통제되지 않은 특성의 영향을 받았을 수 있는 사전 훈련된 모델에 내재된 일부 제한 또는 편향을 완화하는 데 도움이 될 수 있습니다.
세심하게 선별된 전문 데이터 세트에서 AI를 교육함으로써 사용자는 모델을 보다 객관적이고 안정적이며 상황에 맞는 응답으로 안내할 수 있으므로 궁극적으로 특정 도메인에서 AI 기술의 모든 기능을 활용하고 혁신과 확장을 주도할 수 있습니다.

Prompt tuning vs Fine-tuning

프롬프트 튜닝은 AI 모델에 제공된 입력 텍스트 프롬프트를 개선하여 보다 정확하고 관련성 있으며 상황 인식 응답을 유도하는 데 중점을 둡니다. 여기에는 컨텍스트를 추가하고, 기대치를 명확히 하고, AI의 응답을 기반으로 입력 텍스트를 반복적으로 다듬어 프롬프트를 신중하게 만드는 작업이 포함됩니다.
프롬프트 튜닝의 주요 이점은 기본 AI 모델을 수정할 필요가 없으므로 더 빠르고 리소스 효율적인 접근 방식이 된다는 것입니다. 프롬프트 튜닝은 사용자가 모델 자체를 재훈련하거나 적응시키지 않고도 더 나은 출력을 추출할 수 있기 때문에 사전 훈련된 모델로 작업할 때 특히 유용합니다.

fine-tuning은 사전 훈련된 AI 모델을 더 작고 전문화된 데이터 세트에서 훈련시켜 특정 작업, 도메인 또는 애플리케이션에서 더 잘 수행하도록 조정하는 프로세스입니다. 이 데이터 세트는 사용자의 대상 도메인 또는 작업의 뉘앙스를 반영하여 AI 모델이 특정 사용 사례에 고유한 패턴, 용어 및 컨텍스트를 학습할 수 있도록 합니다.
fine-tuning은 AI 모델을 재훈련하고 매개 변수를 조정하는 작업을 포함하므로 프롬프트 조정보다 더 많은 계산 리소스와 시간이 필요합니다. 그러나 AI 모델의 예측 성능을 보다 중요하고 지속적으로 개선할 수 있으므로 AI 모델을 특정 요구 사항과 과제에 맞게 조정하려는 사용자에게 강력한 도구가 됩니다.

어떤 방법이 가장 쉬운가?

AI 모델을 최적화하기 위한 다양한 방법을 탐색함에 따라 필요한 머신 러닝 전문 지식 수준에 분명한 진전이 있습니다.
효과적인 입력 프롬프트를 만드는 데 중점을 둔 프롬프트 엔지니어링은 머신 러닝 모델에 대한 심층 지식이 필요하지 않으므로 기술 배경이 제한된 사용자가 액세스할 수 있습니다.

프롬프트 튜닝 및 fine-tuning과 같은 고급 기술로 이동함에 따라 머신 러닝에 대한 더 깊은 이해가 필수적입니다.
프롬프트 튜닝에는 AI 모델로 작업하고 원하는 프롬프트를 제공하는 것이 포함되며 fine-tuning에는 사용자의 요구에 맞는 특정 데이터 세트에 대한 원본 모델의 추가 교육이 필요합니다.
인간 피드백으로부터의 강화 학습(RLHF, Reinforcement Learning from Human Feedback)은 가장 복잡한 방법이며 인간 피드백 수집을 위한 메커니즘 설계에 대한 전문 지식이 필요합니다. 사용자는 이러한 기술을 통해 진행하면서 고유한 문제와 기술 숙련도를 기반으로 가장 적합한 방법을 선택하여 AI 모델의 잠재력을 최대한 활용할 수 있습니다.

결론적으로 AI 모델이 원하는 작업을 수행하도록 하려면 특정 사용 사례에 맞는 기술 조합이 필요합니다.
일반적인 작업의 경우 제로샷, 원샷 및 퓨샷 프롬프팅은 추가 교육 없이도 귀중한 결과를 제공할 수 있습니다.
성능을 더욱 최적화하기 위해 프롬프트 엔지니어링은 효과적인 입력 프롬프트를 만드는 데 도움이 될 수 있으며 프롬프트 튜닝 및 fine-tuning을 통해 전문 작업 또는 도메인에 맞게 AI 모델을 사용자 지정할 수 있습니다.

가장 좋은 방법은 고유한 요구 사항에 따라 다릅니다.
프롬프트 엔지니어링 및 프롬프트 전략은 신속하고 리소스 효율적인 최적화에 이상적이며 fine-tuning은 보다 전문적인 요구 사항에 대한 보다 심층적인 사용자 정의를 제공합니다. 이러한 기술을 이해하고 활용함으로써 AI 모델의 잠재력을 최대한 활용하여 특정 문제를 해결하고 도메인에서 성공을 이끄는 강력한 도구로 변환할 수 있습니다.

References

Text Mining (텍스트 마이닝)

데이터 세상 — Tue, 20 Jun 2023 14:31:46 +0900

Text Mining (텍스트 마이닝)

Text Data Mining 이라고도 합니다.

텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다.

텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다.

텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어 처리,

정보 검색 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다.

텍스트 데이터 종류

텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다.

정형 데이터 (Structured Data)

여러 행과 열로 이루어진 표준 테이블 형식

분석 및 머신러닝 알고리즘에 적합하게 저장하고 처리하기 용이

ex) 이름, 주소, 전화번호 등

비정형 데이터 (Unstructured Data)

사전 정의된 데이터 형식이 없는 데이터

소셜 미디어나 제품 리뷰 같은 소스의 텍스트, 비디오나 오디오 파일 같은 리치 미디어 형식 등

반정형 데이터 (Semi-structured Data)

정형 데이터와 비정형 데이터 형식이 혼합된 데이터

어느 정도 체계화되어 있지만, 관계형 데이터베이스의 요구사항을 충족하기에는 정형성이 부족

XML, JSON, HTML 파일 등

텍스트 마이닝 기법

텍스트 마이닝 프로세스는 비정형 텍스트 데이터에서 정보를 추론하기 위한 몇 가지 활동으로 구성됩니다.

다양한 텍스트 마이닝 기법을 적용하기 위해서는 텍스트 전처리, 즉 텍스트 데이터를 정리하여 사용 가능한 형식으로 변환해야 합니다.

언어 식별, 토큰화(Tokenization), 품사 태깅, 구문 분석(chunking)과 같은 기법을 활용하여 데이터를 분석에 적합한 형식으로 만듭니다.

정보 검색 (IR, Information Retrieval)

사전 정의된 query/구문 세트를 기반으로 연관 정보나 문서를 확보하는 기법입니다.

정보 검색 시스템에서는 각종 알고리즘을 활용하여 사용자 행동을 추적하고 관련 데이터를 식별합니다.

Tokenization(토큰화)

긴 형태의 텍스트를 "토큰"이라는 문장 및 단어로 나누는 프로세스

Bag-of-Word(Bow)와 같은 모델을 적용하여 텍스트 클러스터링 및 문서 매칭 태스크를 수행합니다.

Stemming(어간 추출)

단어에서 접두사와 접미사를 분리하여 어간(단어의 의미를 담고 있는 단어의 핵심 부분)와 의미를 도출하는 프로세스

인덱싱 파일의 크기를 줄여 정보 검색의 성능을 높일 수 있습니다.

자연어 처리(NLP, Natural Language Processing)

Summarization(요약)

긴 텍스트의 시놉시스를 제공하여 문서의 주요 요점을 간결하고 일관되게 요약하는 기법

PoS(Part-of-Speech, 품사 태깅)

명사, 동사, 형용사 등 품사를 기준으로 문서의 토큰에 태그를 할당하는 기법

비정형 텍스트에 대한 의미 분석이 가능해집니다.

Text Categorization(텍스트 범주화)

텍스트 분류라고도 하는데 사전 정의된 주제 또는 범주에 따라 텍스트 문서를 분석하고 분류

동의어와 약어를 분류하는 데 특히 유용합니다.

Sentiment Analysis(감성 분석)

내/외부 데이터 소스에서 긍정적인 또는 부정적인 정서를 감지하여 시간의 흐름에 따른 고객의 태도 변화를 추적

일반적으로 브랜드, 제품, 서비스에 대한 인식 관련 정보를 제공하는 데 사용됩니다.

정보 추출(IE, Information Extraction)

다양한 문서를 검색하면서 유의미한 데이터 조각을 찾아냅니다.

자유 텍스트에서 정형화된 정보를 추출하고 이러한 엔티티, 속성, 관계 정보를 데이터베이스에 저장합니다.

Feature Selection(특징 선택)

속성 선택(Attribute Selection)이라고 불리며, 예측 분석 모델의 결과에 가장 크게 기여할 중요한 특징(차원)을 선택하는 프로세스

Feature Extraction(특징 추출)

분류 태스크의 정확도를 높이기 위해 일부 특징을 선택하는 프로세스

이는 특히 차원 축소에 중요합니다.

NER(Named-Entity Recognition, 개체명 인식)

엔티티 식별 또는 엔티티 추출이라고도 하며, 텍스트의 특정 엔티티(ex. 이름, 위치)를 찾아 분류하는 것이 목적

데이터 마이닝(Data Mining)

참고 Data Mining (데이터 마이닝)

Data Mining (데이터 마이닝)

Data Mining (데이터 마이닝) 다양한 관점에서 데이터를 분석해 의미를 도출 (데이터의 특징을 알아내는 것이 중점) 데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것 일반적으

yumdata.tistory.com

데이터 마이닝은 빅데이터 세트에서 패턴을 식별하고 유용한 인사이트를 추출하는 프로세스입니다.

정형 데이터와 비정형 데이터를 모두 평가하여 새로운 정보를 식별합니다.

일반적으로 마케팅 및 판매 분야에서 사용자 행동을 분석하는데 활용됩니다.

텍스트 마이닝은 비정형 데이터를 정형화하고 분석하여 새로운 인사이트를 생성하는 데 중점을 두므로, 사실상 데이터 마이닝의 하위 영역이라 할 수 있습니다.

텍스트 마이닝 사용 사례

지식 경영(Knowledge Management)

많은 양의 데이터 중 의미 있는 데이터반 뽑아내고 효율적으로 관리

사이버 범죄 예방(Cybercrime prevention)

텍스트 마이닝을 이용한 범죄 예방 어플리케이션

고객 관리 서비스(Customer Care Service)

고객에게 빠르고 자동화된 응답을 제공하기 위해 활용

고객 클레임 분석을 통한 부정행위 탐지(Fraud detection through claims investigation)

보험회사는 텍스트 마이닝을 통해 사기를 방지하고 빠르게 클레임을 처리

콘텐츠 강화(Content Enrichment)

다양한 목적에 따라 그에 적합한 내용으로 정리하고 요약

소셜 미디어 데이터 분석(Social media data analysis)

해당 브랜드나 제품에 대한 다양한 의견과 감성반응을 살펴봄

고객 서비스

다양한 방법으로 사용자에게 고객 피드백을 요청할 수 있습니다.

텍스트 애널리틱스 툴, 피드백 시스템(예: 챗봇), 고객 설문조사, NPS(Net-Promoter Score, 순추천지수), 온라인 리뷰, 지원 티켓, 소셜 미디어 프로파일과 연계함으로써 고객 경험을 빠르게 향상할 수 있습니다.

기업에서 텍스트 마이닝과 감성 분석을 이용하여 고객의 주요 애로 사항에 우선순위를 부여하는 메커니즘을 마련합니다.

이러한 방식으로 시급한 문제에 실시간으로 대응하고 고객 만족도를 높일 수 있습니다.

위험 관리

텍스트 마이닝은 위험 관리에도 활용됩니다.

업계 동향 및 금융 시장에 관한 인사이트를 제공할 수 있는데, 이를 위해 정서 변화를 모니터링하고, 애널리스트 리포트 및 백서에서 정보를 추출하는 등의 기법을 구사합니다.

금융 기관에 특히 유용한데, 다양한 분야에 대한 비즈니스 투자를 고려할 때 이 데이터를 토대로 더 자신 있게 판단할 수 있기 때문입니다.

유지보수

텍스트 마이닝은 제품과 기계의 작동 및 기능에 관하여 상세하고 거시적인 관점을 제시합니다.

텍스트 마이닝은 차츰 문제점, 그리고 사전 예방/사후 대처 유지보수 절차와 관련 있는 패턴을 밝혀냅니다. 그에 따라 의사결정이 자동화됩니다.

유지 보수 전문가는 텍스트 애널리틱스를 통해 당면 과제 및 실패의 근본 원인을 더 빨리 찾아낼 수 있습니다.

헬스케어

바이오메디컬 분야에서, 특히 정보 클러스터링과 관련하여 텍스트 마이닝 기법이 더욱 진가를 발휘하고 있습니다.

의학 연구 자료를 수작업으로 조사하려면 비용과 시간이 많이 들 수 있습니다.

텍스트 마이닝은 의료 문헌에서 가치 있는 정보를 추출하는 작업을 자동화할 수 있습니다.

스팸 필터링

스팸은 해커가 컴퓨터 시스템을 악성 코드(malware)에 감염시킬 때 진입 지점이 되곤 합니다.

텍스트 마이닝으로 이러한 이메일을 수신함에서 필터링하고 제외함으로써 사용자 경험을 전반적으로 향상하고 최종 사용자에 대한 사이버 공격의 위험을 최소화할 수 있습니다.

텍스트 마이닝 분석 프로세스

텍스트 데이터 수집

SNS/뉴스/블로그 등 텍스트 데이터 수집

텍스트 전처리

전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업

궁극적으로 '중요한 특징 값'을 선택하는 것이 중요

오탈자 제거, 띄어쓰기 교정
불용어 제거: 데이터에서 큰 의미가 없는 단어 제거
정제(cleaning): 가지고 있는 코퍼스로부터 노이즈 데이터 제거
정규화(normalization): 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦

토큰화(tokenization)

주어진 코퍼스(corpus, 말뭉치)에서 토큰(token)이라 불리는 단위로 나누는 작업(공백 기준, 형태소 기준, 명사 기준)

구분 기준은 분석 방법에 따라 다르다.

감성 분석한다면, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해서 동사, 형용사 위주로 추출한다.

특징 값 추출

'중요한 단어'를 선별하는 과정

'중요한 단어'로서의 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서는 빈번하게 출현해야 한다.

특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어를 의미한다.

데이터 분석

머신러닝, 딥러닝 분석 모델 등 사용

References

[Generative AI] Generative AI(생성형 AI)

데이터 세상 — Mon, 19 Jun 2023 20:45:57 +0900

Generative AI(생성형 AI)

Generative AI를 위한 핵심 기술

- Foundation Model: Foundation Model 이란

- Prompt engineering: Prompt Engineering (프롬프트 엔지니어링)

Generative AI의 핵심은 "충분히 있을 법한" 무언가를 생성하는 것입니다.

Generative AI는 기본 기능이 콘텐츠 생성인 모든 AI 시스템에 사용할 수 있는 광범위한 용어입니다. 이는 데이터 분류(예: 이미지에 레이블 지정), 데이터 그룹화(예: 유사한 구매 행동을 가진 고객 세그먼트 식별) 또는 작업 선택(예: 자율 차량 조종)과 같은 다른 기능을 수행하는 AI 시스템과 대조됩니다.

Generative AI란 사람이 AI에게 특정 입력(프롬프트)을 통해 어떤 것을 만들어 달라고 요구하면 그 요구에 맞춰서 결과를 만들어주는 인공지능을 말합니다.

Generative AI는 구조화되지 않은 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 일종의 인공 지능입니다.

이 프로세스의 일부로 생성형 AI는 머신 러닝 및 딥 러닝 알고리즘의 기반을 사용합니다. 그것이 생성하는 콘텐츠에는 서면 자료, 이미지, 비디오, 오디오 및 음악 및 컴퓨터 코드가 포함됩니다.

예를 들어, 인간이 질문이나 진술을 ChatGPT(Generative AI의 선구적인 사례)에 입력하면 짧지만 합리적으로 상세한 서면 답변을 제공합니다. 또한 사용자는 후속 질문을 입력하고 챗봇과 진행 중인 대화에 참여할 수 있습니다. 챗봇은 이전 대화의 세부 정보를 기억할 수 있습니다.

Generative AI는 최근 이 분야의 주요 혁신이 가속화되고 있기 때문에 주목을 받고 있습니다.

예를 들어 OpenAI의 ChatGPT는 사람이 쓴 것처럼 문법적으로 올바른 텍스트를 생성할 수 있으며 DALL-E 도구는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있습니다. 구글, 페이스북, 바이두를 포함한 다른 회사들도 실제처럼 보이는 텍스트, 이미지 또는 컴퓨터 코드를 생성할 수 있는 정교한 생성 AI 도구를 개발했습니다.

Generative AI 동작 원리

Generative AI는 training 세트를 기반으로 새로운 콘텐츠를 생성합니다.

연구자들은 GAN(Generative Adversarial Network) 프레임워크라고 하는 딥 러닝 시스템에 단어, 그림, 음악 또는 기타 콘텐츠와 같은 엄청난 양의 데이터를 제공합니다. 감독된 신경망(supervised neural network)은 데이터를 살펴보고 성공에 대해 보상하고 오류, 실수 및 실패에 대해 벌점을 부과하는 시스템을 사용합니다. 시간이 지남에 따라 인간의 감독을 통해 복잡한 관계를 식별하고 이해하는 방법을 배웁니다.

예를 들어 ChatGPT에 사용되는 원본 OpenAI Codex는 웹 및 기타 소스에서 수집된 700GB 이상의 데이터에서 파생됩니다. 여기에는 책, 잡지 기사, 웹사이트, 기술 매뉴얼, 이메일, 노래 가사, 무대 연극, 대본 및 기타 공개 소스의 콘텐츠가 포함됩니다. ChatGPT와 같은 자연어 모델은 일반적으로 단어 벡터라는 수학적 모델에 의존하여 구문에 가중치를 부여하고 순위를 매깁니다.

그들은 또한 RTE(Recognizing Textual Entitlement)라는 기술을 사용하여 단어 관계를 더 잘 이해합니다. 예를 들어 그들이, 그들의, 저기 또는 강한 바람이 부는지 도로 바람이 부는지 여부입니다.

Generative AI 활용

Generative AI 및 기타 Foundation AI 모델은 AI 개발에 큰 영향을 미치고 보조 기술을 강화하며 비기술 사용자를 위한 강력한 기능을 지원합니다.

여기에는 텍스트에서 코드, 이미지, 음악에 이르는 콘텐츠 제작이 포함됩니다.

Generative AI 시스템의 일반적인 예로는 이미지 생성기(텍스트를 통해 이미지 생성, 예: DALL-E, Midjourney 또는 Stable Diffusion), 대규모 언어 모델(예: GPT-4, PaLM, Claude 또는 BERT), 대화형 인공지능 서비스(ChatGPT, Bard), 코드 생성 도구(예: Copilot 또는 Wysdom) 또는 오디오 생성 도구(예: VALL-E 또는 similar.ai), 또는 딥브레인 AI, Synthesia 등과 같이 텍스트를 통해 동영상 생성 등이 있습니다.

이 외에도 웹 사이트, 게임, 음악, 앱, 음성 등도 생성할 수 있습니다.

그리고 프롬프트(입력값)가 꼭 텍스트일 필요는 없습니다.

텍스트에서 이미지, 이미지에서 텍스트, 이미지 + 텍스트에서 이미지, 음성에서 이미지, 음성에서 영상, 영상에서 이미지 등 입력과 출력이 다양한 형태로 적용될 수 있습니다.

Text

OpenAI는 자연어 채팅 기능을 개발하는 유일한 회사가 아닙니다.

Google의 LaMDA 및 Bard, Apple의 Siri, Microsoft의 Cortana 및 Amazon의 Alexa는 모두 Generative AI 모델을 사용하여 서면 또는 음성 단어를 생성합니다.

Images

DALL-E 및 Google의 MiP-NeRF와 같은 다른 생성 AI 도구는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있습니다.

예를 들어, 웹 디자이너는 DALL-E 엔진에 '고전적인 스페인 광장'이라는 단어를 입력하고 실제 장소를 나타내지는 않지만 믿을 수 없을 정도로 실제처럼 보이는 이미지를 볼 수 있습니다. 마찬가지로 어떤 사람은 DALL-E에게 모네 스타일로 카페에 앉아 있는 여성의 이미지를 생성하도록 요청하고 거의 즉시 아티스트가 생성한 것처럼 보이는 이미지를 볼 수 있습니다.

Music

Generative AI는 본격적인 작곡과 특수 음향 효과를 포함한 오디오 및 음악을 제작하는 데에도 사용됩니다.

Amper Music, Aiva, Amadeus Code, Google Magenta 및 MuseNet을 비롯한 여러 회사는 사실적인 여러 악기로 독창적인 음악을 생성할 수 있습니다. 사용자는 장르, 아티스트 또는 스타일(예: 재즈, 모차르트, 롤링 스톤즈 또는 업비트)을 요청하고 결과 AI 생성 작곡을 들을 수 있습니다.

Software Development

Generative AI의 급증하는 또 다른 사용 사례는 소프트웨어 개발입니다.

Amazon의 CodeWhisperer 및 GitHub의 CoPilot과 같은 플랫폼은 개발자를 위한 자연어 기반 로우코드 및 노코드 플랫폼을 도입합니다. Generative AI를 사용하면 소프트웨어 개발자가 플랫폼에 요청을 말하거나 작성할 수 있고 Python, R, Java 또는 기타 주요 언어로 된 소프트웨어 코드의 실제 라인을 볼 수 있습니다. 이를 통해 개발자는 더 빠르게 작업하고 재사용 가능한 모듈을 더 쉽게 만들 수 있습니다.

Story and Game Development

보다 고급 사용 사례는 스토리 및 게임 개발, 로봇 디자인, 심지어 질문을 하고 주제를 조사하여 제품 또는 운영 방법을 디버깅하는 것과 같은 것을 중심으로 이루어집니다. 또한 Generative AI 도구에 아이디어와 개념을 제공하도록 요청하면 테마를 탐색하고 새롭고 다양한 디지털 및 물리적 개체를 개발할 수도 있습니다.

기업에서 Generative AI 사용 방법

비즈니스 세계에서 생성 AI의 주요 사용 사례는 다음과 같습니다.

마케팅과 판매

Generative AI 시스템은 이메일, 웹사이트 텍스트 및 이미지, 브로셔, 전자책 및 제품 가이드, 제품 레이블 및 내부 문서를 위한 다양한 서면 콘텐츠를 생성할 수 있습니다. 또한 조직은 이 기술을 사용하여 고객 피드백을 분석하고, 위험과 기회를 식별하고, 유용하고 기능이 뛰어난 챗봇을 배포할 수 있습니다.

인적 자원(Human Resources)

HR 부서는 Generative AI를 활용하여 엔터프라이즈 핸드북, 직무 설명 및 면접 질문을 작성할 수 있습니다.

챗봇은 직원에게 정보와 자조를 제공할 수 있습니다. 여기에는 온보딩 자동화 또는 의료 보험 또는 퇴직 저축 전략 선택을 위한 옵션 및 조언 제공이 포함될 수 있습니다.

운영(Operations)

고객 서비스 챗봇은 회사가 문의를 관리하고 사람들을 올바른 정보로 안내하고 도움이 될 때 상담원에게 전달할 수 있도록 도와줍니다. Generative AI는 또한 비교 이미지를 통해 오류, 결함 및 기타 문제를 식별할 수 있습니다. 예를 들어 회사는 Generative AI를 사용하여 고도로 기술적인 구성 요소의 이상적인 이미지를 생성한 다음 제조 중에 이미지를 캡처하여 품질 관리 표준을 준수할 수 있습니다.

IT 및 소프트웨어 개발

Generative IT는 Python, Perl, Go, PHP 및 JavaScript와 같은 최신 언어로 코드를 작성할 수 있습니다. 개발 팀은 이러한 스니펫과 블록을 소프트웨어에 연결하고 라이브러리에 저장할 수 있습니다. 마찬가지로 Generative AI는 데이터 테이블을 자동 완성하고 기계 학습 모델의 정확도를 향상시킬 수 있는 합성 데이터를 생성할 수 있습니다. 이 기술은 또한 사이버 공격 방법을 시뮬레이션할 수 있습니다.

기타 비즈니스 사용

수많은 다른 비즈니스 사용 사례가 존재합니다. 여기에는 연구 개발(R&D)에 사용되는 모델링 시스템이 포함됩니다.

문서의 텍스트를 검토하여 법적 및 규제 표준을 충족하는지 확인합니다.

이메일 및 비즈니스 프레젠테이션을 포함하여 일반적인 직원 커뮤니케이션을 최적화하고 개선합니다.

Generative AI History

인공 지능 연구는 1950년대에 구체화되기 시작했습니다. Alan Turing과 다른 과학자들은 인간의 생각을 복제할 수 있는 컴퓨팅 프레임워크를 만드는 방법을 찾기 시작했습니다.

1960년대에는 소위 Markov 모델이 등장하기 시작했습니다. 이러한 확률 기반 알고리즘은 기본적인 수학적 모델을 기반으로 음성이나 텍스트를 생성할 수 있지만 성공률은 제한적입니다.

1990년대에는 보다 정교한 생성 모델이 등장하기 시작했습니다. 지난 10년 동안 GPU와 딥 러닝의 발전으로 훨씬 더 발전된 AI가 등장했습니다. 오늘날 이러한 반복적인 신경망은 인간 예술가, 음악가 및 작가에 근접하거나 경우에 따라 초과하는 방식으로 콘텐츠를 생성할 수 있습니다.

이 시점에서 인공 지능, 특히 생성 AI는 사람과 기업이 행동하고 상호 작용하고 정보를 처리하는 방식을 근본적으로 재구성하고 있습니다.

시장 조사 기관인 Grandview Research는 Generative AI 시장이 2030년까지 매년 34.4% 성장할 것으로 예상합니다.

이 기술은 금융, 의료, 자동차 및 운송, 정보 기술, 통신 및 미디어를 포함한 광범위한 산업 분야에서 가치가 있다고 말합니다. 그리고 오락. Generative AI는 마케팅, 이미지 분류 및 품질 관리와 같은 광범위한 작업을 변환할 수 있습니다.

실제로 Gartner는 Generative AI 기술이 디지털 제품 개발에 혁신을 가져올 것이라고 선언했습니다. 컨설팅 회사는 2025년까지 모든 디지털 콘텐츠의 약 10%가 이러한 알고리즘에서 파생될 것이라고 보고합니다. McKinsey & Company는 Generative AI가 사람들이 일하는 방식과 함께 직무 역할을 근본적으로 바꿀 것이라고 보고했습니다.

'Generative AI의 부상은 기업의 주요 게임 체인저가 될 가능성이 있습니다.'

Generative AI 우려점

Lack of Accuracy (정확성 부족)

생성된 텍스트는 완전하고 정확한 것이 아니기 때문에 사람의 검토가 필요합니다.

Legal Issues and Plagiarism (법적 문제와 표절)

생성된 음악, 이미지 또는 기타 자료의 유형에 대해 주의를 기울여야 합니다.

Privacy and Security (개인정보 보호 및 보안)

모델을 구축하는 데 사용되는 일부 데이터에는 실수로 개인 데이터와 나중에 노출될 수 있는 정보가 포함될 수 있습니다.

Societal Impact (사회적 영향)

전반적인 사회적 영향을 고려해야 합니다. 기술을 해롭고 파괴적인 방식으로 인간을 조정하는 데 사용하지 않도록 주의해야 합니다.

GAN(Generative Adversarial Networks, 생성적 적대 신경망, 2014)

https://arxiv.org/abs/1406.2661

Generative Adversarial Networks

We propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that

arxiv.org

생성적 적대 신경망

적대는 서로 적대적 관계라는 뜻으로 두 가지 요소인 생성자(Generator) 그리고 판별자(Discriminator)를 경쟁하게 하며 학습시키는 것을 의미합니다.

GAN을 최초로 발표한 모덜 딥러닝의 아버지 Ian Goodfellow는 이 두 가지 요소를 지폐 위조범과 지폐와 위폐를 구별해야 하는 경찰에 비유합니다.

이 둘은 각각 생성자(Generator)와 판별자(Discriminator)로 칭합니다. 이 생성자와 판별자는 학습 과정에서 서로 경쟁하며, 최종적으로 양측의 손익을 합하면 0이 되는 제로섬 게임을 이어갑니다.

생성자와 판별자는 학습과정에서 서로 경쟁하며 생성자가 만든 위폐가 진짜 지폐와 비교해서 차이가 없을 때까지, 즉 진짜같은 가짜를 만들도록 계속 학습하는 원리입니다.

즉 '진짜같은 가짜'를 만들어내는 생성자가 학습되게 됩니다.

GAN의 학습 과정

GAN은 '진짜같은 이미지'를 만들기 위해 'Noise'를 입력받아 그럴 듯한 이미지를 만듭니다.

학습의 전반적인 흐름은 먼저 판별자를 학습시킨 후, 생성자를 학습시키는 과정을 반복하는 식으로 흘러갑니다.

여기서 판별자의 학습은 크게 두 가지 단계로 이루어집니다.

첫 번째는 Real data를 입력해 ‘진짜’를 ‘진짜’로 분류하도록 학습시키는 과정이고,

두 번째는 생성자가 생성한 Fake data를 입력해 ‘가짜’를 ‘가짜’로 분류하도록 학습시키는 과정입니다.

판별자를 학습시킨 다음에는 이 판별자를 속이라는 임무를 쥐어주고 생성자를 학습시킵니다.

생성자에 랜덤한 노이즈를 생성해내는 벡터 z를 입력으로 넣어 만들어진 가짜 이미지를 판별자에 입력합니다.

그리고 이 가짜 이미지가 진짜라고 분류될 정도로 진짜와 유사한 이미지를 만들어내는 방향으로 생성자를 학습시킵니다.

이 과정에서 판별자는 진짜 이미지의 출력값을 1로 설정하고, 이미지가 얼마나 진짜같은지에 대한 수치를 0과 1 사이의 확률값으로 나타냅니다. 생성자는 자신이 생성한 이미지에 대한 판별자의 출력값이 1에 가까워지는 방향으로 학습합니다.

이 과정을 반복하면 판별자와 생성자가 서로를 적대적인 경쟁자로 인식하여 서로 발전하게 되고, 어느 순간 두 모델 모두 더 이상 개선되지 않는 어떤 균형점(Nash Equilibrium)에 이르게 됩니다. 이 단계에 이르면 학습이 마무리되고, 결과적으로 생성자 G가 만들어내는 데이터의 분포가 처음에는 원본 데이터의 분포를 크게 벗어나 있었으나, 점차 원본 데이터의 분포를 근사할 수 있도록 학습된 것을 확인할 수 있습니다.

Traditional AI vs Generative AI

Traditional AI	Generative AI
"레이블이 지정된" 데이터로 학습된 머신러닝(ML) 모델	라벨이 지정되지 않은 데이터로 학습된 파운데이션 모델(FM)
훈련은 감독됨(supervised)	자체 감독 (Self-supervised)
적절한 대규모 데이터 세트로 훈련	훨씬 더 큰 데이터 세트로 훈련
특정 태스크를 위한 훈련	특정 태스크 없음
다른 작업으로 잘 전환되지 않음	전이 가능(Transferable)
조정된 모델은 설계된 특정 작업에 매우 효율적일 수 있음	일반적인 작업에 적합하며 적은 교육으로 특정 작업에 대해 향상될 수 있음
편향(bias)과 드리프트를 모니터링해야 함	편향(bias)과 드리프트를 모니터링해야 함

References

[Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

데이터 세상 — Mon, 19 Jun 2023 11:48:30 +0900

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

ChatGPT 및 그 이상에 대한 설문조사에 관한 내용을 정리하였습니다.

https://arxiv.org/abs/2304.13712

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from t

arxiv.org

이 문서는 자연어 처리(NLP) downstream 작업에서 대규모 언어 모델(Large Language Model, LLM)로 작업하는 실무자와 최종 사용자를 위한 포괄적이고 실용적인 가이드를 제공합니다.

https://github.com/Mooler0410/LLMsPracticalGuide

GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers)

A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers) - GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples,...

github.com

다음의 주요 가이드를 포함합니다.

Natural language understanding: 분산 데이터가 없거나 교육 데이터가 거의 없는 경우 LLM의 탁월한 일반화 기능을 사용합니다.
Natural language generation.:LLM의 기능을 활용하여 다양한 애플리케이션을 위한 일관되고 상황에 맞는 고품질 텍스트를 생성합니다.
Knowledge-intensive tasks(기술 집약적 작업): 도메인별 전문 지식 또는 일반적인 세계 지식이 필요한 작업을 위해 LLM에 저장된 광범위한 지식을 활용합니다.
Reasoning ability(추론 능력): LLM의 추론 기능을 이해하고 활용하여 다양한 상황에서 의사 결정 및 문제 해결을 개선합니다.

The evolutionary tree of modern LLMs

다음은 대규모 언어 모델(Large Language Model, LLM) 진화 트리(Evoluation Tree)입니다.

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (survey paper)

같은 분기에 있는 모델은 더 밀접한 관계를 가집니다.

Transformer-based models: non-grey color
Decoder-only model:s blue branch
Encoder-only models: pink branch
Encoder-Decoder models: green branch

타임라인에서 모델의 세로 위치는 출시 날짜를 나타냅니다.

오픈 소스 모델은 속이 꽉 찬 사각형으로, 비 오픈소스(유료) 모델은 속이 빈 사각형으로 표시됩니다.

오른쪽 하단의 누적 막대 그래프는 다양한 회사 및 기관의 모델 수를 보여줍니다.

메타가 개발한 초거대언어모델은 모두 오픈소스이며, OpenAI의 ChatGPT 이후 모델들은 아직 다 비 오픈소스(유료)입니다.

인코더-디코더 모델은 아키텍처가 여전히 활발하게 탐색되고 있고 대부분이 오픈 소스이기 때문에 여전히 유망합니다. Google은 오픈 소스 인코더-디코더 아키텍처에 상당한 기여를 했습니다. 그러나 디코더 전용 모델의 유연성과 다양성으로 인해 이 방향에 대한 Google의 주장이 덜 유망해 보입니다.

	Characteristic	LLMs
Encoder-Decoder or Encoder-only (BERT-style)	Training: Masked Language Models Model Type: Discriminative Pretrain task: Predict masked words	ELMo, BERT, RoBERTa, DistilBERT, BioBERT, XLM, Xlnet, ALBERT, ELCTRA, T5, GLM. XLM-E, ST-MoE, AlexaTM
Decoder-only (GPT-style)	Training: Autoregressive Language Models Model Type: Generative Pretrain task: Predict next word	GPT-3, OPT, PaLM, BLOOM, MT-NLG, GLaM, Gopher, chinchilla, LaMDA, GPT-J, LLaMA, GPT-4, BloombergGPT

BERT-style Language Models: Encoder-Decoder or Encoder-only

Masked Language Models

motivates the unsupervised learning of natural language

주변 컨텍스트를 고려하면서 문장에서 마스킹된 단어를 예측하는 방식입니다.

모델은 단어와 단어가 사용되는 컨텍스트 간의 관계를 더 깊이 이해할 수 있습니다.

Transformer 아키텍처와 같은 기술을 사용하여 대규모 텍스트 코퍼스에서 훈련을 해서, 감정분석 및 엔터티 인식과 같은 많은 NLP 작업에서 최점단 결과를 달성했습니다.

주요 모델은 BERT, RoBERTa, T5 등이 있습니다.

T5: [NLP][Language Model] T5(Text-to-Text Transfer Transformer)

GPT-style Language Models: Decoder-only

Autoregressive Language Models

언어 모델은 일반적으로 아키텍처에서 작업에 구애받지 않지만 이러한 방법은 특정 다운스트림 작업의 데이터 세트에 대한 미세 조정이 필요합니다.

연구자들은 언어 모델을 확장하면 few-shot, 심지어 zero-shot 성능도 크게 향상된다는 사실을 발견했습니다.

더 나은 few-shot 및 zero-shot 성능을 위한 가장 성공적인 모델은 이전 단어가 주어진 시퀀스에서 다음 단어를 생성하여 학습되는 자동 회귀 언어 모델(Autoregressive Language Models)입니다. 이러한 모델은 텍스트 생성 및 질문 답변과 같은 다운스트림 작업에 널리 사용되었습니다.
자동 회귀 언어 모델의 예로는 GPT-3, OPT, PaLM 및 BLOOM이 있습니다. 게임 체인저인 GPT-3는 처음으로 프롬프팅 및 컨텍스트 내 학습(in-context learning)을 통해 합리적인 few/zero shot 성능을 보여 자기 회귀 언어 모델의 우수성을 보여주었습니다.
금융 도메인을 위한 BloombergGPT, 코드 생성과 같은 특정 작업에 최적화된 CodeX와 같은 모델도 있습니다.

최근의 돌파구는 ChatGPT로, 특히 대화 작업을 위해 GPT-3를 개선하여 다양한 실제 응용 프로그램을 위한 대화형, 일관성 및 상황 인식 대화를 제공합니다.

Data Warehouse vs Data Lake vs Data Lakehouse

데이터 세상 — Wed, 14 Jun 2023 18:39:35 +0900

Data Warehouse (데이터 웨어하우스)

데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템입니다.
데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다.
데이터 웨어하우스는 현재 데이터와 과거 데이터를 모두 한 곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었으므로 비즈니스 인텔리전스의 주요 구성 요소입니다.

출처:https://corporatefinanceinstitute.com/

데이터 웨어하우스는 여러 소스의 raw data를 중아 repository로 수집하고 이를 관계형 데이터베이스 인프라로 구성합니다.

이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다.

시스템은 ETL(Extract, Transform, Load) 프로세스를 사용하여 데이터를 추출, 변환 및 대상으로 로드합니다.

장점

Better data quality. Most trust

데이터 웨어하우스의 데이터가 정리, 중복 제거 및 표준화되었습니다.

일관되고 "단일 소스"를 보유하면 모든 분석에서 파생된 통찰력과 결정에 대한 신뢰를 구축할 수 있습니다.

Complete picture, Better, Faster analysis

데이터 웨어하우스는 운영 데이터베이스, 트랜잭션 시스템 및 플랫 파일과 같은 다양한 소스의 데이터를 통합하고 조화시킵니다.

비즈니스를 보다 완벽하게 파악하고 데이터 마이닝, augmented analysis, 머신 러닝과 같은 BI 활동을 활용하여 데이터 사일로에서 쉽게 놓칠 수 있는 패턴을 찾을 수 있습니다.

정화하고 완전한 데이터를 더 빨리 사용할 수 있으므로 정보를 더 빠르게 통찰력으로 전환할 수 있습니다.

단점

특히 데이터 소스의 수와 데이터 양이 시간이 지남에 따라 증가하면 비효율성과 비용으로 인해 제한될 수 있습니다.

Lack of data flexibility

데이터 웨어하우스는 정형 데이터에서 잘 작동하지만 로그 분석, 스트리밍 및 소셜 미디어 데이터와 같은 반정형 및 비정형 데이터 형식에서는 어려움을 겪을 수 있습니다. 이로 인해 머신 러닝 및 인공 지능 사용 사례에 대한 데이터 웨어하우스를 권장하기가 어렵습니다.

High implementation and maintenance costs

데이터 웨어하우스는 구현 및 유지 관리 비용이 많이 들 수 있습니다.

데이터 웨어하우스는 일반적으로 정적이지 않습니다. 그것은 구식이 되고 비용이 많이 들 수 있는 정기적인 유지 관리가 필요합니다.

Data Lake (데이터 레이크)

데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다.
데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다.

출처:datakitchen.io

데이터 레이크는 일반적으로 Apache Hadoop과 같은 빅 데이터 플랫폼에 구축됩니다.

기존 데이터 웨어하우스의 사전 정의된 스키마가 없기 때문에 저렴한 비용과 스토리지 유연성으로 유명합니다.

또한 오디오, 비디오 및 텍스트와 같은 다양한 유형의 데이터를 보관합니다.

데이터 생산자는 대부분 구조화되지 않은 데이터를 생성하기 때문에 더 많은 데이터 과학 및 인공 지능(AI) 프로젝트를 가능하게 하여 조직 전체에서 더 많은 참신한 통찰력과 더 나은 의사 결정을 이끌어 내므로 이는 중요한 차이점입니다.

장점

Agility

사전 계획없이 쿼리, 데이터 모델 또는 애플리케이션을 쉽게 구성할 수 있습니다.

SQL 쿼리 외에도 real-time analytics, big data analytics 및 machine learning을 지원하는데 적합합니다.

Real-time

실시간으로 여러 소스에서 원본 형식의 데이터를 가져올 수 있습니다.

이를 통해 real-time analytics 및 machine learning을 수행하고 다른 애플리케이션에서 작업을 trigger할 수 있습니다.

Scale

ERP 트랜잭션 및 call log와 같은 대량의 정형 및 비정형 데이터를 처리할 수 있습니다.

※ ERP(Enterprise Resource Planning, 전사적 자원 관리)

재무, 제조, 소매유통, 공급망, 인사 관리, 운영 전반의 비즈니스 프로세스를 자동화하고 관리하는 시스템

Speed

데이터를 원시 상태로 유지하면 해결해야 하는 비즈니스 질문을 정의할 때까지 ETL 및 Schema 정의와 같은 시간 집약적인 작업을 수행할 필요가 없으므로 훨씬 빠르게 사용할 수 있습니다.

Better insights

보다 광범위한 데이터를 새로운 방식으로 분석하여 예상치 못한 이전에 사용할 수 없었던 통찰력을 얻을 수 있습니다.

Cost savings

Data lake는 관리하는 데 시간이 덜 걸리므로 운영 비용이 더 낮습니다.

또한 스토리지 관리에 사용하는 대부분의 도구가 오픈 소스이고 저렴한 하드웨어에서 실행되기 떄문에 스토리지 비용은 기존 데이터 웨어하우스보다 저렴합니다.

단점

데이터 레이크의 크기와 복잡성으로 인해 저장하는 데이터의 양을 탐색하려면 데이터 과학자 및 데이터 엔지니어와 같은 더 많은 기술 리소스가 필요할 수 있습니다.

또한 데이터 거버넌스가 이러한 시스템에서 더 다운스트림으로 구현되기 때문에 데이터 레이크는 더 많은 데이터 사일로에 더 취약한 경향이 있으며, 이는 나중에 데이터 늪으로 발전할 수 있습니다. 이 경우 데이터 레이크를 사용하지 못할 수 있습니다.

Poor performance for business intelligence and data analytics use cases

적절하게 관리되지 않으면 데이터 레이크가 무질서해져 비즈니스 인텔리전스 및 분석 도구와 연결하기 어려울 수 있습니다.

일관된 데이터 구조 및 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션 지원이 부족하여 보고 및 분석 사용 사례에 필요한 경우 쿼리 성능이 최적화되지 않을 수 있습니다.

Lack of data reliability and security

데이터 레이크의 데이터 일관성 부족으로 인해 데이터 안정성과 보안을 적용하기가 어렵습니다.

데이터 레이크는 모든 데이터 형식을 수용할 수 있기 때문에 민감한 데이터 유형을 수용하기 위해 적절한 데이터 보안 및 거버넌스 정책을 구현하는 것이 어려울 수 있습니다.

Data Lake & Data Warehouse

데이터 레이크와 데이터 웨어하우스는 일반적으로 함께 사용됩니다.

데이터 레이크는 새 데이터에 대한 포괄 시스템 역할을 하며 데이터 웨어하우스는 이 시스템의 특정 데이터에 다운스트림 구조를 적용합니다.

그러나 신뢰할 수 있는 데이터를 제공하기 위해 이러한 시스템을 조정하는 것은 시간과 자원 모두에서 비용이 많이 들 수 있습니다.

긴 처리 시간은 데이터 부실화에 기여하고 ETL의 추가 계층은 데이터 품질에 더 많은 위험을 초래합니다.

Data Lakehouse(데이터 레이크하우스)

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 최상의 기능을 결합한 새로운 빅 데이터 스토리지 아키텍처입니다.
데이터 레이크하우스는 모든 데이터(정형, 반정형 및 비정형)에 대한 단일 리포지토리를 지원하는 동시에 동급 최고의 머신 러닝, 비즈니스 인텔리전스 및 스트리밍 기능을 지원합니다.

데이터 레이크하우스는 데이터 웨어하우스 및 데이터 레이크 내의 결함을 최적화하여 더 나은 데이터 관리 시스템을 형성합니다.

조직에 엔터프라이즈 데이터를 위한 빠르고 저렴한 스토리지를 제공하는 동시에 데이터 분석과 머신 러닝 워크로드를 모두 지원할 수 있는 충분한 유연성을 제공합니다.

장점

데이터 레이크하우스 아키텍처는 데이터 웨어하우스의 데이터 구조 및 관리 기능을 데이터 레이크의 저비용 스토리지 및 유연성과 결합

Reduced data redundancy

데이터 레이크하우스는 모든 비즈니스 데이터 요구 사항을 충족하는 단일 다목적 데이터 스토리지 플랫폼을 제공하여 데이터 중복을 줄입니다.

단일 데이터 스토리지 시스템은 간소화된 플랫폼을 통해 모든 비즈니스 데이터 요구 사항을 수행할 수 있습니다. 또한 데이터 레이크하우스는 데이터 파이프라인을 통해 여러 시스템으로 이동하는 데이터의 양을 줄임으로써 데이터 관찰 가능성을 단순화합니다.

Cost-effectiveness

데이터 레이크하우스는 저비용 객체 스토리지 옵션을 활용하여 데이터 레이크의 비용 효율적인 스토리지 기능을 구현합니다.

데이터 레이크하우스는 단일 솔루션을 제공하여 여러 데이터 스토리지 시스템을 유지 관리하는 비용과 시간을 제거합니다.

Support for a wider variety of workloads

데이터 레이크하우스는 데이터 관리 수명 주기 전반에 걸쳐 다양한 사용 사례를 처리할 수 있습니다. 또한 비즈니스 인텔리전스와 데이터 시각화 워크스트림 또는 더 복잡한 데이터 과학 워크스트림을 모두 지원할 수 있습니다.

데이터 레이크하우스는 가장 널리 사용되는 일부 비즈니스 인텔리전스 도구(Tableau, PowerBI)에 대한 직접 액세스를 제공하여 고급 분석을 가능하게 합니다.

데이터 레이크하우스는 Python/R을 비롯한 API 및 기계 학습 라이브러리와 함께 개방형 데이터 형식(예: Parquet)을 사용하므로 데이터 과학자와 기계 학습 엔지니어가 데이터를 쉽게 활용할 수 있습니다.

Better governance

데이터 레이크하우스 아키텍처는 데이터 레이크와 함께 제공되는 표준 거버넌스 문제를 완화합니다.

예를 들어 데이터가 수집되고 업로드되면 데이터가 정의된 스키마 요구 사항을 충족하는지 확인하여 다운스트림 데이터 품질 문제를 줄일 수 있습니다.

More scale

기존 데이터 웨어하우스에서는 컴퓨팅과 스토리지가 함께 결합되어 운영 비용이 증가했습니다.

데이터 레이크하우스는 스토리지와 컴퓨팅을 분리하여 데이터 팀이 동일한 데이터 스토리지에 액세스하는 동시에 다른 애플리케이션에 대해 다른 컴퓨팅 노드를 사용할 수 있도록 합니다. 그 결과 확장성과 유연성이 향상됩니다.

Streaming support

데이터 레이크하우스는 오늘날의 비즈니스 및 기술을 위해 구축되었으며 많은 데이터 소스가 장치에서 직접 실시간 스트리밍을 사용합니다.

데이터 레이크하우스 시스템은 이 실시간 수집을 지원하며 앞으로 더욱 인기를 끌 것입니다.

Ease of data versioning, governance, and security

데이터 레이크하우스 아키텍처는 스키마 및 데이터 무결성을 강화하여 강력한 데이터 보안 및 거버넌스 메커니즘을 보다 쉽게 구현할 수 있도록 합니다.

단점

데이터 레이크하우스의 주요 단점은 아직 비교적 새롭고 미성숙한 기술이라는 것입니다.

데이터 레이크하우스가 성숙한 빅 데이터 스토리지 솔루션과 경쟁하려면 몇 년이 걸릴 수 있습니다.

그러나 현재의 현대적 혁신 속도를 고려할 때 새로운 데이터 스토리지 솔루션이 결국 이를 대체할 수 있을지 예측하기 어렵습니다.

Data Warehouse vs Data Lake vs Data Lakehouse

데이터 웨어하우스는 비즈니스 인텔리전스, 보고 및 분석 애플리케이션에서 오랜 역사를 가진 가장 오래된 빅데이터 스토리지 기술입니다. 그러나 데이터 웨어하우스는 비용이 많이 들고 스트리밍 및 다양한 데이터와 같은 비정형 데이터로 어려움을 겪고 있습니다.

데이터 레이크는 머신 러닝 및 데이터 과학 워크로드를 위한 저렴한 스토리지에서 다양한 형식의 원시 데이터를 처리하기 위해 등장했습니다. 데이터 레이크는 구조화되지 않은 데이터와 잘 작동하지만 데이터 웨어하우스의 ACID 트랜잭션 기능이 부족하여 데이터 일관성과 안정성을 보장하기 어렵습니다.

데이터 레이크하우스는 데이터 레이크의 비용 효율성 및 유연성과 데이터 웨어하우스의 안정성 및 일관성을 결합한 최신 데이터 스토리지 아키텍처입니다.

	Data Warehouse	Data Lake	Data Lakehouse
Storage Data Type	구조화된 데이터와 잘 작동	semi-structure와 unstructured 데이터와 잘 작동	정형, 반정형 및 비정형 데이터를 처리 가능
Purpose	데이터 분석 및 비즈니스 인텔리전스(BI) 사용 사례에 최적	머신 러닝(ML) 및 인공지능(AI) 워크로드에 적합	데이터 분석 및 머신 러닝 워크로드 모두에 적합
Cost	스토리지는 비용과 시간이 많이 소요됨	스토리지는 비용 효율적이고 빠르며 유연	스토리지는 비용 효율적이고 빠르며 유연
ACID Compliance	최고 수준의 무결성을 보장하기 위해 ACID 준수 방식으로 데이터를 기록	Non-ACID 준수: 업데이트 및 삭제는 복잡한 작업	여러 당사자가 동시에 데이터를 읽거나 쓸 떄 일관성을 보장하는 ACID 준수

데이터 레이크하우스는 처음부터 구축하기가 복잡할 수 있습니다. 또한 개방형 데이터 레이크하우스 아키텍처를 지원하도록 구축된 플랫폼을 사용할 가능성이 높습니다. 따라서 구매하기 전에 각 플랫폼의 다양한 기능과 구현을 조사하십시오.

데이터 웨어하우스는 비즈니스 인텔리전스 및 데이터 분석 사용 사례에 중점을 둔 성숙하고 구조화된 데이터 솔루션을 찾는 회사에 적합한 선택입니다. 그러나 데이터 레이크는 구조화되지 않은 데이터에서 기계 학습 및 데이터 과학 워크로드를 구동하기 위해 유연하고 저렴한 빅 데이터 솔루션을 찾는 조직에 적합합니다.

데이터 웨어하우스 및 데이터 레이크 접근 방식이 회사의 데이터 요구 사항을 충족하지 못하거나 데이터에 대한 고급 분석 및 머신 러닝 워크로드를 모두 구현하는 방법을 찾고 있다고 가정합니다. 이 경우 데이터 레이크하우스가 합리적인 선택입니다.

References

https://www.ibm.com/topics/data-lakehouse

What is a data lakehouse? | IBM

Data lakehouses seek to resolve the core challenges across both data warehouses and data lakes to yield a more ideal data management solution for organizations.

www.ibm.com

https://velog.io/@busybean3/Data-Lake-VS-Data-Warehouse

https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/

[NLP][논문리뷰] Distilling the Knowledge in a Neural Network

데이터 세상 — Tue, 13 Jun 2023 18:21:50 +0900

Distilling the Knowledge in a Neural Network

논문링크: https://arxiv.org/abs/1503.02531

Distilling the Knowledge in a Neural Network

A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome

arxiv.org

Knowledge Distillation 방법은 앙상블된 지식을 압축해 단일 모델로 증류함으로써

앙상블 방식으로 모델을 훈련할 때 많은 계산비용이 발생하는 상황에 대한 대안을 제시합니다.

Background

Neural Network의 오버피팅을 피하기 위해 앙상블 기법이 사용됩니다.

앙상블은 여러 모델을 사용하여 계산 시간이 많이 걸리는 단점이 있어, 앙상블만큼의 성능을 갖되 '적은 파라미터 수'를 가진 Neural Network 모델이 필요하여 대안으로 제시되었습니다.

Knowledge Distillation

화학에서 액체를 가열하여 생긴 기체를 냉각하여 다시 액체로 만드는 것을 증류(distillation)라고 부르는데, 이러한 개념을 Neural Network에 사용한 것을 의미합니다.

Neural Network에서 지식 증류(Knowledge Distillation)는 큰 모델(techer network)로부터 증류한 지식을 작은 모델(student network)로 transfer하는 과정입니다.

즉, 한번 훈련된 대규모 머신러닝(혹은 모델)의 "지식"을 소비자들에게 배포하기 적합한 작은 모델에 증류하는 방법을 제안합니다.

How to Knowledge Distillation

네트워크의 지식을 일반적으로 각 훈련된 네트워크의 파라미터들이 아닌 단순히 네트워크를 거쳐서 나온 출력 벡터를 지식으로 생각한다면 지식을 증류한다는 개념이 쉽게 와 닿을 수 있습니다.

출처:https://www.ttic.edu/dl/dark14.pdf

지식을 증류할 때, 큰 모델과 작은 모델은 같은 데이터셋을 사용합니다.

큰 모델의 일반화 능력을 작은 모델에 전수하는 방법은, 복잡한 모델의 클래스 확률을 사용하여 작은 모델을 훈련하는 'soft targets'을 사용합니다.

높은 엔트로피의 'soft targets'을 사용하면 'hart targets'를 사용할 때보다 더 많은 정보를 제공받을 수 있습니다.

soft label: large model의 softmax output([0.1, 0.1, 0.7, 0.1])

hard label: 기존 one hot encoding 방식 output([0,0,1,0])

Teacher Network 학습

Student Network 학습

Student Network soft prediction + Teacher Network soft label을 통해 distillation loss 구성

Student Network hard prediction + Original hard label을 통해 student loss 구성

Teacher 모델의 손실값과 Student 모델의 Cross entropy 값을 더해 갱신해나는 것.

단계)

1. Teacher Network: training set(x, hard label)을 사용해 large model 학습

2. large model 학습 뒤, large model의 output(soft label)을 target으로 하는 transfer set(x, soft label)을 생성.

이때, soft labe의 T는 1이 아닌 높은 값 사용

3. Student Network

transfer set을 사용해 small model 학습: T는 soft label을 생성할 때와 같은 값 사용. soft predictions

transfer set을 사용해 small model 학습: T는 1로 고정. hart predictions

4. loss 생성

distillation loss: soft label과 soft predictions의 차이를 Kullback-Leiber Divergence를 통해 구함

student loss: hart predictions와 hard label을 Cross-entropy를 통해 구함

5. 두 loss를 더해서 최종 loss를 구함

References

[Generative AI] Foundation Model 이란

데이터 세상 — Thu, 8 Jun 2023 15:55:08 +0900

Foundation Model

(2017) Stanford University HAI(Human-Centered Artificial Intelligence)

논문(2021): On the Opprotunities and Risks of Foundataion Models

On the Opportunities and Risks of Foundation Models

AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically centr

arxiv.org

AI는 대규모의 광범위한 데이터에 대해 훈련되고 광범위한 다운스트림 작업에 적응할 수 있는 모델(예: BERT, DALL-E, GPT-3)의 등장으로 패러다임 전환을 겪고 있습니다.

우리는 이러한 모델을 Foundation Model이라고 부르며 비판적으로 중심적이지만 불완전한 특성을 강조합니다.

이 보고서는 기능(예: 언어, 비전, 로봇 공학, 추론, 인간 상호 작용) 및 기술 원칙(예: 모델 아키텍처, 교육 절차, 데이터, 시스템, 보안)에 이르기까지 Foundataion Model의 기회와 위험에 대한 철저한 설명을 제공합니다.

==> 연구자들은 트랜스포머(transformer) 모델과 대규모 언어 모델(LLM), 구축이 계속되고 있는 기타 신경망들이 일명 파운데이션 모델(foundation model)이라는 새롭고 중요한 범주를 구성한다고 분석했습니다.

Foundation Model 정의

Foundation models are models built on unlabeled data using self-supervision

레이블이 지정되지 않은 광범위한 데이터 집합에 대해 훈련된 대규모 인공 지능 모델로, 광범위한 다운스트림 작업에 적용할 수 있는 AI 모델 유형을 말합니다.

대규모 머신 러닝(ML) 모델은 방대한 양의 데이터를 대규모로 훈련(self-supervised learning, semi-supervised learning) 다양한 다운스트림 작업에 적용할 수 있는 모델을 의미합니다.

Foundation 모델은 일반적으로 self-supervised 방식으로 레이블이 지정되지 않은 광범위한 데이터 세트에 대해 사전 훈련되고 그 과정에서 일반화 가능하고 적응 가능한 데이터 표현을 학습하는 모든 모델입니다.
Foundation 모델이라는 용어는 200페이지가 넘는 스탠포드 보고서에서 만들어졌습니다. 이 보고서는 Foundation 모델이라는 새로운 종류의 모델이 등장하면서 AI가 패러다임 전환을 겪고 있는 방식을 설명합니다.

Foundation model의 초기 예는 Google의 BERT를 포함하여 사전 훈련된 대규모 언어 모델(LLM)과 특히 OpenAI의 'GPT-n' 시리즈를 포함하는 다양한 초기 GPT 기반 모델이었습니다. 이러한 광범위한 모델은 의료 코드와 같은 다양한 종류의 대상 데이터 세트를 사용하는 작업 및/또는 도메인별 모델에 차례로 사용될 수 있습니다.

텍스트 외에도 DALL-E, Flamingo, Florence 및 NOOR를 포함하여 여러 시각적 및 다중 모달 기반 모델이 제작되었습니다. 시각적 기반 모델(VFM)이 텍스트 기반 LLM과 결합되어 정교한 작업별 모델을 개발했습니다.

다양한 양식의 레이블이 지정되지 않은 데이터 세트(ex. language, time-series, tabular)에 대해 Pre-trained됨

self-supervised learning 활용

여러 다운스트림 작업(ex. 텍스트 생성, 기계 번역, 언어 분류)에서 효과적으로 사용할 수 있는 일반화(generalizable) 가능하고 적응 가능한(adaptable) 데이터 표현 학습

Enables

Generative AI: creates new content
Traditional AI: more rapid development and operationalization

Specific instance of

Large Langauge Models(LLM) are Foundation Models on text or text-like things such as code

Foundation Model 2가지 특징

Emergence Behaviros (창발성, 불시에 솟아나는 특성)

이전 세대의 머신 러닝(ML) 모델은 질문(Q&A)에 답하거나 텍스트 본문을 요약하는 것과 같은 특정 동작을 수행하도록 훈련되었습니다.

그러나 Foundation 모델은 명시적으로 훈련되지 않은 작업을 수행합니다.

창발성: 하위계층(구성 요소)에는 없는 특성이나 행동이 상위계층(전체 구조)에서 자발적으로 돌연히 출현하는 현상

시스템의 행동은 직접 프로그래밍되는 것이 아니라 데이터를 통해 유추됩니다. (모든 머신러닝 모델을 포괄하고 있는 특징이기도 합니다)

신경회로망은 데이터만 있으면 알아서 확률/통계학적 모델을 구축해 다음 행동을 결정하거나 미래 예측을 할 수 있다는 점이 창발성의 기본이 됩니다.

단점

모델의 출력의 이유를 설명하기 매우 힘들다.

Homogenization (단일성)

ML 커뮤니티가 다양한 종류의 문제에 잘 작동하는 기술을 발견함에 따라 이러한 기술은 ML 시스템 구축에 대한 표준화된 접근 방식의 일부가 됩니다. Foundation Models를 사용하면 모델 자체가 균질화의 대상이 됩니다. 예를 들어 모델 자체는 도메인을 전문화하기 위해 새 모델을 개발할 수 있는 기반을 제공합니다.

하나의 거대한 Foundation 모델이 여러가지 다양한 문제를 풀게 된다는 겁니다.

BERT처럼 엄청나게 많은 양의 텍스트를 어떠한 다른 정보 없이 언어모델로 미리 학습(pre-taining)시키고, downtream을 위해 추가 학습(fine-tuninig)시키면 기존 모델의 성을 넘을 수 있는 모델을 만들 수 있게 됩니다.

많은 데이터에서의 사전 학습(pre-trained)이 언어학적 지식을 압축시킨 '단일화된' 모델을 만든다는 것을 알아낸 것입니다.

단일화 방식으로 매우 효율적인 AI 서비스 개발이 가능하다는 큰 장점을 가지고 있지만,

학습된 데이터의 한계 및 Foundation 모델은 bias(편향), hallucination(환각) 등과 같은 문제점을 가지고 있는 경우가 있습니다.

Foundation 모델의 창발적 행동을 클라이언트 사용 사례에 적용하는 것은 어려운 일입니다.

적절한 안전 장치를 적용하면 모델과 해당 결과가 사용 사례에 대해 설명 가능하고 적절하며 훈련 데이터가 감사되도록 하여 생성된 콘텐츠 사용으로 인한 유해한 비즈니스 영향을 정량화하고 완화하는 기능을 용이하게 합니다.

궁극적으로 모든 모델은 AI 거버넌스 프로세스 및 정책을 사용하여 최적으로 구성되어야 합니다.

Foundation Model의 중요성

Foundation 모델은 방대한 양의 데이터에 대해 사전 교육을 받았으며 특정 작업에 맞게 fine-tuning할 수 있습니다.

Foundation 모델은 인간과 유사한 언어를 생성하고 질문에 답하는 작업을 수행하며 코드를 생성할 수도 있습니다. 그들은 인공 지능 분야에서 중대한 돌파구를 제시하며 의료, 금융 및 교육을 포함한 광범위한 산업에 혁명을 일으킬 잠재력을 가지고 있습니다.

Foundation Model Advantages

적은 양의 작업별 레이블이 지정된 훈련 데이터를 사용하여 다양한 다운스트림 작업에 대해 Foundation Model을 fine-tuning할 수 있으므로 다음과 같은 이점이 있습니다.

데이터 수집 및 라벨링을 위한 노력 감소 및 초기 비용 절감

기존의 foundation 모델을 시작점으로 사용하면 이전 접근 방식보다 레이블이 지정된 작업별 훈련 데이터가 덜 필요하므로 데이터 수집 및 레이블 지정에 대한 초기 비용이 절감됩니다.

더 빠른 배포 시간

한 번 구축하면 적은 양의 훈련 데이터를 사용하여 다운스트림 애플리케이션에 대해 동일한 foundation 모델을 fine-tuning할 수 있으므로 가치 창출 시간이 단축되고 생산성이 향상됩니다.

정확도 향상

foundation 모델은 딥 러닝의 차세대 혁명입니다. 다양한 벤치마크에서 이전 세대의 AI 모델보다 훨씬 나은 것으로 나타났습니다.

기업은 어떻게 단점을 극복하고 foundation 모델을 유리하게 활용할 수 있는가?

Foundation 모델을 처음부터 새로 만들려면 레이블이 지정되지 않은 대량의 데이터와 대규모 컴퓨팅 리소스가 필요합니다.

그러나 기업은 레이블이 훨씬 적은 데이터와 최소한의 컴퓨팅 리소스로 fine-tuning된 사전 훈련된 foundation 모델로 시작할 수 있습니다.

사전 훈련된 Foundation 모델이 존재하지 않는 경우 기업은 자체 모델을 만들고자 할 것입니다.

이것이 벅찬 것처럼 보이지만 foundation 모델을 훈련하고 검증하는 데 필요한 소프트웨어는 빠르게 발전하고 있습니다

Foundation 모델의 추론은 기존 모델보다 더 비쌉니다.
추론 비용은 모델 크기의 함수입니다. foundation 모델이 이전 모델보다 훨씬 큰 경우 더 많은 컴퓨팅 리소스가 필요합니다. 그러나 다양한 환경에 대한 foundation 모델의 크기를 관리하기 위한 도구도 있습니다.

LLM(Large Language Model)

Large Language Model is a part of Foundation Model

대규모 언어 모델은 Foundation 모델의 한 분야로, 자연어 처리에서 Foundation model은 다음과 같은 용어로도 표현됩니다.

Large Language Model (LLM)
Massive Language Model (MLM)
Transformer Language Model, Transformer

초거대 AI 한계와 과제

학습 비용/시간 대비 효율성

현실 세계의 쉬운 상식 부족

학습하지 않으면 모른다.

모든 태스크에 뛰어나지 않을 수 있다.

복합연산 능력이 떨어진다.
학습에 주어진 데이터가 적을수록 성능이 떨어진다.

기억력이 없다

새로운 정보를 수용하기 어렵다.
새로운 값에 대해 동기화도 이뤄지지 않는다.

AI 양극화

초거대 AI는 자본력이 있는 빅테크 기업이 주도한다.

References

[Foundation Model] GPT-4 / GPT-3

데이터 세상 — Wed, 12 Apr 2023 10:34:53 +0900

GPT-4 (2023.03.14)

OpenAI, Unknown Size, Not Open Source, API Access Only

[NLP] GPT : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델

GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative)

GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다.

또는 "Bing Chat"을 이용해서도 사용 가능합니다.

텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다.

또한 GPT-4는 이전 반복에 비해 최대 입력 길이를 확장하여 최대 32,768개의 토큰(약 50페이지의 텍스트)으로 늘립니다. 불행히도 이 모델을 교육하는 데 사용되는 모델 아키텍처 또는 데이터 세트에 대해 거의 밝혀지지 않았습니다.

기능 및 품질의 혁신과 OpenAI의 강력한 실적 덕분에 GPT-4는 자체 모델을 호스팅하지 않고 API에 의존하려는 경우 사용할 LLM으로 선택되었습니다.

GPT-3 (2020.06)

Open AI, 175 billion parameters, Not Open Source, API Access Only

대량의 텍스트 데이터 코퍼스에 대해 사전 훈련된 다음 특정 작업에 대해 fine-tuning 됩니다.

텍스트 또는 문장이 주어지면 GPT-3는 자연어로 텍스트 완성을 반환합니다.

GPT-3는 번역, 질의 응답, 텍스트 완성과 같은 NLP 작업에서 인상적인 few-shot 성능과 zero-shot 성능을 보여줍니다.

Train Data: 45TB, 4,100억 단어, 700GB 데이터
CPU 28만5천 코어
GPU 1만개
전력 1,287MWh

Multimodal Model

다양한 종류의 데이터를 처리하고 이해할 수 있는 기능을 의미한다.

References

[Machine Learning] Federated Learning (연합 학습)

데이터 세상 — Mon, 10 Apr 2023 17:04:47 +0900

Federated Learning (연합 학습)

구글에서 제안된 기법으로 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델 학습을 수행하는 방법이다.

데이터를 메인 서버가 아닌, 개개인의 로컬 클라이언트에 두고 그 로컬 클라이언트에서 학습을 수행,

로컬 클라이언트에서 업데이트된 모델의 가중치들을 중앙 서버로 보내 취합해서 하나의 모델을 업데이트 하는 것을 의미한다.

다수의 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델을 학습하고 학습된 파라미터를 클라우드 상의 서버로 전송하여 통합한 파라미터를 인공 지능 모델 학습에 사용하고 이를 반복하는 방법이다.

Federated Learning은 데이터 프라이버시 향상과 커뮤니케이션 효율성을 가진다.

수 만개의 로컬 디바이스의 데이터를 모두 중앙 서버로 전송하게 되면 네트워크 트래픽과 스토리지 비용이 증가하는데 연합학습을 사용하면 로컬 모델의 업데이트 정보만을 주고 받으므로 커뮤니케이션 비용이 상당이 줄어들게 된다.

학습 정보만을 이용하여 연산 속도가 우수함
데이터가 개인 모바일 기기에서만 이용되기 때문에 정보보호 측면에서도 안전

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

개인 모바일 기기에서 인공지능 모델이 저장된 사용자의 모바일 기기 데이터에 맞게 학습하고(로컬 모델), 다양한 사용자의 학습 파라미터를 중앙 서버로 전송한다.

중앙 서버에서는 개인 모바일 기기에서 학습한 인공지능 모델 정보를 바탕으로 더 우수한 성능의 인공지능 모델(글로벌 모델)을 학습하고 향상된 인공지능 모델을 개인 모바일로 전송하는 과정을 반복한다.

Federated Learning 방법

Federated Learning: Challenges, Methods, and Future Directions, 1908.07873.pdf (arxiv.org)

FedSGD(Federated Stochastic Gradient Descent)

기기에서 매번 업데이트된 파라미터를 전송

FedAVG(Federated Averaging)

일정 수준까지 모바일 기기에서 업데이트를 수행한 파라미터를 전송

모바일 기기에서 네트워크 비용을 가장 적게, 효율적으로 사용할 수 있는 상황을 가정

Federated Learning 활용

병원 데이터

병원의 임상 데이터와 같은 환자 개인정보가 보호되어야 하는 상황에서 데이터 유출 없이 학습이 가능하다.

인텔에서 제안하고 있는 연합 학습의 아키텍처

https://newsroom.intel.com/wp-content/uploads/sites/11/2020/05/federated-learning-explainer.pdf

Gboard

구글 키보드 서비스에 활용하여 사용자가 단어 입력 시, 유사 단어 추천 기능에 연합학습을 사용하고 있다.

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

Federated Learning 공격

머신러닝 시스템은 외부 공격이 이루어질 때, 공격자는 기본적으로 모델 파라미터를 직접 관찰할 수 없는 블랙박스(Black-box)시스템이다. 공격자는 입력값과 출력값만을 관측해서 모델을 추론하는 반면, 연합학습에서는 중앙 서버가 모든 클라이언트에게 모델 값을 브로드 캐스팅 하므로 공격자는 모델 파라미터를 직접 관측할 수 있는 화이트박스(White-box)시스템이다

Model update poisoning

모델 파라미터 자체를 수정하는 공격

전체적인 성능은 높지만 특정 입력값에 대해서만 성능을 저하시키는 targeted attack과 모델 자체의 성능을 저하시키는 untargetted attack을 수행할 수 있다.

예시)

자율주행 자동차가 정지 표시판만을 잘못 인식하도록 만들 수 있다.

→ 특정 클래스의 성능만 저하시키므로 연합 학습 관점에서는 적은 공격자만으로도 성공적으로 공격에 성공할 수 있고, 모델의 파라미터 값만을 공유하는 연합학습의 특성상 누가 공격자인지 발견하기도 쉽지 않다.

Data poisoning

학습 단계 이전에 발생하는 공격으로, 학습 데이터 자체를 오염시켜서 모델이 의도되지 않은 방향으로 학습하도록 만드는 공격

targeted와 untargeted attack을 모두 수행할 수 있다.

가장 흔한 패턴은 특정 뉴런을 학습 단계에서 제외시키는 네트워크 프루닝(network pruning) 방법을 사용한다.

연합학습 관점에서는 전체 학습 프로세스를 다루는 중앙 서버는 클라이언트의 데이터에 접근할 수 없으므로 클라이언트가 가진 데이터의 중독 공격 여부를 선별할 수 없다.

Evasion poisoning

배포된 모델에 통과시킬 데이터 샘플을 조정해서 의도되지 않은 결과를 만들어내는 공격

예시)

사람의 눈으로는 구별할 수 없지만 약간의 노이즈를 이미지 혹은 음성에 추가해서 모델의 손실함수값을 최대할 수 있다.

→ 연합학습에서는 공격자가 전체 네트워크에 공유된 모델-파라미터를 관측할 수 있으므로(white-box) 이 공격을 수행하는데 있어 훨씬 수월하게 할 수 있다.

References

[NLP] Language Model이란

데이터 세상 — Sun, 12 Mar 2023 21:41:10 +0900

Transfer Learning

특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다.

학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다.

Transfer Learning

Upstream Task

(Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제

Language Model: upstream task를 수행한 모델을 의미한다.

Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다.

Downstream Task

문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리의 구체적인 문제들을 의미한다.

Downstream Task 수행하는 방법

Fine Tuning

하나의 태스크를 수행할 수 있는 모델을 만들기 위해 학습 데이터셋을 수집하고 fine-tuning을 진행한다.

다운스트림 태스크 데이터 전체를 사용한다.
다운스트림 데이터에 맞게 모델 전체를 업데이트한다.

Prompt Engineering

대규모 언어 모델(LLM)이 일관성 있고 고품질의 텍스트 출력을 생성할 수 있도록 하는 효과적인 프롬프트를 설계하고 제작하는 작업

원하는 출력 결과물을 이해하고 요구 사항을 충족하는 텍스트를 생성하는 모델의 기능을 최대화하는 명확하고 간결한 입력을 제공하는 것을 목표로 한다.

프롬프트를 구성하는 방식이 결과물의 퀄리티를 좌우한다!!

출처: https://docs.cohere.ai/docs/prompt-engineering

Prompt

모델에 제공하는 광범위한 지침으로, 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구

텍스트는 사용자와 generative AI 모델 간의 주요 통신 수단

Prompt Tuning

모델을 재훈련하거나 가중치를 업데이트하지 않고 AI 기반 모델을 새로운 다운스트림 작업에 적응시키는 효율적이고 저렴한 방법

•최고의 단서 또는 프런트엔드 프롬프트가 AI 모델에 제공되어 작업별 컨텍스트를 제공한다.
•신속한 조정을 통해 제한된 데이터를 가진 회사는 대규모 모델을 좁은 작업에 맞게 조정할 수 있다.
•모델의 수십억(또는 수조)개의 가중치 또는 매개변수를 업데이트할 필요가 없다.

모델은 프롬프트를 사용하여 원하는 출력을 생성하는 방법을 학습한다.

References

https://docs.cohere.ai/docs/prompt-engineering

[Machine Learning] Active Learning

데이터 세상 — Sun, 12 Mar 2023 21:29:39 +0900

Active Learning

아직 레이블링이 되어 있지 않은 데이터(unlabeled data) 중에 모델 학습에 가장 효과적일 것 같은 데이터를 고르는 작업을 의미한다.

기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로 가장 정보량이 많은 데이터를 선택하는 것을 목표로 한다.

효과적인 학습이란,

결과적으로 가지고 있는 데이터셋 전체를 잘 학습했을 때의 '기대 성능에 어떻게 하면 빠르게 도달할 수 있는지' 또는 ‘혹시 그 이상의 성능을 확보할 수 있는지’가를 의미할 수 있다.

Passive Learning

라벨링되지 않은 데이터에 대해 사람이 직접 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다.

많은 라벨링된 데이터는 거의 항상 모델링의 성능을 좋게 하지만, 사람이 직접 라벨링을 진행하기에 비용 증가라는 문제를 안고 있다.

어떤 데이터가 필요한지를 기계가 판단하여 사람에게 라벨링을 부탁하면 사람은 더 적은 라벨링 공수를 들이고도 좋은 모델을 학습할 수 있지 않을까라는 관점에서 Active Learing이 발전하였다.

Active Learning 개요

전체 데이터셋중에서 중요한 데이터를 선별함으로써, 충분한 모델 경쟁력을 가지자

빨간점 : 레이블링된 데이터
초록점 : 레이블링을 위해, 선택된 데이터

일반적인 Random Sampling 방식보다, Active learning을 통해서 중요 데이터를 찾고, 모델을 학습했을 경우,

보라색 그룹과 노란색 그룹을 잘 나누는 경계선(Decision Boundary)을 더 빠르게 더 잘 찾는다.

※ 주의사항 :

- Activer Learning을 통해, 찾은 데이터는 사람이 레이블링을 해야 되는 것은 변하지 않는다.

- 더 효율적으로 적인 데이터를 찾기 위함이지, AI 모델이 레이블링을 수행하지 않는다.

- AI 모델이 스스로 레이블링을 하는 것은 Auto Labeling이다.

Active Learning의 과정

모델(Learner)이 라벨링 되어있지 않은 데이터 중 학습에 보다 효율적인 데이터를 골라 전문가(Oracle)에게 요청(Query)을 날리고 전문가는 그 요청에 따라 데이터를 라벨링하면 모델은 라벨링 된 데이터를 받아 학습을 진행하는 형식입니다.

출처: http://visionexperiments.blogspot.com/2016/01/active-learning-literature-survey.html

Active Learning 과정

Learn a Model : 레이블링 된 데이터(L)를 활용하여, 모델 학습
Select Queries : 학습된 모델을 통해서, 레이블링 되지 않은 데이터(U)에서 선별
Human Annotator : 사람이 레이블링
Training set : 새로 레이블링 된 데이터를 기존 dataset과 합친다.
목표 성능 도달까지 위에 과정(1~4)을 반복한다.

Active Learning 시나리오

학습 모델(learner)가 데이터 인스턴스에 대한 라벨을 쿼리도록 하기 위해 다음과 같은 세 가지 셋팅을 자주 사용한다.

Membership Query Synthesis

출처: datacamp active learning tutorial

학습 모델(learner)가 주어진 분포에 의거하여 데이터 인스턴스를 생성 혹은 구성하여 쿼리하는 것을 의미한다.

예를 들어, 숫자 이미지 분류 문제를 풀고자 할 때 학습 모델은 숫자 이미지와 비슷한 이미지(약간 회전되거나 크롭되는 등..)를 만들어내고, 이를 라벨러에게 전송하여 라벨링을 요구한다.

모델이 레이블링 요청(Query)할 데이터를 직접 생성하는 방식으로 데이터 생성 자체가 매우 어렵기 때문에 현재는 관심 없는 분야이다.

Stream-based selective sampling

출처: datacamp active learning tutorial

라벨링되지 않은 데이터를 아주 쉽게 얻을 수 있는 경우 사용하는 전략이다.

학습 모델(leaner)는 라벨링되지 않은 인스턴스를 보고, 해당 인스턴스가 가진 정보량에 의거해 이것이 라벨링될 가치가 있는지 아닌지를 결정한다. 이때 인스턴스가 가진 정보량을 평가하기 위해 query strategy라는 것을 사용한다.

모델이 라벨링이 필요하다고 판단한 데이터는 쿼리하고, 아닌 것은 버리는 과정을 반복하며 학습이 이루어진다.

새로운 샘플이 들어오면 모델이 레이블링 필요한지 아닌지를 판단한다.(예, Binary Model)

(*) Pool-based Sampling

출처: datacamp active learning tutorial

이 방식은 가장 널리 사용되는 방법으로, 라벨링되지 않은 큰 데이터 풀이 존재할 때 사용하는 전략이다.

여기서는 데이터풀에서 정보량 측도에 의거해 인스턴스들을 가지고 오게 된다. 이때 정보량 측도는 데이터풀에 있는 모든 인스턴스들에 대해 적용을 하고, 그중 가장 정보량이 많은 것들을 선택하는 식이다.

큰 데이터 Pool이 존재하면, 모델이 중요한 데이터 포인트(data point - query)를 선택한다.

Stream-based Selective와 Pool-based의 차이

Stream-based는 순차적으로 스캔하며 쿼리를 판단한다

숲길을 따라가며, 나무를 선별
전체 데이터의 분포를 고려하지 않기 때문에, 눈 앞에 있는 데이터가 모델 학습에 큰 영향을 줌
딥러닝에서는 더 좋지 않게 판단될 수 있음(향후, Core-set에서 추가 설명할 예정)

Pool-Based는 전체 Collection에서 평가 및 순위를 매긴다

전체 숲을 보며, 중요한 나무를 찾기
Active Learning이라 하면 대부분 Pool-based 방식을 의미한다.
현재, 데이터는 넘친다. 다만, 정제가 되지 않아서 문제다. → 현재 대표적인 Active Learning방안

Query Strategy

라벨이 필요한 인스턴스를 선택하는 전략

액티브 러닝의 핵심은 과거에 모델이 쿼리했던 인스턴스와 그에 대한 답변(라벨)에 의거하여 러너가 필요한 인스턴스를 쿼리하는 능력에 있다.

Uncertainty Sampling
Query By Committee
Expected Model Change
Density Weight Method

Uncertainty Sampling

Decision Boundary에 가까운 샘플을 고르자.

Decision Boundary

'모델이 헷갈리는 데이터 = 학습에 필요한 데이터' 라는 생각에서 시작된다.
모델 입장에서 '헷갈리는 데이터'가 무엇일까? 라는 질문에 답은 Decision Boundary에 가까운 샘플이다.
Decision Boundary에 가까운 데이터는, 즉, 헷갈리는 불확실성(Uncertainty)이 높은 데이터이다.

두 개의 데이터 포인트와, 각 데이터포인트가 세 개의 라벨에 속할 확률

데이터포인트	라벨 A	라벨 B	라벨 C
d1	0.9	0.09	0.01
d2	0.2	0.5	0.3

모델 입장에서의, 데이터의 불확실성(Uncertainty)를 측정하는 방식은 크게 3가지가 있다.

Top/Least Confidence(LC)

최대 확률값이 가장 낮은 데이터를 선별

이 전략에서 학습자는 가장 "확실하게" 예측한 라벨에 대해 가장 확신도가 낮은 예제를 선택한다.
d1은 라벨 A을 0.9의 확신도로, d2는 라벨 B를 0.5의 확신도로 가지고 있다. 따라서 러너는 d2의 실제 라벨을 알고 싶어한다.
이 방법은 가장 그럴듯한 라벨에 대한 확신도만을 사용하고, 다른 라벨에 대한 확률은 고려하지 않는다.

d1: top confidence는 0.9

d2: top confidence는 0.5

d2의 top confidence < d1 top confidence 이므로, top confidence가 낮은 d2 선택

Margin Sampling

가장 확률이 높은 라벨과 두 번째 라벨의 확신도의 차이를 감안하여 데이터를 선별

LC에서 최고 확률의 라벨 이외의 것을 고려하지 않는다는 점을 보완하기 위해 고안된 방법.
가장 확률이 높은 라벨과 두 번째 라벨의 확신도의 차이가 적은 예제를 선택하는 전략이다.
d1은 0.9 - 0.09 = 0.81, d2는 0.5 - 0.3 = 0.2의 점수를 받고, 러너는 역시 d2에 대한 Ground Truth 라벨을 요구한다.

Entropy Sampling

Entropy가 높은 데이터를 선택

이 방법은 모든 가용한 라벨 확률값을 모두 사용하는 방법으로, entropy 개념을 사용한다.
엔트로피를 구하는 식을 각각의 예제에 적용하고, 엔트로피(=불확실성)가 가장 큰 예제를 쿼리하는 방식이다.
d1의 엔트로피는 0.115, d2의 엔트로피는 0.447로, 역시 d2를 쿼리하게 된다.

Maximum Entropy

장점

1. 구현하기 매우 쉽다.

2. 성능이 생각보다 좋다.

3. 딥러닝과의 연계도 생각보다 좋다.

4. 실험상, Uncertainty 기법 중, Maximum Entropy가 더 좋은 경우가 많았다.

단점

Outlier에 영향을 많이 받는다.

Outlier인 데이터의 추론 확률 값은 모델이 예측하기 어렵다.
예를 들어, 3class 추론 확률값이 0.3, 0.3, 0.3으로 나올 가능성이 높으며, 이상치는 Entropy(Uncertainty)가 높다.

데이터를 선별할 때 Diversity(다양성)가 무시되었다.

Diversity(다양성)가 무시된다. 즉, 데이터 분포가 고려되지 않는다.

Query By Committee

여러모델을 통해, 마치 앙상블 처럼. 데이터를 선별해 보자

여러 모델(Committee 위원회) 에서 투표하여 중요 데이터를 선별
여러모델에서 추론한 결과가 다르다 = 헷갈리는 데이터 = 불확실성(Uncertainty) 높음
앙상블의 Vote 개념을 Active Learning에서 사용
Vote Entropy를 사용 할 수도 있다 (Vote 확률 → Entropy 계산)

Vote Entropy

M : 사용 모델 수(size of ensemble)

장점

구현이 어렵지 않다.
앙상블은 좋은 성능을 나타내기 때문에, 이를 활용한 Active Learning의 효과도 좋다

단점

하나의 모델을 학습하는데 많은 비용이 드는 딥러닝에선 쓸수가 없다.
딥러닝 모델 학습 * 앙상블모델 수 * Active Learning 반복수 = Active Learning을 통한 자원 절감의 효과가 떨어진다.

Expected Model Change

모델을 가장 업데이트 할 수 있는 데이터가 중요하다

Expected Gradient Length(EGL, 기대 Gradient, arxiv.org/pdf/1612.03226.pdf)가 가장 큰 데이터를 선별

Expected Gradient Length

RNN에서 class별 Norm Gradient를 계산(Backpropagation)한다.
계산된 기대값이 큰 데이터를 선별한다.

장점

EGL 방식이 모델(Estimator)의 분산을 줄인다고 증명함

단점

RNN(Speech)에 한정적인 성능을 보일 수 있음
CNN 실험에서는 낮은 성능을 보여줌 → Task마다의 성능이 크다는 건 큰 단점이다.

Density Weight Method

불확실성과 밀집도가 높은 곳에 있는 데이터를 선택하자.

Outlier에 취약한 Uncertainty의 단점을 커버하기 위해서, Density개념을 추가했다
밀집도가 높은 곳에 위치한 데이터는 Outlier일 가능성이 낮다.(Outlier는 Feature Space상, 멀리 떨어져 있다)
밀집도를 계산하는 방법에 따라서, 여러가지가 파생되었다.

장점

Outlier에 취약한 Uncertainty의 단점을 커버하기 위해서, Density 개념을 추가했다.

단점

Outlier를 확실하게 방지 할 수 있지만, '밀집도(Density)가 높은 데이터가 꼭 좋은 데이터 일까?' 라는 의문이 있다.
Unlabeled 데이터에서는 부적합할 수 있다.

Active Learning 단계

Step 0. 데이터 수집

실제 데이터의 분포를 반영하도록 데이터셋을 수집한다.
이때 수집되는 데이터는 라벨링되지 않은 데이터셋.

Step 1. 데이터셋 분할

모델 학습에 사용할 시드 데이터(Seed, labelled)와 이외의 라벨링되지 않은 데이터를 나눈다.
수집한 데이터 중 일부는 라벨링이 이루어지고, 나머지 부분은 라벨링되지 않은 상태로 남아있다.

Step 2. 모델 학습

일반적인 기계학습과 같은 방법(cross-validation 등)으로 라벨링된 데이터를 학습한다.
이 과정을 통해 러너는 데이터 도메인에 대한 지식을 학습하게 된다.

Step 3. 라벨링되지 않은 데이터 중 선택

query strategy를 이용해 추가적으로 라벨링이 필요한 데이터를 선택한다.

Step 4. 학습 중단 기준 마련

이제 어떤 기준에 만족할 때까지 Step 2~3을 반복하며 모델을 고도화하게 된다.
예를 들어, test 데이터를 미리 나누어 두고, 이 테스트 데이터에 대한 성능이 나아지지 않으면 과정을 중단하게 한다.

[NLP] Natural Language Processing (자연어 처리)

데이터 세상 — Tue, 7 Mar 2023 15:53:34 +0900

Natural Language Processing (자연어 처리)

컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술

자연어 이해, NLU(Natural Language Understanding)

문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정
자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것

자연어 생성, NLG(Natural Language Generation)

주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술
지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술

자연어 처리 단계

Corpus (말뭉치)

특정한 목적을 가지고 수집한 자연어 데이터. 수많은 단어와 문장, 문서로 이뤄진 text 데이터 그 자체.

Token

문법적으로 더 이상 나눌 수 없는 언어요소, 보통 의미를 가지는 최소 단위

단어/문장/형태소(morpheme, 언어학에서 일정한 의미가 있는 가장 작은 말의 단위)

철수가 팥죽을 맛있게 먹고 있다.
단어: 철수, 가, 팥죽, 을, 맛있게, 먹고, 있다
형태소: 철수, 가, 팥, 죽, 을, 맛, 있-, -게, 먹-, -고, 있-, -다

※ 영어의 경우에는 단어 단위, 한국어의 경우에는 형태소 단위 tokenization이 언어처리 시 성능을 좋게할 수 있다.

Tokenization

주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업

문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법

POS(Part-of-Speech) Tagging

형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일

Vocabulary

Corpus에 있는 모든 문서, 문장을 토큰화한 것으로 토큰(단어)의 중복을 제거한 뒤의 집합

OOV(Out of Vocabulary)

자연어처리 모델 학습 데이터의 어휘 사전에 등록되어 있지 않은 단어들

Vectorization

자연어 처리에서는 기계가 문자를 이해 할 수 있도록 수치화해주는 과정

Embedding

사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미

단어나 문장 각각을 벡터로 변환해 벡터 공간(Vector space)으로 끼워 넣는다는 의미

PII (Personally Identifiable Information, 개인 식별 정보)

데이터 세상 — Tue, 13 Dec 2022 18:11:32 +0900

PII (Personally Identifiable Information, 개인 식별 정보)

잠재적으로 특정 개인을 식별할 수 있는 모든 데이터
한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주

사람으로 개인으로 고유하게 식별할 수 있는 모든 정보

name
address
email
telephone number
date of birth
passport number
fingerprint
driver's license number
credit or debit card number
Social Security number

References

https://www.techtarget.com/searchsecurity/definition/personally-identifiable-information-PII