Generative AI/Generative AI

[Generative AI] Generative AI(생성형 AI)

데이터 세상 2023. 6. 19. 20:45

Generative AI(생성형 AI)

Generative AI를 위한 핵심 기술

- Foundation Model: Foundation Model 이란

- Prompt engineering: Prompt Engineering (프롬프트 엔지니어링)

 

 

Generative AI의 핵심은 "충분히 있을 법한" 무언가를 생성하는 것입니다.

 

Generative AI는 기본 기능이 콘텐츠 생성인 모든 AI 시스템에 사용할 수 있는 광범위한 용어입니다. 이는 데이터 분류(예: 이미지에 레이블 지정), 데이터 그룹화(예: 유사한 구매 행동을 가진 고객 세그먼트 식별) 또는 작업 선택(예: 자율 차량 조종)과 같은 다른 기능을 수행하는 AI 시스템과 대조됩니다.

 

Generative AI란 사람이 AI에게 특정 입력(프롬프트)을 통해 어떤 것을 만들어 달라고 요구하면 그 요구에 맞춰서 결과를 만들어주는 인공지능을 말합니다.

 

Generative AI는 구조화되지 않은 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 일종의 인공 지능입니다.

이 프로세스의 일부로 생성형 AI는 머신 러닝 및 딥 러닝 알고리즘의 기반을 사용합니다. 그것이 생성하는 콘텐츠에는 서면 자료, 이미지, 비디오, 오디오 및 음악 및 컴퓨터 코드가 포함됩니다.

예를 들어, 인간이 질문이나 진술을 ChatGPT(Generative AI의 선구적인 사례)에 입력하면 짧지만 합리적으로 상세한 서면 답변을 제공합니다. 또한 사용자는 후속 질문을 입력하고 챗봇과 진행 중인 대화에 참여할 수 있습니다. 챗봇은 이전 대화의 세부 정보를 기억할 수 있습니다.

Generative AI는 최근 이 분야의 주요 혁신이 가속화되고 있기 때문에 주목을 받고 있습니다.

예를 들어 OpenAI의 ChatGPT는 사람이 쓴 것처럼 문법적으로 올바른 텍스트를 생성할 수 있으며 DALL-E 도구는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있습니다. 구글, 페이스북, 바이두를 포함한 다른 회사들도 실제처럼 보이는 텍스트, 이미지 또는 컴퓨터 코드를 생성할 수 있는 정교한 생성 AI 도구를 개발했습니다.


Generative AI 동작 원리

Generative AI는 training 세트를 기반으로 새로운 콘텐츠를 생성합니다.

연구자들은 GAN(Generative Adversarial Network) 프레임워크라고 하는 딥 러닝 시스템에 단어, 그림, 음악 또는 기타 콘텐츠와 같은 엄청난 양의 데이터를 제공합니다. 감독된 신경망(supervised neural network)은 데이터를 살펴보고 성공에 대해 보상하고 오류, 실수 및 실패에 대해 벌점을 부과하는 시스템을 사용합니다. 시간이 지남에 따라 인간의 감독을 통해 복잡한 관계를 식별하고 이해하는 방법을 배웁니다.

예를 들어 ChatGPT에 사용되는 원본 OpenAI Codex는 웹 및 기타 소스에서 수집된 700GB 이상의 데이터에서 파생됩니다. 여기에는 책, 잡지 기사, 웹사이트, 기술 매뉴얼, 이메일, 노래 가사, 무대 연극, 대본 및 기타 공개 소스의 콘텐츠가 포함됩니다. ChatGPT와 같은 자연어 모델은 일반적으로 단어 벡터라는 수학적 모델에 의존하여 구문에 가중치를 부여하고 순위를 매깁니다.

그들은 또한 RTE(Recognizing Textual Entitlement)라는 기술을 사용하여 단어 관계를 더 잘 이해합니다. 예를 들어 그들이, 그들의, 저기 또는 강한 바람이 부는지 도로 바람이 부는지 여부입니다.


Generative AI 활용

Generative AI 및 기타 Foundation AI 모델은 AI 개발에 큰 영향을 미치고 보조 기술을 강화하며 비기술 사용자를 위한 강력한 기능을 지원합니다.

 

여기에는 텍스트에서 코드, 이미지, 음악에 이르는 콘텐츠 제작이 포함됩니다.

Generative AI 시스템의 일반적인 예로는 이미지 생성기(텍스트를 통해 이미지 생성, 예: DALL-E, Midjourney 또는 Stable Diffusion), 대규모 언어 모델(예: GPT-4, PaLM, Claude 또는 BERT), 대화형 인공지능 서비스(ChatGPT, Bard),  코드 생성 도구(예: Copilot 또는 Wysdom) 또는 오디오 생성 도구(예: VALL-E 또는 similar.ai),  또는 딥브레인 AI, Synthesia 등과 같이 텍스트를 통해 동영상 생성 등이 있습니다.

이 외에도 웹 사이트, 게임, 음악, 앱, 음성 등도 생성할 수 있습니다. 

 

그리고 프롬프트(입력값)가 꼭 텍스트일 필요는 없습니다.

텍스트에서 이미지, 이미지에서 텍스트, 이미지 + 텍스트에서 이미지, 음성에서 이미지, 음성에서 영상, 영상에서 이미지 등 입력과 출력이 다양한 형태로 적용될 수 있습니다.

 

Text

OpenAI는 자연어 채팅 기능을 개발하는 유일한 회사가 아닙니다.

Google의 LaMDA 및 Bard, Apple의 Siri, Microsoft의 Cortana 및 Amazon의 Alexa는 모두 Generative AI 모델을 사용하여 서면 또는 음성 단어를 생성합니다.

 

Images

DALL-E 및 Google의 MiP-NeRF와 같은 다른 생성 AI 도구는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있습니다.

예를 들어, 웹 디자이너는 DALL-E 엔진에 '고전적인 스페인 광장'이라는 단어를 입력하고 실제 장소를 나타내지는 않지만 믿을 수 없을 정도로 실제처럼 보이는 이미지를 볼 수 있습니다. 마찬가지로 어떤 사람은 DALL-E에게 모네 스타일로 카페에 앉아 있는 여성의 이미지를 생성하도록 요청하고 거의 즉시 아티스트가 생성한 것처럼 보이는 이미지를 볼 수 있습니다.

 

Music

Generative AI는 본격적인 작곡과 특수 음향 효과를 포함한 오디오 및 음악을 제작하는 데에도 사용됩니다.

Amper Music, Aiva, Amadeus Code, Google Magenta 및 MuseNet을 비롯한 여러 회사는 사실적인 여러 악기로 독창적인 음악을 생성할 수 있습니다. 사용자는 장르, 아티스트 또는 스타일(예: 재즈, 모차르트, 롤링 스톤즈 또는 업비트)을 요청하고 결과 AI 생성 작곡을 들을 수 있습니다.

 

Software Development

Generative AI의 급증하는 또 다른 사용 사례는 소프트웨어 개발입니다.

Amazon의 CodeWhisperer 및 GitHub의 CoPilot과 같은 플랫폼은 개발자를 위한 자연어 기반 로우코드 및 노코드 플랫폼을 도입합니다. Generative AI를 사용하면 소프트웨어 개발자가 플랫폼에 요청을 말하거나 작성할 수 있고 Python, R, Java 또는 기타 주요 언어로 된 소프트웨어 코드의 실제 라인을 볼 수 있습니다. 이를 통해 개발자는 더 빠르게 작업하고 재사용 가능한 모듈을 더 쉽게 만들 수 있습니다.

 

Story and Game Development

보다 고급 사용 사례는 스토리 및 게임 개발, 로봇 디자인, 심지어 질문을 하고 주제를 조사하여 제품 또는 운영 방법을 디버깅하는 것과 같은 것을 중심으로 이루어집니다. 또한 Generative AI 도구에 아이디어와 개념을 제공하도록 요청하면 테마를 탐색하고 새롭고 다양한 디지털 및 물리적 개체를 개발할 수도 있습니다.


기업에서 Generative AI 사용 방법

비즈니스 세계에서 생성 AI의 주요 사용 사례는 다음과 같습니다.

 

마케팅과 판매

Generative AI 시스템은 이메일, 웹사이트 텍스트 및 이미지, 브로셔, 전자책 및 제품 가이드, 제품 레이블 및 내부 문서를 위한 다양한 서면 콘텐츠를 생성할 수 있습니다. 또한 조직은 이 기술을 사용하여 고객 피드백을 분석하고, 위험과 기회를 식별하고, 유용하고 기능이 뛰어난 챗봇을 배포할 수 있습니다.


인적 자원(Human Resources)

HR 부서는 Generative AI를 활용하여 엔터프라이즈 핸드북, 직무 설명 및 면접 질문을 작성할 수 있습니다.

챗봇은 직원에게 정보와 자조를 제공할 수 있습니다. 여기에는 온보딩 자동화 또는 의료 보험 또는 퇴직 저축 전략 선택을 위한 옵션 및 조언 제공이 포함될 수 있습니다.

 

운영(Operations)

고객 서비스 챗봇은 회사가 문의를 관리하고 사람들을 올바른 정보로 안내하고 도움이 될 때 상담원에게 전달할 수 있도록 도와줍니다. Generative AI는 또한 비교 이미지를 통해 오류, 결함 및 기타 문제를 식별할 수 있습니다. 예를 들어 회사는 Generative AI를 사용하여 고도로 기술적인 구성 요소의 이상적인 이미지를 생성한 다음 제조 중에 이미지를 캡처하여 품질 관리 표준을 준수할 수 있습니다.

 

IT 및 소프트웨어 개발

Generative IT는 Python, Perl, Go, PHP 및 JavaScript와 같은 최신 언어로 코드를 작성할 수 있습니다. 개발 팀은 이러한 스니펫과 블록을 소프트웨어에 연결하고 라이브러리에 저장할 수 있습니다. 마찬가지로 Generative AI는 데이터 테이블을 자동 완성하고 기계 학습 모델의 정확도를 향상시킬 수 있는 합성 데이터를 생성할 수 있습니다. 이 기술은 또한 사이버 공격 방법을 시뮬레이션할 수 있습니다.

 

기타 비즈니스 사용

수많은 다른 비즈니스 사용 사례가 존재합니다.  여기에는 연구 개발(R&D)에 사용되는 모델링 시스템이 포함됩니다.

문서의 텍스트를 검토하여 법적 및 규제 표준을 충족하는지 확인합니다.

이메일 및 비즈니스 프레젠테이션을 포함하여 일반적인 직원 커뮤니케이션을 최적화하고 개선합니다.


Generative AI History

인공 지능 연구는 1950년대에 구체화되기 시작했습니다. Alan Turing과 다른 과학자들은 인간의 생각을 복제할 수 있는 컴퓨팅 프레임워크를 만드는 방법을 찾기 시작했습니다.

1960년대에는 소위 Markov 모델이 등장하기 시작했습니다. 이러한 확률 기반 알고리즘은 기본적인 수학적 모델을 기반으로 음성이나 텍스트를 생성할 수 있지만 성공률은 제한적입니다.

1990년대에는 보다 정교한 생성 모델이 등장하기 시작했습니다. 지난 10년 동안 GPU와 딥 러닝의 발전으로 훨씬 더 발전된 AI가 등장했습니다. 오늘날 이러한 반복적인 신경망은 인간 예술가, 음악가 및 작가에 근접하거나 경우에 따라 초과하는 방식으로 콘텐츠를 생성할 수 있습니다.

이 시점에서 인공 지능, 특히 생성 AI는 사람과 기업이 행동하고 상호 작용하고 정보를 처리하는 방식을 근본적으로 재구성하고 있습니다.

시장 조사 기관인 Grandview Research는 Generative AI 시장이 2030년까지 매년 34.4% 성장할 것으로 예상합니다.

이 기술은 금융, 의료, 자동차 및 운송, 정보 기술, 통신 및 미디어를 포함한 광범위한 산업 분야에서 가치가 있다고 말합니다. 그리고 오락. Generative AI는 마케팅, 이미지 분류 및 품질 관리와 같은 광범위한 작업을 변환할 수 있습니다.

실제로 Gartner는 Generative AI 기술이 디지털 제품 개발에 혁신을 가져올 것이라고 선언했습니다. 컨설팅 회사는 2025년까지 모든 디지털 콘텐츠의 약 10%가 이러한 알고리즘에서 파생될 것이라고 보고합니다. McKinsey & Company는 Generative AI가 사람들이 일하는 방식과 함께 직무 역할을 근본적으로 바꿀 것이라고 보고했습니다.

'Generative AI의 부상은 기업의 주요 게임 체인저가 될 가능성이 있습니다.'


Generative AI 우려점

Lack of Accuracy (정확성 부족)

  • 생성된 텍스트는 완전하고 정확한 것이 아니기 때문에 사람의 검토가 필요합니다.

Legal Issues and Plagiarism (법적 문제와 표절)

  • 생성된 음악, 이미지 또는 기타 자료의 유형에 대해 주의를 기울여야 합니다.
  • 모델은 작가, 음악가, 화가가 제작한 실제 콘텐츠를 기반으로 구축되기 때문에 소유권, 통제권 및 저작권에 대한 문제가 제기될 수 있습니다.

Privacy and Security (개인정보 보호 및 보안)

  • 모델을 구축하는 데 사용되는 일부 데이터에는 실수로 개인 데이터와 나중에 노출될 수 있는 정보가 포함될 수 있습니다.

Societal Impact (사회적 영향)

  • 전반적인 사회적 영향을 고려해야 합니다. 기술을 해롭고 파괴적인 방식으로 인간을 조정하는 데 사용하지 않도록 주의해야 합니다.

GAN(Generative Adversarial Networks, 생성적 적대 신경망, 2014)

https://arxiv.org/abs/1406.2661

 

Generative Adversarial Networks

We propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that

arxiv.org

 

생성적 적대 신경망

적대는 서로 적대적 관계라는 뜻으로 두 가지 요소인 생성자(Generator) 그리고 판별자(Discriminator)를 경쟁하게 하며 학습시키는 것을 의미합니다.

 

GAN을 최초로 발표한 모덜 딥러닝의 아버지 Ian Goodfellow는 이 두 가지 요소를 지폐 위조범과 지폐와 위폐를 구별해야 하는 경찰에 비유합니다.

이 둘은 각각 생성자(Generator)와 판별자(Discriminator)로 칭합니다. 이 생성자와 판별자는 학습 과정에서 서로 경쟁하며, 최종적으로 양측의 손익을 합하면 0이 되는 제로섬 게임을 이어갑니다.

생성자와 판별자는 학습과정에서 서로 경쟁하며 생성자가 만든 위폐가 진짜 지폐와 비교해서 차이가 없을 때까지, 즉 진짜같은 가짜를 만들도록 계속 학습하는 원리입니다.

즉 '진짜같은 가짜'를 만들어내는 생성자가 학습되게 됩니다.


GAN의 학습 과정

GAN은 '진짜같은 이미지'를 만들기 위해 'Noise'를 입력받아 그럴듯한 이미지를 만듭니다.

 

 

학습의 전반적인 흐름은 먼저 판별자를 학습시킨 후, 생성자를 학습시키는 과정을 반복하는 식으로 흘러갑니다.

여기서 판별자의 학습은 크게 두 가지 단계로 이루어집니다. 

첫 번째는 Real data를 입력해 ‘진짜’를 ‘진짜’로 분류하도록 학습시키는 과정이고, 

두 번째는 생성자가 생성한 Fake data를 입력해 ‘가짜’를 ‘가짜’로 분류하도록 학습시키는 과정입니다.

 

판별자를 학습시킨 다음에는 이 판별자를 속이라는 임무를 쥐어주고 생성자를 학습시킵니다.

생성자에 랜덤한 노이즈를 생성해내는 벡터 z를 입력으로 넣어 만들어진 가짜 이미지를 판별자에 입력합니다.

그리고 이 가짜 이미지가 진짜라고 분류될 정도로 진짜와 유사한 이미지를 만들어내는 방향으로 생성자를 학습시킵니다. 

이 과정에서 판별자는 진짜 이미지의 출력값을 1로 설정하고, 이미지가 얼마나 진짜같은지에 대한 수치를 0과 1 사이의 확률값으로 나타냅니다. 생성자는 자신이 생성한 이미지에 대한 판별자의 출력값이 1에 가까워지는 방향으로 학습합니다. 

 

과정을 반복하면 판별자와 생성자가 서로를 적대적인 경쟁자로 인식하여 서로 발전하게 되고, 어느 순간 모델 모두 이상 개선되지 않는 어떤 균형점(Nash Equilibrium) 이르게 됩니다. 단계에 이르면 학습이 마무리되고, 결과적으로 생성자 G 만들어내는 데이터의 분포가 처음에는 원본 데이터의 분포를 크게 벗어나 있었으나, 점차 원본 데이터의 분포를 근사 있도록 학습된 것을 확인할 있습니다. 

 


Traditional AI vs Generative AI

Traditional AI Generative AI
"레이블이 지정된" 데이터로 학습된 머신러닝(ML) 모델 라벨이 지정되지 않은 데이터로 학습된 파운데이션 모델(FM)
훈련은 감독됨(supervised) 자체 감독 (Self-supervised)
적절한 대규모 데이터 세트로 훈련 훨씬 더 큰 데이터 세트로 훈련
특정 태스크를 위한 훈련 특정 태스크 없음
다른 작업으로 잘 전환되지 않음 전이 가능(Transferable)
조정된 모델은 설계된 특정 작업에 매우 효율적일 수 있음 일반적인 작업에 적합하며 적은 교육으로 특정 작업에 대해 향상될 수 있음
편향(bias)과 드리프트를 모니터링해야 함 편향(bias)과 드리프트를 모니터링해야 함

 


References

반응형