반응형

Generative AI 48

Model Quantization (양자화)

모델 경량화 딥러닝 모델의 경우 모바일이나 임베디드 환경에서, 메모리, 성능, 저장공간 등의 제한이 있기 때문에 추론하기가 어렵습니다. 딥러닝 모델을 경량화와 관련된 연구들("모델을 가볍게 만드는 연구")이 많이 진행되고 있습니다. 모델 경량화 연구는 크게 두 가지로 나뉩니다. 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구 기존 모델의 파라미터들을 줄이거나 압축하는 연구 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구 모델 구조 변경: 모델 구조를 변경함으로써 경량화하는 방법 (ResNet, DenseNet, SqueezeNet, etc.) 효율적인 합성곱 필터 기술: 채널을 분리시켜, 연산량과 변수의 개수를 줄임으로써 경량화하는 방법 (MobileNet, ShuffleNe..

[Vector DB] Vector Database

Vector Database 벡터 데이터베이스는 신경망을 기반으로 하는 차세대 검색 엔진을 구동하기 위해 몇 년 전에 처음 등장했습니다. 최근에는 GPT4와 같은 대규모 언어 모델을 기반으로 애플리케이션을 배포하도록 돕는 새로운 역할을 수행합니다. 벡터 데이터베이스는 데이터를 특징이나 속성의 수학적 표현인 고차원 벡터로 저장하는 데이터베이스 유형입니다. 각 벡터에는 데이터의 복잡성과 세분성에 따라 수십에서 수천에 이르는 특정 개수의 차원이 있습니다. 벡터 데이터베이스는 밀집된 벡터를 효율적으로 관리하고 고급 유사성 검색을 지원하도록 설계된 특수 저장 시스템이며, 벡터 라이브러리는 기존 DBMS 또는 검색 엔진에 통합되어 더 넓은 데이터베이스 컨텍스트 내에서 유사성 검색이 가능합니다. 둘 사이의 선택은 애..

[Metrics] ROUGE score, text 생성 타스크 평가 지표

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이며, 모델이 생성한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산합니다. ROUGE는 n-gram recall을 계산하며, 정답 문장의 n-gram이 생성 문장에 얼마나 포함되는지의 비율을 의미합..

Trustworthy AI(신뢰할 수 있는 AI), AI Ethics(AI 윤리)

Trustworthy AI (신뢰할 수 있는 AI) AI가 의도한 대로 작동하고 규정을 준수하는지 확인하기 위해 AI를 지시하고 모니터링할 수 있어야 합니다. 관리되는 데이터 및 AI는 데이터 및 AI 솔루션의 신뢰성을 모니터링하고 유지하는 기술, 도구 및 프로세스를 나타냅니다. 신뢰할 수 있는 AI는 다음의 5가지 항목을 포함하고 있어야 합니다. Transparency (투명성) 투명성은 신뢰를 강화하며 투명성을 높이는 가장 좋은 방법은 공개입니다. AI 솔루션이 윤리적이 되려면 투명성도 필요합니다. 그것은 AI 기술을 쉽게 검사할 수 있게 하고 AI 솔루션에 사용되는 알고리즘이 숨겨져 있거나 더 자세히 볼 수 없다는 것을 의미합니다. Explainability (설명가능성) 투명성은 사용 중인 AI ..

[Large Language Model] Hallucination (환각)

AI Hallucination (환각) 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다. 인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다. 사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다. 잘못된 답변은 statistical error(통계적 오류) 입니다. https://www.youtube.com/watch?v=cfqtFvWOfg0 What hallucination is 환각은 사실이나 맥락 논리에서 벗어난 LLM의 출력이며 사소한 불일치에서 완전히 조작되거나 모순된 진술에 이르기까지 다양할 수 있습니..

Risks of Large Language Models (대규모 언어 모델의 위험)

Risks of Large Language Models https://www.youtube.com/watch?v=r4kButlDLUc Risks Strategies Hallucinations - falsehoods Explainability Bias Culture and Audits Consent - copyright issues Accountability Security - jailbreaking - indirect prompt injection Education AI Hallucinations (환각) 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다. 인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하..

[LLM] 업스테이지 모델, ‘허깅페이스 오픈 LLM 리더보드’서 세계 1위

업스테이지 LLaMa-2-70b-instruct-v2 model https://huggingface.co/upstage/Llama-2-70b-instruct-v2 upstage/Llama-2-70b-instruct-v2 · Hugging Face This model can be loaded on the Inference API on-demand. huggingface.co 한국어 자연어이해(NLU) 평가 데이터셋 ‘클루(KLUE)’를 구축하고, OCR 세계대회 ICDAR에서 4개종목 우승, 생성 AI 서비스 ‘AskUp’ 운영으로 축적된 프롬프트 엔지니어링 및 파인튜닝 노하우 등 업스테이지만의 차별화된 기술 자산을 총 결집한 결과 Backbone Model: LLaMA-2 [Large Language M..

LangChain for LLM Application Development

LangChain LLM을 사용하여 애플리케이션 생성을 단순화하도록 설계된 프레임워크 LLM 프롬프트의 실행과 외부 소스의 실행(계산기, 구글 검색, 슬랙 메시지 전송이나 소스코드 실행 등)을 엮어 연쇄(Chaining)하는 것 나의 질문과 LLM의 답변 사이에 여러가지 Tool들을 이용해 프롬프트 엔지니어링을 하는 것 그러한 과정을 반복해 원하는 답을 찾는 것 https://docs.langchain.com/docs/ 🦜️🔗 LangChain | 🦜️🔗 LangChain LangChain is a framework for developing applications powered by language models. docs.langchain.com Open-source development framewo..

[Prompt Engineering] Best Practices of Prompt Engineering

출처: https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4 Prompt Engineering 프롬프트 엔지니어링은 OpenAI의 ChatGPT와 같은 LLM(Large Language Models)에 대한 프롬프트라는 명령을 만드는 프로세스를 말합니다. 광범위한 작업을 해결할 수 있는 LLM의 엄청난 잠재력을 통해 프롬프트 엔지니어링을 활용하면 상당한 시간을 절약하고 인상적인 응용 프로그램을 쉽게 개발할 수 있습니다. 이 거대한 모델의 모든 기능을 최대한 활용하여 우리가 상호 작용하고 혜택을 받는 방식을 변화시키는 열쇠를 쥐고 있습니다. Best Practices for Prompt Eng..

[Generative AI][Large Language Model] State of GPT

State of GPT 2023.5.24 Speaker: Andrej Karpathy | OpenAI State of GPT를 주제로 OpenAI Andrej Karpathy가 발표한 내용을 발췌하여 정리한 내용입니다. ChatGPT와 같은 GPT Assistant training pipeline에 대해 토큰화에서 pretraining, supervised finetuning, Reinforcement Learning from Human Feedback(RLHF)에 대해 알아보세요. 프롬프트 전략, finetuning, 빠르게 성장하는 도구 생태계 및 향후 확장을 포함하여 이러한 모델을 효과적으로 사용하기 위한 실용적인 기술 및 정신 모델에 대해 자세히 알아보십시오. https://build.micros..

[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항

최신 LLM 교육을 위한 전력 요구 사항 LLM(Large Language Model)은 언어 이해 및 생성을 포함하여 인간의 언어 처리 기능을 모방하도록 설계된 컴퓨터 프로그램입니다. LLM은 텍스트 분류, 질문 응답 및 언어 번역과 같은 자연어 처리(NLP) 작업에 널리 사용됩니다. 그러나 이러한 모델의 교육에는 엄청난 양의 컴퓨팅 성능과 에너지 소비가 필요합니다. Large Language Model 및 전원 요구 사항 LLM(Large Language Model)은 인간과 유사한 언어를 처리하고 생성할 수 있는 인공 지능 모델입니다. 이러한 모델은 종종 테라바이트 또는 페타바이트 범위의 방대한 양의 데이터에 대해 훈련되며 수십억 개의 매개변수를 가질 수 있습니다. LLM은 일반적으로 supervi..

[Large Language Model] PaLM (Pathways Language Model)

PaLM (Pathways Language Model) (2022.04) Google, 540 billion parameters, available via API 다양한 작업을 처리하고 새로운 작업을 빠르게 학습할 수 있는 모델을 구축하는 것을 목표로 하는 Google의 Pathways AI architecture를 기반으로 합니다. PaLM은 경로 시스템으로 훈련된 5,400억 개의 매개변수 모델로, 수백 가지 언어 관련 작업을 수행할 수 있으며 (출시 당시) 많은 작업에서 최첨단 성능을 달성했습니다. PaLM의 놀라운 기능 중 하나는 농담 설명과 같은 여러 복잡한 논리적 단계가 필요한 시나리오에 대한 설명을 생성하는 것이었습니다. References https://ai.googleblog.com/20..

[Large Language Model] Llama 2 (Large Langauge Model Meta AI)

Llama 2 (2023.02) Large Language Model Meta AI Meta AI, Multiple Sizes, downloadable by application https://ai.meta.com/llama/ Llama 2 - Meta AI We have a broad range of supporters around the world who believe in our open approach to today’s AI — companies that have given early feedback and are excited to build with Llama 2, cloud providers that will include the model as part of their offering a..

728x90
반응형