반응형

Generative AI/Language Model 38

[Language Model] Attention Model

Attention Model Seq2Seq 모델에서 시퀀스의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재 Seq2Seq의 단점을 보완하기 위해 Attention 개념을 도입 Attention은 Seq2Seq 모델이 각각 입력 시퀀스 중에서 현재 output 아이템이 중복해야 하는 파트들을 직접 연결, 가중치 등을 주어 해당하는 파트들의 정보를 더 잘 활용하도록 하는 개념 가장 마지막의 hidden state만 디코더에 전달하는 것이 아니라 모든 hidden state의 정보를 decoder에 전달한다. 각각의 hidden state에 가중치 정보를 고려하여 가장 영향이 큰 hidden state 정보를 기준으로 output을 판단한다. 출처: https://jalam..

[Language Model] BERTopic

BERTopic BERT 임베딩 및 클래스 기반 TF-IDF를 활용하여 조밀한 클러스터를 생성하여 주제 설명에 중요한 단어를 유지하면서 쉽게 해석 가능한 주제를 허용하는 주제 모델링 기술 https://maartengr.github.io/BERTopic/index.html Home - BERTopic BERTopic BERTopic is a topic modeling technique that leverages transformers and c-TF-IDF to create dense clusters allowing for easily interpretable topics whilst keeping important words in the topic descriptions. It even supports..

[NLP] 통계적 언어 모델(Statistical Language Model, SLM)

Language Model 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측한거나 생성하는 모델 통계적 언어 모델(Statistical Language Model, SLM) 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델 모델의 목표는 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는데 있음 조건부 확률(conditional Probabilities) 언어 모델 조건부 확률을 기준으로 글자나 형태소의 결합 확률을 기반으로 모델링 corpus 내에서 각 단어들의 조합이 나오는 횟수를 카운트한 후 이에 기반하여 확률을 계산 스마트폰의 자동 완성 N-gram 언어 모델 문장 내 단..

[Language Model] T5(Text-to-Text Transfer Transformer)

Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필요 XLNet, RoBERTa, MT-DNN, T5 2. Transformer 구현체를 축소시키면서 성능 손실을 막고 서비스가 가능한 형태로 어떻게 바꿀까? Quantization, Pruning, Knowledge Distillation T5(Text-to-Text Transfer Transformer) Google, 2020, 110억 파라미터 통합 텍스트-텍스트 트랜스포머 전송 학습의 한계 탐구(Exploring the Limits of Transfe..

[NLP] LDA(Latent Dirichlet Allocation)

LDA(Latent Dirichlet Allocation) 추출한 문서에 담긴 단어들의 주제(토픽)을 추출하는 ‘토픽모델링’ 기법 중 하나 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출 토픽 모델링 각 단어나 문서들의 집합에 대해 숨겨진 주제를 찾아내어 문서나 키워드별로 주제끼리 묶어주는 비지도학습 알고리즘 LDA는 문서가 있고, 그 안에 단어가 있다면 확률분포 중 하나인 디리클레의 분포를 가정하고, 번호가 매겨진 토픽 안에 문서와 단어들을 하나씩 넣어보며 잠재적인 의미(토픽)을 찾아주는 과정 α, β, K : 디리클레 분포 하이퍼 파라미터 값 α: 문서들의 토픽 분포를 얼마나 밀집되게 할 것인지에 대한 설정 값 β: 문서 내 단어들의 토픽 분포를 얼..

[NLP] Seq2Seq Model

Seq2Seq(Sequence to Sequence) 시퀀스 형태의 입력값을 시퀀스 형태의 출력으로 만들 수 있게 하는 모델 하나의 텍스트 문장이 입력으로 들어오면 하나의 텍스트 문장을 출력하는 구조 RNN 모델 ([Machine Learning] RNN(Recurrent Neural Network)) 을 기반으로 Encoder와 Decoder 부분으로 나뉨 출처: https://jalammar.github.io//images/seq2seq_5.mp4 HTML 삽입 미리보기할 수 없는 소스 출처: https://jalammar.github.io//images/seq2seq_6.mp4 HTML 삽입 미리보기할 수 없는 소스 활용 분야 기계 번역(Machine Translation) 텍스트 요약(Text S..

728x90
반응형