반응형

Generative AI 48

[NLP] LDA(Latent Dirichlet Allocation)

LDA(Latent Dirichlet Allocation) 추출한 문서에 담긴 단어들의 주제(토픽)을 추출하는 ‘토픽모델링’ 기법 중 하나 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출 토픽 모델링 각 단어나 문서들의 집합에 대해 숨겨진 주제를 찾아내어 문서나 키워드별로 주제끼리 묶어주는 비지도학습 알고리즘 LDA는 문서가 있고, 그 안에 단어가 있다면 확률분포 중 하나인 디리클레의 분포를 가정하고, 번호가 매겨진 토픽 안에 문서와 단어들을 하나씩 넣어보며 잠재적인 의미(토픽)을 찾아주는 과정 α, β, K : 디리클레 분포 하이퍼 파라미터 값 α: 문서들의 토픽 분포를 얼마나 밀집되게 할 것인지에 대한 설정 값 β: 문서 내 단어들의 토픽 분포를 얼..

[NLP] Seq2Seq Model

Seq2Seq(Sequence to Sequence) 시퀀스 형태의 입력값을 시퀀스 형태의 출력으로 만들 수 있게 하는 모델 하나의 텍스트 문장이 입력으로 들어오면 하나의 텍스트 문장을 출력하는 구조 RNN 모델 ([Machine Learning] RNN(Recurrent Neural Network)) 을 기반으로 Encoder와 Decoder 부분으로 나뉨 출처: https://jalammar.github.io//images/seq2seq_5.mp4 HTML 삽입 미리보기할 수 없는 소스 출처: https://jalammar.github.io//images/seq2seq_6.mp4 HTML 삽입 미리보기할 수 없는 소스 활용 분야 기계 번역(Machine Translation) 텍스트 요약(Text S..

728x90
반응형