반응형

NLP/Embedding 4

부분구문분석(청크나누기, Chunking)

부분구문분석(청크나누기, Chunking) 부분구문분석(shallow parsing) = 청크나누기(Chunking) 명사, 동사, 형용사와 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것 사전 훈련된 품사태깅 모델이 존재함 여러 개의 품사로 구(pharase)를 만드는 것을 chunking이라 하고, 이 구(pharase)를 chunk라 합니다. 문장을 각 품사로 구분하고, Chunking에 의해 구로 구분하면 문장의 의미를 파악하기 용이해 집니다. 문장에서 (DT + JJ + NN), (DT + JJ + JJ + NN), (JJ + NN), 등의 시퀀스는 모두 명사구 (NP : Noun phrase)로 판단합니다. 겹치는 위치에서 태그 패턴이 일치하는 경우 가장 왼쪽 일치가 우선합니다. sp..

NLP/Embedding 2023.07.18

[NLP] Doc2Vec

Doc2Vec 개념 및 방법 개념 Word2Vec에 이어 구글 연구팀이 개발한 문서 임베딩 기법(Le&Mikolov, 2014) 타겟 단어와 이전 단어 k 개가 주어졌을 때, 이전 단어들 + 해당 문서의 아이디로 타겟 단어를 예측하는 과정에서 문맥이 비슷한 문서 벡터와 단어 벡터가 유사하게(코사인 유사도) 임베딩 문장 전체를 처음부터 끝까지 한 단어씩 슬라이딩해 가면서 다음 단어가 무엇일지 예측 PV-DM(The Distributed Memory Model of Paragraph Vectors) 단어 등장 순서를 고려하는 방식으로 학습하기 때문에 순서 정보를 무시하는 백오브워즈 기법 대비 강점이 있다고 주장 paragraph_1 이라는 문서에서 the cat sat on the mat 라는 문장이 있을 ..

NLP/Embedding 2021.04.08

[NLP] Word2Vec

Word2Vec 신경망 모델을 사용하여 큰 텍스트 corpus에서 단어 연관성을 학습 단어의 의미가 벡터로 표현됨으로써 벡터 연산이 가능 단어가 가지는 의미 자체를 다차원 공간에 벡터화 하는 것 카운트 기반 방법으로 만든 단어 벡터보다 단어 간의 유사도를 잘 측정 단어들의 복잡한 특징까지도 잘 잡아낸다 장점 단어간의 유사도 측정이 용이 단어간의 관계 파악에 용이 벡터 연산을 통한 추론이 가능 단점 단어의 subword 정보 무시(ex. 서울/서울시/고양시) OOV(Out of vocabulary)에서 적용 불가능 CBOW(Continuous Bag of Words) 어떤 단어를 문맥 안의 주변 단어들을 통해 예측하는 방법 입력 값으로 여러 개의 단어를 사용하고, 학습을 위해 하나의 단어와 비교 CBOW ..

NLP/Embedding 2021.03.12

[NLP] Word Embedding

Word Embedding 자연어로 되어 있는 문장을 컴퓨터가 받아들일 수 있도록 하는 문장의 전처리 과정 중 하나 유사한 의미의 단어를 군집화하고 벡터 연산을 통해 단어 간의 관계를 파악하여 추론이 가능해짐에 따라 자연어 처리 모델링에 필수 기술로 사용 자연어는 이미지보다 높은 차원의 데이터 vs Color : RGB 벡터로 표현 단어 간 유사도 및 중요도 파악을 위해 단어를 저차원의 실수 벡터로 맵핑하여 의미적으로 비슷한 단어를 가깝게 배치하는 자연어 처리 모델링 기술 Word Embedding 방식은 동형어, 다의어 등에 대해선 embedding 성능이 좋지 못하다는 단점이 있음 주변 단어를 통해 학습이 이루어지기 때문에, '문맥'을 고려할 수 없음 Sparse Representation (희소 표..

NLP/Embedding 2021.03.11
728x90
반응형