[NLP] Lexical Analysis

NLP/NLP 기초

[NLP] Lexical Analysis

데이터 세상 2021. 4. 5. 20:27

어휘 분석(Lexical Analysis)

단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구
어휘: 어휘적 의미의 기본 단위
한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악

형태소 분석(Morpholigical Analysis)

최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것

형태소 분석 절차 3가지

단어에서 최소 의미를 포함하는 형태소를 분리
- 형태소 분석의 처리 대상은 어절(또는 단어)
형태론적 변형이 일어난 형태소의 원형 복원
단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택

영어 형태소 분석

stemming(어간 추출)과 lemmatization(표제어 추출)을 사용하면 형태소 분석을 쉽게 파악할 수 있다

Word	Stemming	Lemmatization
am	am	be
has	ha	have
watched	watch	watch
doing	do	do

한국어 형태소 분석

KoNLPY을 이용하여 한국어 형태소 분석기 적용 가능
- [NLP/KoNLPy] - KoNLPy
- [NLP/KoNLPy] - Khaii

품사 태킹(Part-of-Speech Tagging)

품사의 사전적 의미
- 단어의 기능, 형태, 의미에 따라 나눈 것을 의미
체언(명사, 대명사, 수사): 주체 기능
용언(동사, 형용사): 활용 기능
수식언(관형사, 부사): 수식 기능
독립언(감탄사): 독립 기능
관계언(조사): 관계 기능

태깅(Tagging)

같은 단어에 대해 의미가 다를 경우(중의성)을 해결하기 위해 추가적인 언어의 정보를 부착 하는 것

어휘 태깅, 품사 태깅

문서 또는 문장에 품사 정보를 부착하는 것은 문서 또는 문장을 이루고 있는 각 단어에 정확한 하나의 품사를 부여하는 것
형태론적 중의성을 해결하기 위해서는 반드시 좌우에 사용된 단어들에 정보, 즉 문맥을 고려해야 함

자동 품사 태깅

지식 기반 품사 태깅

문맥틀(context frame)형식으로 규칙을 기술하는 방법
제약 문법(constrint grammar)을 이용하여 규칙을 표현한 방법
원시 corpus로부터 출현 빈도가 높은 중의적 단어를 처리하는 규칙
휴리스틱 규칙을 사용하는 방법
비문맥 규칙을 사용하는 방법
패턴-처리 형태의 부정 지식을 나타내는 규칙을 사용하는 방법
Finite-state intersection grammar를 사용하는 방법

통계 기반 품사 태깅

번역 마르코프 모형에 기반한 방법
통계적 결정 트리에 기반한 방법
최대 엔트로피 모형에 기반한 방법
반복 알고리즘의 일종인 LABELING 기법에 기반한 방법
퍼지망에 기반한 방법
분별 학습에 기반한 방법

규칙 기반의 접근법

문법 규칙을 적용하여 관계를 파악할 수 있는 규칙 기반 방법
언어 정보에서 생성되는 규칙의 형태로 표현하고 이를 적용하여 태깅을 수행
품사 사이 관계 외에 어절에 대해서 높은 정확도를 나타내기 때문에 통계 기반의 접근법으로 다루지 못하는 부분에 대해 교정이 가능
긍정, 부정, 수정 정보를 이용하여 중의성을 해결하고 태깅을 부착하는 방법
언어 전문가가 완전히 수동으로 품사 태깅 데이터를 구축하거나 최소한의 규칙으로 자동 또는 반자동으로 구축
수동으로 구축 시
- 정해진 규칙에 대해서 정확성이 비교적 높지만 시간과 노력이 많오 소요, 지식 병목 현상 발생
자동으로 구축 시
- Corpus에 의존적이지만 수동 구축 방법을 많이 사용 함

긍정 정보

문장에서 선호되는 어휘 태그에 대한 언어 지식
[가 or 나] -> 가[다 or 라]

부정 정보

특정 문장에서 배제되는 어휘 태그에 대한 언어 지식
가 ? 나 -> not 다

수정 정보

일반적으로 통계기반 접근법과 같이 다른 태깅 방법을 유발할 때 오류를 수정하기 위해 사용하는 방법
오류 교정이라고도 할 수 있음
A: 가 -> 나
모르는 정보나 잘못된 정보가 들어 왔을 때 태그 "가"에서 태그 "나"로 수정

통계 기반 접근법

태그가 부착된 대량의 corpus가 주어지면 태깅에 적합한 모델을 선정하고 코퍼스에서 추출된 통계 정보를 이용
단점
- 대량의 코퍼스에 태그가 부착되어야 함
장점
- 통계정보 추출이 용이
- 의미있는 통계정보를 추출하고 자동 추출할 수 있음

은닉 마코프 모델(HMM, Hidden Markov Model)

어휘 확률만을 이용
태깅되지 않은 코퍼스로부터 비지도 학습을 통해 매개 변수 값을 획득하는 방법

딥러닝 기반의 품사 태깅

언어처리에서 딥러닝의 효과

데이터로부터 특징을 자동으로 학습
폭넓은 문맥정보를 다룰 수 있음
모델에 적합한 출력을 다루기가 간단
언어와 특성이 다른 사진이나 음성 등과 같은 모델들 간의 상호작용을 할 수 있어 Multi Modal 모델 구축이 용이

형태소 분석 및 품사 태깅기의 활용 분야

구문 분석 단계의 전처리 과정
정보 검색에서 높은 정확률와 재현율을 갖는 색인어와 검색어 추출을 위해 사용
기계 번역(machine translation)
용례 추출(concordance extraction)
질의응답(question and answering) 시스템
언어 정보 획득
철자 검삭 및 교정
사전 구축

References

자연어처리 바이블

728x90

저작자표시 비영리 변경금지 (새창열림)

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] Semantic Analysis (0)	2021.04.05
[NLP] Syntactic Analysis (0)	2021.04.05
[NLP] 언어학의 기본 원리 (0)	2021.04.05
[NLP] Corpus (0)	2021.04.05
[NLP] 자연어 처리 난제 (0)	2021.04.05

현재글[NLP] Lexical Analysis

댓글

티스토리툴바