728x90
반응형
어휘 분석(Lexical Analysis)
- 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구
- 어휘: 어휘적 의미의 기본 단위
- 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악
형태소 분석(Morpholigical Analysis)
- 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것
형태소 분석 절차 3가지
- 단어에서 최소 의미를 포함하는 형태소를 분리
- 형태소 분석의 처리 대상은 어절(또는 단어)
- 형태론적 변형이 일어난 형태소의 원형 복원
- 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택
영어 형태소 분석
stemming(어간 추출)과 lemmatization(표제어 추출)을 사용하면 형태소 분석을 쉽게 파악할 수 있다
Word | Stemming | Lemmatization |
am | am | be |
has | ha | have |
watched | watch | watch |
doing | do | do |
한국어 형태소 분석
- KoNLPY을 이용하여 한국어 형태소 분석기 적용 가능
품사 태킹(Part-of-Speech Tagging)
- 품사의 사전적 의미
- 단어의 기능, 형태, 의미에 따라 나눈 것을 의미
- 체언(명사, 대명사, 수사): 주체 기능
- 용언(동사, 형용사): 활용 기능
- 수식언(관형사, 부사): 수식 기능
- 독립언(감탄사): 독립 기능
- 관계언(조사): 관계 기능
태깅(Tagging)
- 같은 단어에 대해 의미가 다를 경우(중의성)을 해결하기 위해 추가적인 언어의 정보를 부착 하는 것
어휘 태깅, 품사 태깅
- 문서 또는 문장에 품사 정보를 부착하는 것은 문서 또는 문장을 이루고 있는 각 단어에 정확한 하나의 품사를 부여하는 것
- 형태론적 중의성을 해결하기 위해서는 반드시 좌우에 사용된 단어들에 정보, 즉 문맥을 고려해야 함
자동 품사 태깅
지식 기반 품사 태깅
- 문맥틀(context frame)형식으로 규칙을 기술하는 방법
- 제약 문법(constrint grammar)을 이용하여 규칙을 표현한 방법
- 원시 corpus로부터 출현 빈도가 높은 중의적 단어를 처리하는 규칙
- 휴리스틱 규칙을 사용하는 방법
- 비문맥 규칙을 사용하는 방법
- 패턴-처리 형태의 부정 지식을 나타내는 규칙을 사용하는 방법
- Finite-state intersection grammar를 사용하는 방법
통계 기반 품사 태깅
- 번역 마르코프 모형에 기반한 방법
- 통계적 결정 트리에 기반한 방법
- 최대 엔트로피 모형에 기반한 방법
- 반복 알고리즘의 일종인 LABELING 기법에 기반한 방법
- 퍼지망에 기반한 방법
- 분별 학습에 기반한 방법
규칙 기반의 접근법
- 문법 규칙을 적용하여 관계를 파악할 수 있는 규칙 기반 방법
- 언어 정보에서 생성되는 규칙의 형태로 표현하고 이를 적용하여 태깅을 수행
- 품사 사이 관계 외에 어절에 대해서 높은 정확도를 나타내기 때문에 통계 기반의 접근법으로 다루지 못하는 부분에 대해 교정이 가능
- 긍정, 부정, 수정 정보를 이용하여 중의성을 해결하고 태깅을 부착하는 방법
- 언어 전문가가 완전히 수동으로 품사 태깅 데이터를 구축하거나 최소한의 규칙으로 자동 또는 반자동으로 구축
- 수동으로 구축 시
- 정해진 규칙에 대해서 정확성이 비교적 높지만 시간과 노력이 많오 소요, 지식 병목 현상 발생
- 자동으로 구축 시
- Corpus에 의존적이지만 수동 구축 방법을 많이 사용 함
긍정 정보
- 문장에서 선호되는 어휘 태그에 대한 언어 지식
- [가 or 나] -> 가[다 or 라]
부정 정보
- 특정 문장에서 배제되는 어휘 태그에 대한 언어 지식
- 가 ? 나 -> not 다
수정 정보
- 일반적으로 통계기반 접근법과 같이 다른 태깅 방법을 유발할 때 오류를 수정하기 위해 사용하는 방법
- 오류 교정이라고도 할 수 있음
- A: 가 -> 나
- 모르는 정보나 잘못된 정보가 들어 왔을 때 태그 "가"에서 태그 "나"로 수정
통계 기반 접근법
- 태그가 부착된 대량의 corpus가 주어지면 태깅에 적합한 모델을 선정하고 코퍼스에서 추출된 통계 정보를 이용
- 단점
- 대량의 코퍼스에 태그가 부착되어야 함
- 장점
- 통계정보 추출이 용이
- 의미있는 통계정보를 추출하고 자동 추출할 수 있음
은닉 마코프 모델(HMM, Hidden Markov Model)
- 어휘 확률만을 이용
- 태깅되지 않은 코퍼스로부터 비지도 학습을 통해 매개 변수 값을 획득하는 방법
딥러닝 기반의 품사 태깅
언어처리에서 딥러닝의 효과
- 데이터로부터 특징을 자동으로 학습
- 폭넓은 문맥정보를 다룰 수 있음
- 모델에 적합한 출력을 다루기가 간단
- 언어와 특성이 다른 사진이나 음성 등과 같은 모델들 간의 상호작용을 할 수 있어 Multi Modal 모델 구축이 용이
형태소 분석 및 품사 태깅기의 활용 분야
- 구문 분석 단계의 전처리 과정
- 정보 검색에서 높은 정확률와 재현율을 갖는 색인어와 검색어 추출을 위해 사용
- 기계 번역(machine translation)
- 용례 추출(concordance extraction)
- 질의응답(question and answering) 시스템
- 언어 정보 획득
- 철자 검삭 및 교정
- 사전 구축
References
728x90
반응형
'NLP > NLP 기초' 카테고리의 다른 글
[NLP] Semantic Analysis (0) | 2021.04.05 |
---|---|
[NLP] Syntactic Analysis (0) | 2021.04.05 |
[NLP] 언어학의 기본 원리 (0) | 2021.04.05 |
[NLP] Corpus (0) | 2021.04.05 |
[NLP] 자연어 처리 난제 (0) | 2021.04.05 |