NLP/NLP 기초

[NLP] Lexical Analysis

데이터 세상 2021. 4. 5. 20:27
728x90
반응형

어휘 분석(Lexical Analysis)

  • 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구
  • 어휘: 어휘적 의미의 기본 단위
  • 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악

형태소 분석(Morpholigical Analysis)

  • 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것

형태소 분석 절차 3가지

  • 단어에서 최소 의미를 포함하는 형태소를 분리
    • 형태소 분석의 처리 대상은 어절(또는 단어)
  • 형태론적 변형이 일어난 형태소의 원형 복원
  • 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택

영어 형태소 분석

stemming(어간 추출)과 lemmatization(표제어 추출)을 사용하면 형태소 분석을 쉽게 파악할 수 있다

Word Stemming Lemmatization
am am be
has ha have
watched watch watch
doing do do

한국어 형태소 분석

 

 

품사 태킹(Part-of-Speech Tagging)

  • 품사의 사전적 의미
    • 단어의 기능, 형태, 의미에 따라 나눈 것을 의미
  • 체언(명사, 대명사, 수사): 주체 기능
  • 용언(동사, 형용사): 활용 기능
  • 수식언(관형사, 부사): 수식 기능
  • 독립언(감탄사): 독립 기능
  • 관계언(조사): 관계 기능

태깅(Tagging)

  • 같은 단어에 대해 의미가 다를 경우(중의성)을 해결하기 위해 추가적인 언어의 정보를 부착 하는 것

어휘 태깅, 품사 태깅

  • 문서 또는 문장에 품사 정보를 부착하는 것은 문서 또는 문장을 이루고 있는 각 단어에 정확한 하나의 품사를 부여하는 것
  • 형태론적 중의성을 해결하기 위해서는 반드시 좌우에 사용된 단어들에 정보, 즉 문맥을 고려해야 함

자동 품사 태깅

지식 기반 품사 태깅

  • 문맥틀(context frame)형식으로 규칙을 기술하는 방법
  • 제약 문법(constrint grammar)을 이용하여 규칙을 표현한 방법
  • 원시 corpus로부터 출현 빈도가 높은 중의적 단어를 처리하는 규칙
  • 휴리스틱 규칙을 사용하는 방법
  • 비문맥 규칙을 사용하는 방법
  • 패턴-처리 형태의 부정 지식을 나타내는 규칙을 사용하는 방법
  • Finite-state intersection grammar를 사용하는 방법

통계 기반 품사 태깅

  • 번역 마르코프 모형에 기반한 방법
  • 통계적 결정 트리에 기반한 방법
  • 최대 엔트로피 모형에 기반한 방법
  • 반복 알고리즘의 일종인 LABELING 기법에 기반한 방법
  • 퍼지망에 기반한 방법
  • 분별 학습에 기반한 방법

규칙 기반의 접근법

  • 문법 규칙을 적용하여 관계를 파악할 수 있는 규칙 기반 방법
  • 언어 정보에서 생성되는 규칙의 형태로 표현하고 이를 적용하여 태깅을 수행
  • 품사 사이 관계 외에 어절에 대해서 높은 정확도를 나타내기 때문에 통계 기반의 접근법으로 다루지 못하는 부분에 대해 교정이 가능
  • 긍정, 부정, 수정 정보를 이용하여 중의성을 해결하고 태깅을 부착하는 방법
  • 언어 전문가가 완전히 수동으로 품사 태깅 데이터를 구축하거나 최소한의 규칙으로 자동 또는 반자동으로 구축
  • 수동으로 구축 시
    • 정해진 규칙에 대해서 정확성이 비교적 높지만 시간과 노력이 많오 소요, 지식 병목 현상 발생
  • 자동으로 구축 시
    • Corpus에 의존적이지만 수동 구축 방법을 많이 사용 함

긍정 정보

  • 문장에서 선호되는 어휘 태그에 대한 언어 지식
  • [가 or 나] -> 가[다 or 라]

부정 정보

  • 특정 문장에서 배제되는 어휘 태그에 대한 언어 지식
  • 가 ? 나 -> not 다

수정 정보

  • 일반적으로 통계기반 접근법과 같이 다른 태깅 방법을 유발할 때 오류를 수정하기 위해 사용하는 방법
  • 오류 교정이라고도 할 수 있음
  • A: 가 -> 나
  • 모르는 정보나 잘못된 정보가 들어 왔을 때 태그 "가"에서 태그 "나"로 수정

통계 기반 접근법

  • 태그가 부착된 대량의 corpus가 주어지면 태깅에 적합한 모델을 선정하고 코퍼스에서 추출된 통계 정보를 이용
  • 단점
    • 대량의 코퍼스에 태그가 부착되어야 함
  • 장점
    • 통계정보 추출이 용이
    • 의미있는 통계정보를 추출하고 자동 추출할 수 있음

은닉 마코프 모델(HMM, Hidden Markov Model)

  • 어휘 확률만을 이용
  • 태깅되지 않은 코퍼스로부터 비지도 학습을 통해 매개 변수 값을 획득하는 방법

딥러닝 기반의 품사 태깅

언어처리에서 딥러닝의 효과

  • 데이터로부터 특징을 자동으로 학습
  • 폭넓은 문맥정보를 다룰 수 있음
  • 모델에 적합한 출력을 다루기가 간단
  • 언어와 특성이 다른 사진이나 음성 등과 같은 모델들 간의 상호작용을 할 수 있어 Multi Modal 모델 구축이 용이

형태소 분석 및 품사 태깅기의 활용 분야

  • 구문 분석 단계의 전처리 과정
  • 정보 검색에서 높은 정확률와 재현율을 갖는 색인어와 검색어 추출을 위해 사용
  • 기계 번역(machine translation)
  • 용례 추출(concordance extraction)
  • 질의응답(question and answering) 시스템
  • 언어 정보 획득
  • 철자 검삭 및 교정
  • 사전 구축

References

728x90
반응형

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] Semantic Analysis  (0) 2021.04.05
[NLP] Syntactic Analysis  (0) 2021.04.05
[NLP] 언어학의 기본 원리  (0) 2021.04.05
[NLP] Corpus  (0) 2021.04.05
[NLP] 자연어 처리 난제  (0) 2021.04.05