NLP/NLP 기초

[NLP] Semantic Analysis

데이터 세상 2021. 4. 5. 20:31

단어 의미 중의성

중의성

언어 표현에서 둘 이상의 의미를 가지는 표현들

어휘적 중의성

다의어에 의한 중의성

  • 하나의 단어가 주변 문맥이나 상황에 따라 다른 의미들로 해석되는 것
  • "손 좀 보자"

동음어에 의한 중의성

  • 문장 주변의 문맥정보가 동일하지만, 상황에 따라 다른 의미로 해석되는 것
  • "밤이 좋다"

구조적 중의성

  • 문장을 이루고 있는 어휘 간의 관계에 따라 여러 의미로 해석되는 것
  • "부유한 철수와 영희가 명품매장을 갔다." (부유한이 철수인지 철수와 영희인지..?, 각자인지 함께 가는지..?)

 

중의성 해소 기법

단어 중의성 해소 기법(Word Sense Disambiguation)

  • 문장 내 중의성을 가지는 어휘를 사전에 정의된 의미와 매칭하여 어휘적 중의성을 해결하는 문제

지식기반 방법

  • 문장에 등장한 단어들을 사전에 정의된 어휘 지식을 활용하여 예측하는 방법

사전 정의 기반 방법

  • 사전에 정의된 뜻풀이(Gloss)를 기반으로 의미를 추론하는 방법

Lesk 알고리즘

  • 중의성 단어의 사전 뜻풀이(Gloss)에 쓰인 단어들과 중의성 단어와 함께 주변 문맥에 나타난 사전 뜻풀이에 쓰인 단어들의 문맥 패턴이나 중복된 단어 수를 보고 의미를 결정하는 방법
  • 뜻풀이에만 쓰인 단어와 문장에 너무 의존적이라는 단점이 있음

그래프 기반 방법

  • 어휘 의미망 사전에 정의된 의미 관계 정보 중에 중의성 단어와 주변 문맥에 나온 단어들의 부분 그래프를 새로 추출하고 그중 가장 연결성이 높은 중의성 단어의 의미를 선택하는 방법
  • 어휘 의미망 사전에 정의된 관계성만 고려하는 것이기 때문에 문법적 정보가 포함되어 있지 않아 정확한 의미를 분석하기 어려움

어휘지식

  • WordNet, BabelNet, ConceptNet, Freebase

WordNet

  • 단어간에 어떤 관계를 가지고 있는지 정의된 영어 의미 어휘목록
  • 영어 단어를 'synset'이라는 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록

 

 

 

지도학습기반 방법

  • 문장 내 단어의 의미가 레이블(labeling)된 데이터를 이용하여 기계학습 모델에 학습하고 단어의 의미를 예측하는 방법
  • 지식 기반 모다 높은 성능을 보이지만, 대량의 학습데이터를 궃축해야 하는 단점이 있음

NB(Naive Bayes Classifiers, 나이브베이즈 분류기)

 

kNN(k-Nearest Neighbor Classifier)

KNN(K-Nearest Neighbor)

벡터 공간에 표현된 자질들이 정해진 k 값에 따라서 가장 많이 묶이는 자질들의 의미클래스에 선택

자질의 유무에 따라 성능이 좌지우지 됨

SVM(Support Vector Machine)

SVM(Support Vector Machine)

  • 벡터 공간에 표현된 자질로부터 의미 클래스를 분류하기 위해 의미 클래스간에 가장 넓은 거리를 사용하는 방향으로 선을 그어 의미를 분류하는 방법
  • 자질 표현에 민감하게 반응하는 것이 적고, 잡음 자질이나 자질 결합의 크기가 큰 경우에도 좋은 성능을 보장

 

의미역(Semantic Role) 분석

의미역 분석

  • 의미를 해석하기 위해 서술어가 수식하는 대상의 의미 관계를 파악하고 그 역할을 분류하는 것
  • 문법 구조에 반영되는 의미의 측면을 파악하기 위해 고안된 것으로 상황에 대한 고정된 해석을 전제로 하기 때문에 구조적으로 중의성을 가지는 문장의 의미를 정확하게 이해할 수 있음

필수적 의미역

의미역 설명 예시
행동주(agent) 어떤 행위를 하는 주체
감정이나 의지를 가지는 사람이나 동물이며 고의성이나 의동성을 가짐
철수(agent)가 돈을 낸다
도구(instrument) 행위, 이동의 의미를 표현하는 동사의 수단 철수(agent)가 망치(instrument)로 못을 받는다
피동주/수동자(patient) 동사가 행위를 표현하는 경우
그 행위에 영향을 받거나 상태 변화는 겪는 것
철수가 민희(patient)를 사랑한다
경험자(experiencer) 인지(cognition), 지각(perception), 감정(emotion)을 나타내는 용언의 경우 그 현상의 경험 주체가 되는 논항에 의해 내적인 상태에 영향을 받는 것
행동주와는 달리 의도성을 나타내는 부사(구)와 결합할 수 없음
영희(experiencer)가 사랑에 빠졌다
수혜자(benefactive) 어떤 행위가 행해졌을 때 이익을 받는 개체 내가 철수(benefactive)를 위해 밥을 사줬다
출처/근원(source) 술어가 나타내는 사건에 의해 어떤 대상이 그로부터 이동하게 된 원래의 장소
장소 외에도 행동의 동기나 이유가 출처가 되기도 함
나는 식당(source)에서 밥을 주문했다
도달점/목표(goal) 행위가 목적하는 곳으로 출처와 대칭적인 개념
공간적 목적지뿐만 아니라 심정적, 주관적 목적지까지 포함
나는 책을 서랍(goal) 안에 보관했다

수의적 의미역

  • 장소/위치(locative)
  • 이유(reason)
  • 목적(purpose)
  • 경로(path)
  • 시간(time)
  • 방법(manner)

지도학습기반 방법

  • 개체명의 경우 고유한 의미를 가지는 인명, 지명, 기관명, 날짜, 시간, 길이 등의 표현들을 활용하기 때문에 사전에 없는 단어들을 확장
  • 전처리에 사용되는 구문분석, 단어 중의성 해소 분석, 개체명 분석을 하기 위한 대량의 학습데이터가 학습된 분류기들을 따로 구축해야 한다

의미 표현

추상 의미 표현(Abstract Meaning Representation: AMR)

하나의 의미 분석을 해결하기 위한 모델을 만들지 않고, 여러 의미분석 결과를 결합하여 문장의 의미를 표현하는 방식

문장 단위의 의미 표상을 위해 논리적인 의미를 그래프 구조로 표현

그래프 구조는 단일 루트 기준으로 하위에 여러 개념들을 포함하는 비순환 그래프로 표현

The boy wants to go

(w / want-01

  :ARG0 (b / boy)

  :ARG1 (g / go-01

             :ARG0 b))

 

 

 


References

반응형

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] Gensim  (0) 2021.04.11
[NLP] 자연어 처리를 위한 수학  (0) 2021.04.11
[NLP] Syntactic Analysis  (0) 2021.04.05
[NLP] Lexical Analysis  (0) 2021.04.05
[NLP] 언어학의 기본 원리  (0) 2021.04.05