NLP/NLP 시스템

[NLP] Information Extraction

데이터 세상 2021. 4. 13. 11:16

정보추출(Information Extraction, IE)

  • 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요
  • 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음
    • (엔티티 1, 엔티티 2)

 

정보추출의 목적

  • 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠
  • 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별
  • 구조화된 엔티티를 데이터베이스 등에 저장하는 것

 

정보추출의 한계

  • 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요
  • 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함
  • 수작업으로 인한 시간과 비용이 많이 소비됨

 

정보추출 한계 개선

  • 적은 수의 태깅된 정의로 추출 패턴을 파악하여 Unsupervised 방법으로 학습하는 등의 연구 방법이 제안되고 있음

정보추출의 학습 방법

 

엔티티 추출

  • 정의된 정보(패턴)을 기준으로 해당 엔티티들을 확인하기 위해 진행
  • 엔티티에 대한 라벨을 지정
  • ex) NER(Named Entity Recognition)을 활용하여 인명(person), 지명(location), 기관명(organization), 시간(time) 등으로 분류하여 엔티티 추출

 

관계 추출

  • 술어, 주체, 객체에 대한 관계를 파악하기 위해 텍스트에서 서로 가까이 있는 엔티티 쌍 사이의 특정 패턴을 검색하여 관계 결과를 튜플 형식으로 출력
  • ex) ([ORG: '서울대학교'], 'in', [LOC: '서울'])

 

NER(Named Entity Recognition)

[NLP/NLP 시스템] - NER

상호 참조(Co-reference Resolution)

관계 추출(Relation Extraction)

  • 각각의 엔티티에 연결한느 엔티티 유형과 함께 감지하여 둘 사이의 관계 유형을 추출
  • 관계 추출은 특정한 방법론이 정해져 있지 않고 Corpus에 맞는 방법론을 사용

 

TACRED

  • TAC KBP(Tac Knowledge Base Population) 과제에 사용되는  코퍼스
  • 뉴스 보도자료 및 웹 텍스트를 기반으로 구축된 106,264개의 예체가 포함된 대규모 관계 추출 데이터

정보 추출 접근법

규칙기반 접근법

  • 사람이 직접 규칙을 생성
  • 비정형 텍스트에서 언어적인 분석을 통해 표현되는 형식을 찾아 관계 튜플(규칙)을 정의
  • 정의된 규칙을 사용하여 비정형 텍스트로부터 관계 튜플을 추출

 

장점

  • 규칙의 질은 높일 수 있음

단점

  • 실수로 인해 놓치거나 생각하지 못한 패턴이 존재할 수 있음
  • 사람이 직접 데이터를 분석해야 하기 때문에 시간과 노력이 많이 소요됨

 

텍스트에서 반자동 규칙기반 구조화된 데이터 수집(출처: 자연어처리 바이블)

규칙 획득

  • 초기 추출된 규칙은 학습 말뭉치의 특징과 개념을 기바능로 도메인 전문가에 의해 공식화된 규칙을 적용
  • 새로운 말뭉치가 들어왔을 때 일반적인 특징을 포착해야 함

 

규칙 재정의

  • 주어진 규칙을 사용하여 이를 점차적으로 조정하고 세분화
  • 말뭉치에 대한 확장 및 변경 사항도 쉽게 포함할 수 있음

 

규칙 적용

  • 지식 획득단계 이후 추출된 규칙을 적용한 구조화된 데이터를 생성(output)할 수 있음
  • 수준 높고 낮은 정보추출을 구현할 수 있음
  • 출력(output)은 일반적으로 속성-값(attribute-value) 쌍이 추출됨

 

구조화된 데이터 생성

  • 속성-값(attribute-value) 쌍이 최종 데이터에 작성됨

 

기계학습기반 접근법

  • 비정형 텍스트로부터 기계학습 알고리즘을 적용하여 직접 패턴을 발견하여 학습

적용 알고리즘 예시

  • HMM(Hidden Markov Model)
  • 최대 엔트로피 모델(Maximum Entropy model)
  • 조건부 랜덤 필드(Conditional Random Field)
  • 나이브 베이즈(Naive Bayes) 네트워크
  • 의사 결정 트리(Decision Tree)

References

반응형