[NLP] Information Extraction

NLP/NLP 시스템

[NLP] Information Extraction

데이터 세상 2021. 4. 13. 11:16

728x90

정보추출(Information Extraction, IE)

비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요
엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음
- (엔티티 1, 엔티티 2)

정보추출의 목적

문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠
비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별
구조화된 엔티티를 데이터베이스 등에 저장하는 것

정보추출의 한계

추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요
새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함
수작업으로 인한 시간과 비용이 많이 소비됨

정보추출 한계 개선

적은 수의 태깅된 정의로 추출 패턴을 파악하여 Unsupervised 방법으로 학습하는 등의 연구 방법이 제안되고 있음

정보추출의 학습 방법

엔티티 추출

정의된 정보(패턴)을 기준으로 해당 엔티티들을 확인하기 위해 진행
엔티티에 대한 라벨을 지정
ex) NER(Named Entity Recognition)을 활용하여 인명(person), 지명(location), 기관명(organization), 시간(time) 등으로 분류하여 엔티티 추출

관계 추출

술어, 주체, 객체에 대한 관계를 파악하기 위해 텍스트에서 서로 가까이 있는 엔티티 쌍 사이의 특정 패턴을 검색하여 관계 결과를 튜플 형식으로 출력
ex) ([ORG: '서울대학교'], 'in', [LOC: '서울'])

NER(Named Entity Recognition)

[NLP/NLP 시스템] - NER

상호 참조(Co-reference Resolution)

관계 추출(Relation Extraction)

각각의 엔티티에 연결한느 엔티티 유형과 함께 감지하여 둘 사이의 관계 유형을 추출
관계 추출은 특정한 방법론이 정해져 있지 않고 Corpus에 맞는 방법론을 사용

TACRED

TAC KBP(Tac Knowledge Base Population) 과제에 사용되는 코퍼스
뉴스 보도자료 및 웹 텍스트를 기반으로 구축된 106,264개의 예체가 포함된 대규모 관계 추출 데이터

정보 추출 접근법

규칙기반 접근법

사람이 직접 규칙을 생성
비정형 텍스트에서 언어적인 분석을 통해 표현되는 형식을 찾아 관계 튜플(규칙)을 정의
정의된 규칙을 사용하여 비정형 텍스트로부터 관계 튜플을 추출

장점

규칙의 질은 높일 수 있음

단점

실수로 인해 놓치거나 생각하지 못한 패턴이 존재할 수 있음
사람이 직접 데이터를 분석해야 하기 때문에 시간과 노력이 많이 소요됨

텍스트에서 반자동 규칙기반 구조화된 데이터 수집(출처: 자연어처리 바이블)

규칙 획득

초기 추출된 규칙은 학습 말뭉치의 특징과 개념을 기바능로 도메인 전문가에 의해 공식화된 규칙을 적용
새로운 말뭉치가 들어왔을 때 일반적인 특징을 포착해야 함

규칙 재정의

주어진 규칙을 사용하여 이를 점차적으로 조정하고 세분화
말뭉치에 대한 확장 및 변경 사항도 쉽게 포함할 수 있음

규칙 적용

지식 획득단계 이후 추출된 규칙을 적용한 구조화된 데이터를 생성(output)할 수 있음
수준 높고 낮은 정보추출을 구현할 수 있음
출력(output)은 일반적으로 속성-값(attribute-value) 쌍이 추출됨

구조화된 데이터 생성

속성-값(attribute-value) 쌍이 최종 데이터에 작성됨

기계학습기반 접근법

비정형 텍스트로부터 기계학습 알고리즘을 적용하여 직접 패턴을 발견하여 학습

적용 알고리즘 예시

HMM(Hidden Markov Model)
최대 엔트로피 모델(Maximum Entropy model)
조건부 랜덤 필드(Conditional Random Field)
나이브 베이즈(Naive Bayes) 네트워크
의사 결정 트리(Decision Tree)

References

자연어처리 바이블

728x90

저작자표시 비영리 변경금지

'NLP > NLP 시스템' 카테고리의 다른 글

[Text Annotation][Text Classification] Label Sleuth (0)	2023.08.09
Text Mining (텍스트 마이닝) (0)	2023.06.20
OCR (Optical Character Recognition) (0)	2022.08.01
[NLP] NER(Named Entity Recognition) (0)	2021.04.12

현재글[NLP] Information Extraction

댓글

데이터와 인공지능 훑어보기 데이터와 인공지능의 기본개념부터 언어 모델을 활용한 애플리케이션 개발까지 다양한 주제와 관심사를 공유하는 공간입니다.

티스토리툴바