728x90
반응형
정보추출(Information Extraction, IE)
- 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요
- 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음
- (엔티티 1, 엔티티 2)
정보추출의 목적
- 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠
- 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별
- 구조화된 엔티티를 데이터베이스 등에 저장하는 것
정보추출의 한계
- 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요
- 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함
- 수작업으로 인한 시간과 비용이 많이 소비됨
정보추출 한계 개선
- 적은 수의 태깅된 정의로 추출 패턴을 파악하여 Unsupervised 방법으로 학습하는 등의 연구 방법이 제안되고 있음
정보추출의 학습 방법
엔티티 추출
- 정의된 정보(패턴)을 기준으로 해당 엔티티들을 확인하기 위해 진행
- 엔티티에 대한 라벨을 지정
- ex) NER(Named Entity Recognition)을 활용하여 인명(person), 지명(location), 기관명(organization), 시간(time) 등으로 분류하여 엔티티 추출
관계 추출
- 술어, 주체, 객체에 대한 관계를 파악하기 위해 텍스트에서 서로 가까이 있는 엔티티 쌍 사이의 특정 패턴을 검색하여 관계 결과를 튜플 형식으로 출력
- ex) ([ORG: '서울대학교'], 'in', [LOC: '서울'])
NER(Named Entity Recognition)
상호 참조(Co-reference Resolution)
관계 추출(Relation Extraction)
- 각각의 엔티티에 연결한느 엔티티 유형과 함께 감지하여 둘 사이의 관계 유형을 추출
- 관계 추출은 특정한 방법론이 정해져 있지 않고 Corpus에 맞는 방법론을 사용
TACRED
- TAC KBP(Tac Knowledge Base Population) 과제에 사용되는 코퍼스
- 뉴스 보도자료 및 웹 텍스트를 기반으로 구축된 106,264개의 예체가 포함된 대규모 관계 추출 데이터
정보 추출 접근법
규칙기반 접근법
- 사람이 직접 규칙을 생성
- 비정형 텍스트에서 언어적인 분석을 통해 표현되는 형식을 찾아 관계 튜플(규칙)을 정의
- 정의된 규칙을 사용하여 비정형 텍스트로부터 관계 튜플을 추출
장점
- 규칙의 질은 높일 수 있음
단점
- 실수로 인해 놓치거나 생각하지 못한 패턴이 존재할 수 있음
- 사람이 직접 데이터를 분석해야 하기 때문에 시간과 노력이 많이 소요됨
규칙 획득
- 초기 추출된 규칙은 학습 말뭉치의 특징과 개념을 기바능로 도메인 전문가에 의해 공식화된 규칙을 적용
- 새로운 말뭉치가 들어왔을 때 일반적인 특징을 포착해야 함
규칙 재정의
- 주어진 규칙을 사용하여 이를 점차적으로 조정하고 세분화
- 말뭉치에 대한 확장 및 변경 사항도 쉽게 포함할 수 있음
규칙 적용
- 지식 획득단계 이후 추출된 규칙을 적용한 구조화된 데이터를 생성(output)할 수 있음
- 수준 높고 낮은 정보추출을 구현할 수 있음
- 출력(output)은 일반적으로 속성-값(attribute-value) 쌍이 추출됨
구조화된 데이터 생성
- 속성-값(attribute-value) 쌍이 최종 데이터에 작성됨
기계학습기반 접근법
- 비정형 텍스트로부터 기계학습 알고리즘을 적용하여 직접 패턴을 발견하여 학습
적용 알고리즘 예시
- HMM(Hidden Markov Model)
- 최대 엔트로피 모델(Maximum Entropy model)
- 조건부 랜덤 필드(Conditional Random Field)
- 나이브 베이즈(Naive Bayes) 네트워크
- 의사 결정 트리(Decision Tree)
References
728x90
반응형
'NLP > NLP 시스템' 카테고리의 다른 글
[Text Annotation][Text Classification] Label Sleuth (0) | 2023.08.09 |
---|---|
Text Mining (텍스트 마이닝) (0) | 2023.06.20 |
OCR (Optical Character Recognition) (0) | 2022.08.01 |
[NLP] NER(Named Entity Recognition) (0) | 2021.04.12 |