[NLP] NER(Named Entity Recognition)

NLP/NLP 시스템

[NLP] NER(Named Entity Recognition)

데이터 세상 2021. 4. 12. 17:58

728x90

NER(Named Entity Recognition)

텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것
질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소
사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업
하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출

지도학습기반 시스템

HMM(Hidden Markov Models)
SVM(Support Vector Machines)
CRF(Conditional Random Fields)
Decision Tree

지식 기반 시스템

어휘 자원 및 도메인 별 지식에 의존하기 때문에 주석이 달린 학습 데이터를 필요로 하지 않음
사전 정보가 철저할 때에는 효과적이지만 도메인 및 언어 별 규칙과 서전의 불완전성으로 인해 recall값은 낮다
지식 자원을 구성하고 유지하기 위한 도메인 전문가가 필요

NER 평가 척도

1996년 Grishman & Sundheim이 제안

텍스트에 따라 엔티티와 상관없이 예측된 레이블이 올바른지, 레이블과 상관없이 예측된 엔티티가 올바른지의 타당성 여부를 평가하는 방식을 제안

True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)
False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)

Precision(정밀도)

모델의 예측값이 얼마나 정확하게 예측됐는가를 나타내는 지표

모델이 True라고 분류한 것 중에서 실제 True인 것의 비율

시스템이 올바르게 예측한 엔티티 수를 시스템이 예측한 수로 나눈 값

Recall(재현율)

실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표

ex) 암환자들이 병원에 갔을 때 암환자라고 예측될 확류를 구하는 것

실제 True인 것 중에서 모델이 True라고 예측한 것의 비율

시스템이 올바르게 예측한 개체수를 주석을 단 사람이 직접 식별한 수로 나눈 값

Accuracy(정확도)

모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지를 나타냄

가장 직관적으로 모델의 성능을 나타낼 수 있는 평가 지표

domain의 편중(bias)을 고려해야 하기 때문에 보안 지표 필요

전체 엔티티에 대한 예측 레이블이 해당 엔티티의 정답 레이블과 정확히 일치하는 경우

F1 score

Precision과 Recall의 조화평균
데이터의 레이블리 균일하게 분포돼 있을 때는 주로 정확도를 사용
레이블이 데이터 상에서 분균일하게 분포된 경우 F1 점수를 사용하면 정확도보다 나은 성능 평가 비교가 가능
F1 점수는 한쪽 레이블에 치우지지 않는 레이블의 전체적인 성능에 대해 올바르게 평가

relaxed f1-score

개체명 엔티티의 일부가 올바르게 식별되는 경우에도 예측이 올바른 것으로 평가

strict f1-score

예측된 정보와 사람의 주석 정보가 정확하게 일치해야만 올바르게 식별된 것으로 평가

BIO Tagging Scheme

개체명을 텍스트로부터 인식시키기 위한 기법 중 하나

정보 추출 작업에서 자주 이용되는 태깅 기법

B: Begin의 약자로 개체명 중 시작을 나타내는 단어에 태그
I: Inside의 약자로 B 혹은 I 개체명의 뒤에 오는 단어를 태그
O: Outside의 약자로, 개체명이 아닌 나머지 단어에 대해 태그

New York
- New, B-LOC
- York, I-LOC

학습 Corpus

CoNLL2002, CoNLL2003

newswire 기사로부터 작성된 4가지 언어(스페인어, 네덜란드어, 영어 및 독일어)에 대해 사람-PER(person), 장소-LOC(location), 조직-ORG(organization), 기타-MISC(miscellaneous)에 해당되는 4가지 개체명으로 태그된 말뭉치

References

728x90

저작자표시 비영리 변경금지 (새창열림)

'NLP > NLP 시스템' 카테고리의 다른 글

[Text Annotation][Text Classification] Label Sleuth (0)	2023.08.09
Text Mining (텍스트 마이닝) (0)	2023.06.20
OCR (Optical Character Recognition) (0)	2022.08.01
[NLP] Information Extraction (0)	2021.04.13

현재글[NLP] NER(Named Entity Recognition)

데이터와 인공지능 훑어보기