NLP/NLP 시스템

[NLP] NER(Named Entity Recognition)

데이터 세상 2021. 4. 12. 17:58

NER(Named Entity Recognition)

  • 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것
  • 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소
  • 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업
  • 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출

지도학습기반 시스템

  • HMM(Hidden Markov Models)
  • SVM(Support Vector Machines)
  • CRF(Conditional Random Fields)
  • Decision Tree

지식 기반 시스템

  • 어휘 자원 및 도메인 별 지식에 의존하기 때문에 주석이 달린 학습 데이터를 필요로 하지 않음
  • 사전 정보가 철저할 때에는 효과적이지만 도메인 및 언어 별 규칙과 서전의 불완전성으로 인해 recall값은 낮다
  • 지식 자원을 구성하고 유지하기 위한 도메인 전문가가 필요

NER 평가 척도

1996년 Grishman & Sundheim이 제안

텍스트에 따라 엔티티와 상관없이 예측된 레이블이 올바른지, 레이블과 상관없이 예측된 엔티티가 올바른지의 타당성 여부를 평가하는 방식을 제안

 

  • True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
  • True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)
  • False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
  • False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)

Precision(정밀도)

모델의 예측값이 얼마나 정확하게 예측됐는가를 나타내는 지표

  • 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율

 

  • 시스템이 올바르게 예측한 엔티티 수를 시스템이 예측한 수로 나눈 값

Recall(재현율)

실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표

ex) 암환자들이 병원에 갔을 때 암환자라고 예측될 확류를 구하는 것

  • 제 True인 것 중에서 모델이 True라고 예측한 것의 비율

 

  • 시스템이 올바르게 예측한 개체수를 주석을 단 사람이 직접 식별한 수로 나눈 값

Accuracy(정확도)

모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지를 나타냄

가장 직관적으로 모델의 성능을 나타낼 수 있는 평가 지표

domain의 편중(bias)을 고려해야 하기 때문에 보안 지표 필요

 

  • 전체 엔티티에 대한 예측 레이블이 해당 엔티티의 정답 레이블과 정확히 일치하는 경우

F1 score

  • Precision과 Recall의 조화평균
  • 데이터의 레이블리 균일하게 분포돼 있을 때는 주로 정확도를 사용
  • 레이블이 데이터 상에서 분균일하게 분포된 경우 F1 점수를 사용하면 정확도보다 나은 성능 평가 비교가 가능
  • F1 점수는 한쪽 레이블에 치우지지 않는 레이블의 전체적인 성능에 대해 올바르게 평가

relaxed f1-score

  • 개체명 엔티티의 일부가 올바르게 식별되는 경우에도 예측이 올바른 것으로 평가

strict f1-score

  • 예측된 정보와 사람의 주석 정보가 정확하게 일치해야만 올바르게 식별된 것으로 평가

 

BIO Tagging Scheme

개체명을 텍스트로부터 인식시키기 위한 기법 중 하나

정보 추출 작업에서 자주 이용되는 태깅 기법

  • B: Begin의 약자로 개체명 중 시작을 나타내는 단어에 태그
  • I: Inside의 약자로 B 혹은 I 개체명의 뒤에 오는 단어를 태그
  • O: Outside의 약자로, 개체명이 아닌 나머지 단어에 대해 태그
  • New York
    • New, B-LOC
    • York, I-LOC

 

학습 Corpus

CoNLL2002, CoNLL2003

newswire 기사로부터 작성된 4가지 언어(스페인어, 네덜란드어, 영어 및 독일어)에 대해 사람-PER(person), 장소-LOC(location), 조직-ORG(organization), 기타-MISC(miscellaneous)에 해당되는 4가지 개체명으로 태그된 말뭉치

 

 


References

반응형

'NLP > NLP 시스템' 카테고리의 다른 글

[Text Annotation][Text Classification] Label Sleuth  (0) 2023.08.09
Text Mining (텍스트 마이닝)  (0) 2023.06.20
OCR (Optical Character Recognition)  (0) 2022.08.01
[NLP] Information Extraction  (0) 2021.04.13