728x90
반응형
NER(Named Entity Recognition)
- 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것
- 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소
- 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업
- 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출
지도학습기반 시스템
- HMM(Hidden Markov Models)
- SVM(Support Vector Machines)
- CRF(Conditional Random Fields)
- Decision Tree
지식 기반 시스템
- 어휘 자원 및 도메인 별 지식에 의존하기 때문에 주석이 달린 학습 데이터를 필요로 하지 않음
- 사전 정보가 철저할 때에는 효과적이지만 도메인 및 언어 별 규칙과 서전의 불완전성으로 인해 recall값은 낮다
- 지식 자원을 구성하고 유지하기 위한 도메인 전문가가 필요
NER 평가 척도
1996년 Grishman & Sundheim이 제안
텍스트에 따라 엔티티와 상관없이 예측된 레이블이 올바른지, 레이블과 상관없이 예측된 엔티티가 올바른지의 타당성 여부를 평가하는 방식을 제안
- True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
- True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)
- False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
- False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)
Precision(정밀도)
모델의 예측값이 얼마나 정확하게 예측됐는가를 나타내는 지표
- 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율
- 시스템이 올바르게 예측한 엔티티 수를 시스템이 예측한 수로 나눈 값
Recall(재현율)
실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표
ex) 암환자들이 병원에 갔을 때 암환자라고 예측될 확류를 구하는 것
- 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
- 시스템이 올바르게 예측한 개체수를 주석을 단 사람이 직접 식별한 수로 나눈 값
Accuracy(정확도)
모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지를 나타냄
가장 직관적으로 모델의 성능을 나타낼 수 있는 평가 지표
domain의 편중(bias)을 고려해야 하기 때문에 보안 지표 필요
- 전체 엔티티에 대한 예측 레이블이 해당 엔티티의 정답 레이블과 정확히 일치하는 경우
F1 score
- Precision과 Recall의 조화평균
- 데이터의 레이블리 균일하게 분포돼 있을 때는 주로 정확도를 사용
- 레이블이 데이터 상에서 분균일하게 분포된 경우 F1 점수를 사용하면 정확도보다 나은 성능 평가 비교가 가능
- F1 점수는 한쪽 레이블에 치우지지 않는 레이블의 전체적인 성능에 대해 올바르게 평가
relaxed f1-score
- 개체명 엔티티의 일부가 올바르게 식별되는 경우에도 예측이 올바른 것으로 평가
strict f1-score
- 예측된 정보와 사람의 주석 정보가 정확하게 일치해야만 올바르게 식별된 것으로 평가
BIO Tagging Scheme
개체명을 텍스트로부터 인식시키기 위한 기법 중 하나
정보 추출 작업에서 자주 이용되는 태깅 기법
- B: Begin의 약자로 개체명 중 시작을 나타내는 단어에 태그
- I: Inside의 약자로 B 혹은 I 개체명의 뒤에 오는 단어를 태그
- O: Outside의 약자로, 개체명이 아닌 나머지 단어에 대해 태그
- New York
- New, B-LOC
- York, I-LOC
학습 Corpus
CoNLL2002, CoNLL2003
newswire 기사로부터 작성된 4가지 언어(스페인어, 네덜란드어, 영어 및 독일어)에 대해 사람-PER(person), 장소-LOC(location), 조직-ORG(organization), 기타-MISC(miscellaneous)에 해당되는 4가지 개체명으로 태그된 말뭉치
References
728x90
반응형
'NLP > NLP 시스템' 카테고리의 다른 글
[Text Annotation][Text Classification] Label Sleuth (0) | 2023.08.09 |
---|---|
Text Mining (텍스트 마이닝) (0) | 2023.06.20 |
OCR (Optical Character Recognition) (0) | 2022.08.01 |
[NLP] Information Extraction (0) | 2021.04.13 |