반응형

자연어처리 바이블 6

[NLP] Information Extraction

정보추출(Information Extraction, IE) 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음 (엔티티 1, 엔티티 2) 정보추출의 목적 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별 구조화된 엔티티를 데이터베이스 등에 저장하는 것 정보추출의 한계 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함 수작업으로 인한 시간과 ..

NLP/NLP 시스템 2021.04.13

[NLP] NER(Named Entity Recognition)

NER(Named Entity Recognition) 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출 지도학습기반 시스템 HMM(Hidden Markov Models) SVM(Support Vector Machines) CRF(Conditional Random Fields) Decision Tree..

NLP/NLP 시스템 2021.04.12

[NLP] Syntactic Analysis

구문 분석(Syntactic Analysis) 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출 기계 번역, 정보 검색, 전문가 시스템에서 문장 의미의 분석을 돕는 세부 기술로 활용 목표 자연어 문장의 문법적 구조를 구문 문법에 따라 자동으로 분석하는 것 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방법 장점 미리 정의된 문법 규칙을 적용할 수 있는 문장에 대해서는 정확한 의존 분석이 가능 한계 적용할 문법 규칙을 미리 정의하기 위한 시간과 비용 문제 발생 언어학에 대한 전문성을 가진 노동력이 요구 수동으로 정의되지 않은 문법 규칙에 대해서는 구문 분석 불가능 자연어 중의성 처리 문제 발생 통계 기반 구문 분석 확률적..

NLP/NLP 기초 2021.04.05

[NLP] Lexical Analysis

어휘 분석(Lexical Analysis) 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구 어휘: 어휘적 의미의 기본 단위 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악 형태소 분석(Morpholigical Analysis) 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 3가지 단어에서 최소 의미를 포함하는 형태소를 분리 형태소 분석의 처리 대상은 어절(또는 단어) 형태론적 변형이 일어난 형태소의 원형 복원 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택 영..

NLP/NLP 기초 2021.04.05

[NLP] 언어학의 기본 원리

언어를 이루는 단위 음절(Syllable) 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 한국어 음절 초성: 가장 처음에 오는 소리, 자음 중성: 가운데 소리, 모음 종성: 마지막 소리, 자음 자연어처리에서는 편의를 위해 한 글자 단위를 음절이라고 함 이 문장에서 음절은 몇개일까? : 12개의 음절 형태소(Morpheme) 언어에서 의미를 가지는 가장 작은 단위 실질적인 의미 유무에 따른 구분 명사, 동사, 형용사, 부사 실질 형태소(어휘 형태소) 실질적인 의미를 갖는 형태소 형식 형태소(문법 형태소) 문법적인 기능을 하는 형태소 자립성의 유무에 따른 구분 명사, 대명사, 수사, 관형사, 부사, 감탄사 자립형태소 문장에서 홀로 쓰일 수 있음 의존형태소 다른 형태소와 결합되어 사용 이형태(All..

NLP/NLP 기초 2021.04.05

[NLP] 자연어 처리 난제

언어의 중의성 언어의 중의성 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것 규칙의 예외 언어의 규칙 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것 ex) 한국어 형태소의 "-었-"이 있으면 과거형인 것 반복 단어를 비슷한 의미로 잘못 유추하는 경우 보슬비 보슬(바람없이 조용히 내리는)이라는 의미에서 보슬의 의미를 정의 "보슬눈"을 보슬비의 기준으로 의미 추출시 오류 발생(보슬눈은 존재하지 않는 단어) 여러 단어여 모여 내포 뜻이 달라지는 숙어 hit the sack: 잠들다의 숙어 hit: 때리다 sack: 자루 단어 하나 하나의 의미로 해석하면 자루를 치다로 오역할 수 있음 언어의 유연성과 확장성 언어는 매우 유연하고 확장 가능하다 유연한 단어와 소리를 조합하여 만..

NLP/NLP 기초 2021.04.05
728x90
반응형