반응형

NLP 37

[NLP] 자연어 처리를 위한 수학

확률의 기초 확률 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것 표본 공간 사건에서 발생할 수 있는 모든 경우 확률 변수 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수 P(X=사건)=확률 이산 확률 변수(discrete random variables) 확률 변수가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 공장에서 발생하는 불량품의 개수, 한해 동안 발생하 교통사고 횟수 등 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 확률을 나타내는 함수 이산 확률 분포(discrete probability distribution) 확률 변수가 이산 확률 변수인 경우 확률 질량 함수(probability mass function) 이산 확률 ..

NLP/NLP 기초 2021.04.11

[NLP] Doc2Vec

Doc2Vec 개념 및 방법 개념 Word2Vec에 이어 구글 연구팀이 개발한 문서 임베딩 기법(Le&Mikolov, 2014) 타겟 단어와 이전 단어 k 개가 주어졌을 때, 이전 단어들 + 해당 문서의 아이디로 타겟 단어를 예측하는 과정에서 문맥이 비슷한 문서 벡터와 단어 벡터가 유사하게(코사인 유사도) 임베딩 문장 전체를 처음부터 끝까지 한 단어씩 슬라이딩해 가면서 다음 단어가 무엇일지 예측 PV-DM(The Distributed Memory Model of Paragraph Vectors) 단어 등장 순서를 고려하는 방식으로 학습하기 때문에 순서 정보를 무시하는 백오브워즈 기법 대비 강점이 있다고 주장 paragraph_1 이라는 문서에서 the cat sat on the mat 라는 문장이 있을 ..

NLP/Embedding 2021.04.08

[NLP] Semantic Analysis

단어 의미 중의성 중의성 언어 표현에서 둘 이상의 의미를 가지는 표현들 어휘적 중의성 다의어에 의한 중의성 하나의 단어가 주변 문맥이나 상황에 따라 다른 의미들로 해석되는 것 "손 좀 보자" 동음어에 의한 중의성 문장 주변의 문맥정보가 동일하지만, 상황에 따라 다른 의미로 해석되는 것 "밤이 좋다" 구조적 중의성 문장을 이루고 있는 어휘 간의 관계에 따라 여러 의미로 해석되는 것 "부유한 철수와 영희가 명품매장을 갔다." (부유한이 철수인지 철수와 영희인지..?, 각자인지 함께 가는지..?) 중의성 해소 기법 단어 중의성 해소 기법(Word Sense Disambiguation) 문장 내 중의성을 가지는 어휘를 사전에 정의된 의미와 매칭하여 어휘적 중의성을 해결하는 문제 지식기반 방법 문장에 등장한 단어..

NLP/NLP 기초 2021.04.05

[NLP] Syntactic Analysis

구문 분석(Syntactic Analysis) 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출 기계 번역, 정보 검색, 전문가 시스템에서 문장 의미의 분석을 돕는 세부 기술로 활용 목표 자연어 문장의 문법적 구조를 구문 문법에 따라 자동으로 분석하는 것 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방법 장점 미리 정의된 문법 규칙을 적용할 수 있는 문장에 대해서는 정확한 의존 분석이 가능 한계 적용할 문법 규칙을 미리 정의하기 위한 시간과 비용 문제 발생 언어학에 대한 전문성을 가진 노동력이 요구 수동으로 정의되지 않은 문법 규칙에 대해서는 구문 분석 불가능 자연어 중의성 처리 문제 발생 통계 기반 구문 분석 확률적..

NLP/NLP 기초 2021.04.05

[NLP] Lexical Analysis

어휘 분석(Lexical Analysis) 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구 어휘: 어휘적 의미의 기본 단위 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악 형태소 분석(Morpholigical Analysis) 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 3가지 단어에서 최소 의미를 포함하는 형태소를 분리 형태소 분석의 처리 대상은 어절(또는 단어) 형태론적 변형이 일어난 형태소의 원형 복원 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택 영..

NLP/NLP 기초 2021.04.05

[NLP] 언어학의 기본 원리

언어를 이루는 단위 음절(Syllable) 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 한국어 음절 초성: 가장 처음에 오는 소리, 자음 중성: 가운데 소리, 모음 종성: 마지막 소리, 자음 자연어처리에서는 편의를 위해 한 글자 단위를 음절이라고 함 이 문장에서 음절은 몇개일까? : 12개의 음절 형태소(Morpheme) 언어에서 의미를 가지는 가장 작은 단위 실질적인 의미 유무에 따른 구분 명사, 동사, 형용사, 부사 실질 형태소(어휘 형태소) 실질적인 의미를 갖는 형태소 형식 형태소(문법 형태소) 문법적인 기능을 하는 형태소 자립성의 유무에 따른 구분 명사, 대명사, 수사, 관형사, 부사, 감탄사 자립형태소 문장에서 홀로 쓰일 수 있음 의존형태소 다른 형태소와 결합되어 사용 이형태(All..

NLP/NLP 기초 2021.04.05

[NLP] Corpus

Corpus 말뭉치 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함 Corpus 구축 데이터의 품질에 학습된 모델의 성능이 크게 영향받기 때문에 코퍼스를 잘 구축하는 것은 매우 중요 엄격한 기준에 따라 양질의 문장만을 엄선 목적에 따라서는 문장에 적절히 가공이나 처리를 추가

NLP/NLP 기초 2021.04.05

[NLP] 자연어 처리 난제

언어의 중의성 언어의 중의성 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것 규칙의 예외 언어의 규칙 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것 ex) 한국어 형태소의 "-었-"이 있으면 과거형인 것 반복 단어를 비슷한 의미로 잘못 유추하는 경우 보슬비 보슬(바람없이 조용히 내리는)이라는 의미에서 보슬의 의미를 정의 "보슬눈"을 보슬비의 기준으로 의미 추출시 오류 발생(보슬눈은 존재하지 않는 단어) 여러 단어여 모여 내포 뜻이 달라지는 숙어 hit the sack: 잠들다의 숙어 hit: 때리다 sack: 자루 단어 하나 하나의 의미로 해석하면 자루를 치다로 오역할 수 있음 언어의 유연성과 확장성 언어는 매우 유연하고 확장 가능하다 유연한 단어와 소리를 조합하여 만..

NLP/NLP 기초 2021.04.05

[NLP] Khaii

카이(Khaiii) Kakao Hangul Analyzer III 국립국어원이 구축한 세종 corpus를 이용해 CNN 모델을 적용해 학습 C++로 구현해 GPU 없이도 형태소 분석이 가능하며 실행 속도 빠름 http://tech.kakao.com/2018/12/13/khaii kakao의 오픈소스 Ep9 - Khaiii : 카카오의 딥러닝 기반 형태소 분석기 “카카오의 오픈소스를 소개합니다” 아홉 번째는 jamie.lim과 자연어 처리 파트 동료들이 함께 개발한 khaiii(Kakao Hangul Analyzer III)입니다. khaiii는 세종 코퍼스를 이용하여 CNN(Convolutional Neural Network, tech.kakao.com 입력 문장을 문자 단위로 읽어 들인 뒤 convol..

NLP/KoNLPy 2021.03.18

[NLP] Okt

Okt(Open Korean Text) twitter에서 만든 오픈소스 한국어 처리기 twitter-korean-text를 이어받아 만들고 있는 프로젝트 github.com/open-korean-text/open-korean-text open-korean-text/open-korean-text Open Korean Text Processor - An Open-source Korean Text Processor - open-korean-text/open-korean-text github.com okt.morphs(norm=False, stem=False) 텍스트를 형태소 단위로 나눔 norm normalize 문장을 정규화 stem 각 단어에서 어간을 추출하는 기능 okt.nouns() 텍스트에서 명사만 ..

NLP/KoNLPy 2021.03.18

[NLP] Data Preprocessing

Data Preprocessing 문장 부호 제거 불용어 제거 단어 최대 길이 설정 단어 패딩 벡터 표상화 불용어 제거 문장에서 자주 출현하나 전체적인 의미에 큰 영향을 주지 않는 단어 영어에서는 조사, 관사 등과 같은 어휘 불용어가 포함된 데이터 모델링 시 노이즈를 줄일 수 있는 경우 불용어 제거가 좋음 데이터가 많고 문장 구문에 대한 전체적인 패턴을 모델링하고자 하는 경우에는 역효과 날 수 있음 불용어 제거 전에는 영문의 경우 모든 단어를 소문자로 변경 후 처리 필요 import re from nltk.corpus import stopwords # 영어 불용어 set을 만든다 stop_words = set(stopwords.words('english')) # 영어가 아닌 특수문자를 공백으로 치환 do..

NLP/NLP 기초 2021.03.15

[NLP] 텍스트 전처리

텍스트 전처리 비정형 데이터(Unstructured Data) 일정한 규격이나 형태를 지닌 숫자 데이터(Numeric Data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화되지 않은 데이터 전처리 비정형 데이터를 정형화하는 과정 텍스트 문서 변환 파일로부터 텍스트를 추출하는 것 문서: docs, hwp, html, pdf 문서 파일을 문서로 바꾸는 작업 텍스트 내의 입력 문자열은 오로지 목표 어위 언어의 문자만 남아야 함 특수 문자 및 불필요한 타 언어 문자 제거 필요 특수 문자 제거 문장과 관련이 없는 특수 커맨드 또는 코딩을 규칙적으로 제거 텍스트를 문장단위로 줄 바꿈 요소 변경(마침표로 문장 구분 등) 띄어쓰기 교정 띄어쓰기는 단어의 의미 분할 및 전달과 함께 매우 중요 띄어쓰기의 용..

NLP/NLP 기초 2021.03.15

[NLP] Kaggle

Kaggle(캐글) 2010년 설립된 예측모델 및 분석 대회 플랫폼 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁 opendatascience.com/10-tips-to-get-started-with-kaggle/ 10 Tips to Get Started with Kaggle Kaggle is a well-known community website for data scientists to compete in machine learning challenges. Competitive machine learning can be a great way to hone your skills, as well as demonstrate your skills. In ..

NLP/NLP 기초 2021.03.15

EDA(Exploratory Data Analysis)

EDA(Exploratory Data Analysis) 탐색적 데이터 분석 정해진 틀 없이 데이터에 대해 최대한 많은 정보를 추출 데이터에 대한 정보 데이터의 평균값, 중앙값, 최솟값, 최댓값, 범위 분포, 이상치(outlier) 등 데이터 변수 간의 관계, Null 값과 같은 결측값(missing value) 존재 유무 등을 파악 데이터를 분석할 때는 분석가의 선입견을 철저하게 배제하고 데이터가 부여주는 수치만으로 분석을 진행해야 한다

NLP/NLP 기초 2021.03.15

[NLP] Machine Comprehension

Machine Comprehension 기계가 텍스트를 이해하고 논리적 추론을 할 수 있는지 데이터 학습을 통해 보는 것 기계가 어떤 텍스트에 대한 정보를 학습하고 사용자가 질의를 던졌을 때 그에 대해 응답하는 문제 Dataset 바비(bAbI) 페이스북 AI 연구팀에서 기계가 데이터를 통해 학습해서 텍스트를 이해하고 추론하는 목적으로 만들어진 데이터셋 시간 순서대로 나열된 텍스트 문장 정보와 그에 대한 질문으로 구성되어 텍스트 정보에 대해 질문을 던지고 응답하는 형태 20가지 분류의 질문 내용으로 구성 SQuAD(Stanford Question Answering Dataset) 기계 이해 태스크에서 가장 유명한 데이터셋 중 하나 스탠퍼드 자연어 처리 연구실에서 만든 데이터셋 위키피디아에 있는 내용을 크..

NLP/NLP 기초 2021.03.15
728x90
반응형