반응형

NLP/NLP 기초 18

[NLP][논문리뷰] Distilling the Knowledge in a Neural Network

Distilling the Knowledge in a Neural Network 논문링크: https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural Network A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome arxiv.org Kn..

NLP/NLP 기초 2023.06.13

[NLP] Natural Language Processing (자연어 처리)

Natural Language Processing (자연어 처리) 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술 자연어 이해, NLU(Natural Language Understanding) 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것 자연어 생성, NLG(Natural Language Generation) 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술 자연어 처리 단계 Corpus (말뭉치) 특정한 목적을 가지고 수집한 자연어 데이터. 수많은 ..

NLP/NLP 기초 2023.03.07

PII (Personally Identifiable Information, 개인 식별 정보)

PII (Personally Identifiable Information, 개인 식별 정보) 잠재적으로 특정 개인을 식별할 수 있는 모든 데이터 한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주 사람으로 개인으로 고유하게 식별할 수 있는 모든 정보 name address email telephone number date of birth passport number fingerprint driver's license number credit or debit card number Social Security number References https://www.techtarget.com/searchsecurity/defin..

NLP/NLP 기초 2022.12.13

[NLP] Gensim

Gensim Python library for topic modelling, document indexing and similarity retrieval with large corpora 자연어 처리를 위한 python 패키지 Topic modeling 에 자주 이용되는 Latent Dirichlet Allocation(LDA) 이나 Random Projection(RP) 와 같은 방법들이 구현되어 있는 Python 라이브러리 Version 업데이트 되면서 Word2Vec 과 Doc2Vec 같은 embedding 방법들도 포함 pypi.org/project/gensim/ gensim Python framework for fast Vector Space Modelling pypi.org Gensim 설치 ..

NLP/NLP 기초 2021.04.11

[NLP] 자연어 처리를 위한 수학

확률의 기초 확률 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것 표본 공간 사건에서 발생할 수 있는 모든 경우 확률 변수 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수 P(X=사건)=확률 이산 확률 변수(discrete random variables) 확률 변수가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 공장에서 발생하는 불량품의 개수, 한해 동안 발생하 교통사고 횟수 등 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 확률을 나타내는 함수 이산 확률 분포(discrete probability distribution) 확률 변수가 이산 확률 변수인 경우 확률 질량 함수(probability mass function) 이산 확률 ..

NLP/NLP 기초 2021.04.11

[NLP] Semantic Analysis

단어 의미 중의성 중의성 언어 표현에서 둘 이상의 의미를 가지는 표현들 어휘적 중의성 다의어에 의한 중의성 하나의 단어가 주변 문맥이나 상황에 따라 다른 의미들로 해석되는 것 "손 좀 보자" 동음어에 의한 중의성 문장 주변의 문맥정보가 동일하지만, 상황에 따라 다른 의미로 해석되는 것 "밤이 좋다" 구조적 중의성 문장을 이루고 있는 어휘 간의 관계에 따라 여러 의미로 해석되는 것 "부유한 철수와 영희가 명품매장을 갔다." (부유한이 철수인지 철수와 영희인지..?, 각자인지 함께 가는지..?) 중의성 해소 기법 단어 중의성 해소 기법(Word Sense Disambiguation) 문장 내 중의성을 가지는 어휘를 사전에 정의된 의미와 매칭하여 어휘적 중의성을 해결하는 문제 지식기반 방법 문장에 등장한 단어..

NLP/NLP 기초 2021.04.05

[NLP] Syntactic Analysis

구문 분석(Syntactic Analysis) 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출 기계 번역, 정보 검색, 전문가 시스템에서 문장 의미의 분석을 돕는 세부 기술로 활용 목표 자연어 문장의 문법적 구조를 구문 문법에 따라 자동으로 분석하는 것 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방법 장점 미리 정의된 문법 규칙을 적용할 수 있는 문장에 대해서는 정확한 의존 분석이 가능 한계 적용할 문법 규칙을 미리 정의하기 위한 시간과 비용 문제 발생 언어학에 대한 전문성을 가진 노동력이 요구 수동으로 정의되지 않은 문법 규칙에 대해서는 구문 분석 불가능 자연어 중의성 처리 문제 발생 통계 기반 구문 분석 확률적..

NLP/NLP 기초 2021.04.05

[NLP] Lexical Analysis

어휘 분석(Lexical Analysis) 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구 어휘: 어휘적 의미의 기본 단위 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악 형태소 분석(Morpholigical Analysis) 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 3가지 단어에서 최소 의미를 포함하는 형태소를 분리 형태소 분석의 처리 대상은 어절(또는 단어) 형태론적 변형이 일어난 형태소의 원형 복원 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택 영..

NLP/NLP 기초 2021.04.05

[NLP] 언어학의 기본 원리

언어를 이루는 단위 음절(Syllable) 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 한국어 음절 초성: 가장 처음에 오는 소리, 자음 중성: 가운데 소리, 모음 종성: 마지막 소리, 자음 자연어처리에서는 편의를 위해 한 글자 단위를 음절이라고 함 이 문장에서 음절은 몇개일까? : 12개의 음절 형태소(Morpheme) 언어에서 의미를 가지는 가장 작은 단위 실질적인 의미 유무에 따른 구분 명사, 동사, 형용사, 부사 실질 형태소(어휘 형태소) 실질적인 의미를 갖는 형태소 형식 형태소(문법 형태소) 문법적인 기능을 하는 형태소 자립성의 유무에 따른 구분 명사, 대명사, 수사, 관형사, 부사, 감탄사 자립형태소 문장에서 홀로 쓰일 수 있음 의존형태소 다른 형태소와 결합되어 사용 이형태(All..

NLP/NLP 기초 2021.04.05

[NLP] Corpus

Corpus 말뭉치 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함 Corpus 구축 데이터의 품질에 학습된 모델의 성능이 크게 영향받기 때문에 코퍼스를 잘 구축하는 것은 매우 중요 엄격한 기준에 따라 양질의 문장만을 엄선 목적에 따라서는 문장에 적절히 가공이나 처리를 추가

NLP/NLP 기초 2021.04.05

[NLP] 자연어 처리 난제

언어의 중의성 언어의 중의성 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것 규칙의 예외 언어의 규칙 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것 ex) 한국어 형태소의 "-었-"이 있으면 과거형인 것 반복 단어를 비슷한 의미로 잘못 유추하는 경우 보슬비 보슬(바람없이 조용히 내리는)이라는 의미에서 보슬의 의미를 정의 "보슬눈"을 보슬비의 기준으로 의미 추출시 오류 발생(보슬눈은 존재하지 않는 단어) 여러 단어여 모여 내포 뜻이 달라지는 숙어 hit the sack: 잠들다의 숙어 hit: 때리다 sack: 자루 단어 하나 하나의 의미로 해석하면 자루를 치다로 오역할 수 있음 언어의 유연성과 확장성 언어는 매우 유연하고 확장 가능하다 유연한 단어와 소리를 조합하여 만..

NLP/NLP 기초 2021.04.05

[NLP] Data Preprocessing

Data Preprocessing 문장 부호 제거 불용어 제거 단어 최대 길이 설정 단어 패딩 벡터 표상화 불용어 제거 문장에서 자주 출현하나 전체적인 의미에 큰 영향을 주지 않는 단어 영어에서는 조사, 관사 등과 같은 어휘 불용어가 포함된 데이터 모델링 시 노이즈를 줄일 수 있는 경우 불용어 제거가 좋음 데이터가 많고 문장 구문에 대한 전체적인 패턴을 모델링하고자 하는 경우에는 역효과 날 수 있음 불용어 제거 전에는 영문의 경우 모든 단어를 소문자로 변경 후 처리 필요 import re from nltk.corpus import stopwords # 영어 불용어 set을 만든다 stop_words = set(stopwords.words('english')) # 영어가 아닌 특수문자를 공백으로 치환 do..

NLP/NLP 기초 2021.03.15

[NLP] 텍스트 전처리

텍스트 전처리 비정형 데이터(Unstructured Data) 일정한 규격이나 형태를 지닌 숫자 데이터(Numeric Data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화되지 않은 데이터 전처리 비정형 데이터를 정형화하는 과정 텍스트 문서 변환 파일로부터 텍스트를 추출하는 것 문서: docs, hwp, html, pdf 문서 파일을 문서로 바꾸는 작업 텍스트 내의 입력 문자열은 오로지 목표 어위 언어의 문자만 남아야 함 특수 문자 및 불필요한 타 언어 문자 제거 필요 특수 문자 제거 문장과 관련이 없는 특수 커맨드 또는 코딩을 규칙적으로 제거 텍스트를 문장단위로 줄 바꿈 요소 변경(마침표로 문장 구분 등) 띄어쓰기 교정 띄어쓰기는 단어의 의미 분할 및 전달과 함께 매우 중요 띄어쓰기의 용..

NLP/NLP 기초 2021.03.15

[NLP] Kaggle

Kaggle(캐글) 2010년 설립된 예측모델 및 분석 대회 플랫폼 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁 opendatascience.com/10-tips-to-get-started-with-kaggle/ 10 Tips to Get Started with Kaggle Kaggle is a well-known community website for data scientists to compete in machine learning challenges. Competitive machine learning can be a great way to hone your skills, as well as demonstrate your skills. In ..

NLP/NLP 기초 2021.03.15
728x90
반응형