반응형

분류 전체보기 297

[NLP] 자연어 처리를 위한 수학

확률의 기초 확률 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것 표본 공간 사건에서 발생할 수 있는 모든 경우 확률 변수 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수 P(X=사건)=확률 이산 확률 변수(discrete random variables) 확률 변수가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 공장에서 발생하는 불량품의 개수, 한해 동안 발생하 교통사고 횟수 등 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 확률을 나타내는 함수 이산 확률 분포(discrete probability distribution) 확률 변수가 이산 확률 변수인 경우 확률 질량 함수(probability mass function) 이산 확률 ..

NLP/NLP 기초 2021.04.11

[Language Model] T5(Text-to-Text Transfer Transformer)

Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필요 XLNet, RoBERTa, MT-DNN, T5 2. Transformer 구현체를 축소시키면서 성능 손실을 막고 서비스가 가능한 형태로 어떻게 바꿀까? Quantization, Pruning, Knowledge Distillation T5(Text-to-Text Transfer Transformer) Google, 2020, 110억 파라미터 통합 텍스트-텍스트 트랜스포머 전송 학습의 한계 탐구(Exploring the Limits of Transfe..

[NLP] Doc2Vec

Doc2Vec 개념 및 방법 개념 Word2Vec에 이어 구글 연구팀이 개발한 문서 임베딩 기법(Le&Mikolov, 2014) 타겟 단어와 이전 단어 k 개가 주어졌을 때, 이전 단어들 + 해당 문서의 아이디로 타겟 단어를 예측하는 과정에서 문맥이 비슷한 문서 벡터와 단어 벡터가 유사하게(코사인 유사도) 임베딩 문장 전체를 처음부터 끝까지 한 단어씩 슬라이딩해 가면서 다음 단어가 무엇일지 예측 PV-DM(The Distributed Memory Model of Paragraph Vectors) 단어 등장 순서를 고려하는 방식으로 학습하기 때문에 순서 정보를 무시하는 백오브워즈 기법 대비 강점이 있다고 주장 paragraph_1 이라는 문서에서 the cat sat on the mat 라는 문장이 있을 ..

NLP/Embedding 2021.04.08

[NLP] Semantic Analysis

단어 의미 중의성 중의성 언어 표현에서 둘 이상의 의미를 가지는 표현들 어휘적 중의성 다의어에 의한 중의성 하나의 단어가 주변 문맥이나 상황에 따라 다른 의미들로 해석되는 것 "손 좀 보자" 동음어에 의한 중의성 문장 주변의 문맥정보가 동일하지만, 상황에 따라 다른 의미로 해석되는 것 "밤이 좋다" 구조적 중의성 문장을 이루고 있는 어휘 간의 관계에 따라 여러 의미로 해석되는 것 "부유한 철수와 영희가 명품매장을 갔다." (부유한이 철수인지 철수와 영희인지..?, 각자인지 함께 가는지..?) 중의성 해소 기법 단어 중의성 해소 기법(Word Sense Disambiguation) 문장 내 중의성을 가지는 어휘를 사전에 정의된 의미와 매칭하여 어휘적 중의성을 해결하는 문제 지식기반 방법 문장에 등장한 단어..

NLP/NLP 기초 2021.04.05

[NLP] Syntactic Analysis

구문 분석(Syntactic Analysis) 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출 기계 번역, 정보 검색, 전문가 시스템에서 문장 의미의 분석을 돕는 세부 기술로 활용 목표 자연어 문장의 문법적 구조를 구문 문법에 따라 자동으로 분석하는 것 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방법 장점 미리 정의된 문법 규칙을 적용할 수 있는 문장에 대해서는 정확한 의존 분석이 가능 한계 적용할 문법 규칙을 미리 정의하기 위한 시간과 비용 문제 발생 언어학에 대한 전문성을 가진 노동력이 요구 수동으로 정의되지 않은 문법 규칙에 대해서는 구문 분석 불가능 자연어 중의성 처리 문제 발생 통계 기반 구문 분석 확률적..

NLP/NLP 기초 2021.04.05

[NLP] Lexical Analysis

어휘 분석(Lexical Analysis) 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구 어휘: 어휘적 의미의 기본 단위 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정보를 갖고 품사를 결정해주는 절차인 품사 태킹(Part of Speech)을 통해 파악 형태소 분석(Morpholigical Analysis) 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 3가지 단어에서 최소 의미를 포함하는 형태소를 분리 형태소 분석의 처리 대상은 어절(또는 단어) 형태론적 변형이 일어난 형태소의 원형 복원 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보를 선택 영..

NLP/NLP 기초 2021.04.05

[NLP] 언어학의 기본 원리

언어를 이루는 단위 음절(Syllable) 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 한국어 음절 초성: 가장 처음에 오는 소리, 자음 중성: 가운데 소리, 모음 종성: 마지막 소리, 자음 자연어처리에서는 편의를 위해 한 글자 단위를 음절이라고 함 이 문장에서 음절은 몇개일까? : 12개의 음절 형태소(Morpheme) 언어에서 의미를 가지는 가장 작은 단위 실질적인 의미 유무에 따른 구분 명사, 동사, 형용사, 부사 실질 형태소(어휘 형태소) 실질적인 의미를 갖는 형태소 형식 형태소(문법 형태소) 문법적인 기능을 하는 형태소 자립성의 유무에 따른 구분 명사, 대명사, 수사, 관형사, 부사, 감탄사 자립형태소 문장에서 홀로 쓰일 수 있음 의존형태소 다른 형태소와 결합되어 사용 이형태(All..

NLP/NLP 기초 2021.04.05

[NLP] Corpus

Corpus 말뭉치 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함 Corpus 구축 데이터의 품질에 학습된 모델의 성능이 크게 영향받기 때문에 코퍼스를 잘 구축하는 것은 매우 중요 엄격한 기준에 따라 양질의 문장만을 엄선 목적에 따라서는 문장에 적절히 가공이나 처리를 추가

NLP/NLP 기초 2021.04.05

[NLP] 자연어 처리 난제

언어의 중의성 언어의 중의성 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것 규칙의 예외 언어의 규칙 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것 ex) 한국어 형태소의 "-었-"이 있으면 과거형인 것 반복 단어를 비슷한 의미로 잘못 유추하는 경우 보슬비 보슬(바람없이 조용히 내리는)이라는 의미에서 보슬의 의미를 정의 "보슬눈"을 보슬비의 기준으로 의미 추출시 오류 발생(보슬눈은 존재하지 않는 단어) 여러 단어여 모여 내포 뜻이 달라지는 숙어 hit the sack: 잠들다의 숙어 hit: 때리다 sack: 자루 단어 하나 하나의 의미로 해석하면 자루를 치다로 오역할 수 있음 언어의 유연성과 확장성 언어는 매우 유연하고 확장 가능하다 유연한 단어와 소리를 조합하여 만..

NLP/NLP 기초 2021.04.05

[Machine Learning] Tensorflow GPU

NVIDIA Graphic Card Driver 장착된 그래픽 카드에 맞춰 그래픽카드 드라이브 설치 www.nvidia.co.kr/Download/Find.aspx?lang=kr NVIDIA Driver 다운로드 - 고급 검색 SD Studio 드라이버 Studio 드라이버는 핵심 주요 크리에이티브 애플리케이션에 최상의 경험을 제공합니다. NVIDIA는 최고의 크리에이티브한 애플리케이션에 중점을 둔 광범위한 테스트를 시행하며, www.nvidia.co.kr 호환되는 CUDA와 cuDNN 버전은 아래 링크에서 확인할 수 있다. Windows: https://www.tensorflow.org/install/source_windows#tested_build_configurations Mac / Linux:ht..

[Supervised Learning][Classification] SVM(Support Vector Machine)

SVM(Support Vector Machine) 각 훈련 데이터 포인트들의 클래스 결정 경계(decision boundary)를 구분하는 것을 학습 Support Vector: 두 클래스 사이의 경계에 위치한 데이터 포인터 새로운 데이터 포인트에 대해 예측할 때는 데이터 포인트와 각 서포트 벡터와의 거리를 측정 서로 다른 클래스를 지닌 데이터 사이의 간격이 최대가 되는 선이나 평면을 찾아 이를 기준으로 각 데이터를 분류하는 모델 데이터 사이에 존재하는 여백을 최대화, 일반화하여 성능을 극대화 Margin 서포트 벡터와 결정 경계 사이의 거리 SVM의 목표는 마진을 최대로 하는 결정 경계를 찾는 것 Decision boundary(결정 경계): 서로 다른 분류값을 결정하는 경계 데이터의 벡터 공간을 N차..

[Supervised Learning] Decision Tree

Decision Tree (결정 트리) 분류와 회귀 문제에 널리 사용하는 모델 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 결정 트리의 학습은 정답에 가장 빨리 도달하는 예/아니오 질문(테스트) 목록을 학습한다는 뜻 트리 만들기는 모든 리프 노드가 순수 노드가 될 때까지 진행 모델이 매우 복잡해지고 훈련 데이터에 과대 적합(overfitting)됨 적절한 리프 노드의 샘플 개수와 트리의 깊이에 제한을 둬서 과대 적합 방지해야 함 과대 적합(overfitting)을 막기 위해 사전 가지치기(pre-pruning)와 데이터 포인트가 적은 노드를 삭제하거나 병합하는 방법 사용 장점 수학적인 지식이 없어도 결과를 해석하고 이해하기 쉽다 수치 데이터 및 범주 데이터에 모두 사용 가능하다 단점 ove..

[Supervised Learning][Regression] Linear Regression

Linear Model 입력 특성에 대한 선형 함수를 만들어 예측을 수행 특성 개수: p + 1 Linear Regression 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법 선형 예측 함수를 사용해 회귀식을 모델링하고 알려지지 않은 파라미더를 데이터로부터 추정 회귀식을 선형 모델이라고 함 >> y가 없는 x값에 대해 y를 예측 x와 y의 관계를 정량화 Simple Linear Regression (단순 선형 회귀) 1개의 설명 변수에 기반 (독립변수 x가 1개) Multiple Lineare Regression (다중 선형 회귀) 둘 이상의 설명 변수에 기반 (독립 변수 x가 2개 이상) 여러 독립 변수에 의해 영향을 받는 경우로 2개의 독립 변수면 그래프는..

728x90
반응형