'NLP' 태그의 글 목록

Text Mining (텍스트 마이닝)

Text Mining (텍스트 마이닝) Text Data Mining 이라고도 합니다. 텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다. 텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어 처리, 정보 검색 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다. 텍스트 데이터 종류 텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다. 정형 데이터 (Structu..

NLP/NLP 시스템 2023.06.20

[NLP] Natural Language Processing (자연어 처리)

Natural Language Processing (자연어 처리) 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술 자연어 이해, NLU(Natural Language Understanding) 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것 자연어 생성, NLG(Natural Language Generation) 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술 자연어 처리 단계 Corpus (말뭉치) 특정한 목적을 가지고 수집한 자연어 데이터. 수많은 ..

NLP/NLP 기초 2023.03.07

[Language Model] BERT

BERT(Bidirectional Encoder Representations for Transformers) Pre-training of Deep Bidirectional Transformers for Language Understanding 2018년 10월 논문이 공개된 구글의 새로운 Language Representation Model 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 Language Model 방대한 양의 Corpus(위키피디아, 웹문서, 책정보 등)를 이미 트레이닝시킨 언어 처리 모델 arxiv.org/abs/1810.04805 github.com/google-research/bert GitHub - google-research/bert: TensorFlow code and pr..

Generative AI/Language Model 2022.05.09

[Language Model] GPT

GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Language Model이란 레이블이 없는 많은 데이터를 비지도 학습 방법으로 학습을 해서 모델이 언어를 이해 할 수 있도록 한 후 특정 Task에 적용해서 좋은 성능을 내는 방법을 의미한다. Unsupervised pre-training 표준 Transformer의 Decoder만 사용하므로 Decoder에서 Encoder의 출력과 Attention을 하는 부분인 Encoder-Deco..

Generative AI/Language Model 2022.05.09

Language Model 종류

고려대학교 온라인 강의 내용을 참고하여 Text 분석과 관련된 언어 모델을 정리하였다. https://youtube.com/playlist?list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm [Korea University] Unstructured Data Analysis (Text Analytics) 고려대학교 산업경영공학부 대학원 일반대학원 비정형데이터분석 (Text Analytics) 담당교수: 강필성 교과목 홈페이지: https://github.com/pilsung-kang/Text-Analytics www.youtube.com Seq2Seq (Sequence to Sequence) Seq2Seq Model 순서 정보를 활용해서 텍스트를 분석하기 위해 사용한 모델 시퀀스 형태의..

Generative AI/Language Model 2022.05.09

[Language Model] BERTopic

BERTopic BERT 임베딩 및 클래스 기반 TF-IDF를 활용하여 조밀한 클러스터를 생성하여 주제 설명에 중요한 단어를 유지하면서 쉽게 해석 가능한 주제를 허용하는 주제 모델링 기술 https://maartengr.github.io/BERTopic/index.html Home - BERTopic BERTopic BERTopic is a topic modeling technique that leverages transformers and c-TF-IDF to create dense clusters allowing for easily interpretable topics whilst keeping important words in the topic descriptions. It even supports..

Generative AI/Language Model 2021.06.14

[NLP] spaCy

spaCy https://spacy.io/ spaCy · Industrial-strength Natural Language Processing in Python spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more. spacy.io 파이썬의 자연어 처리를 위한 오픈 소스 기반 라이브러리 텍스트 전처리에서 좋은 성능을 보여주고 있음 spacy install pip install spacy # download en stopwords python -m spacy download en python ..

NLP/NLTK 2021.05.10

[NLP] Mecab 설치(Windows OS)

mecab-ko-msvs 다운로드 mecab을 윈도우에서 실행될 수 있게 컴파일 하는 역할 하기 경로에서 윈도우 버전 및 32비트/64비트 선택해서 다운로드 후 원하는 폴더 경로에 파일 압축풀기 https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3 Release release-0.9.2-msvc-3 · Pusnow/mecab-ko-msvc Fix: -r 옵션을 지정해 주지 않았을 때 레지스트리에서 이상한 값을 가져와 오류가 나는 문제 해결 github.com mecab-ko-dic-msvs 다운로드 mecab-ko 기본 사전 하기 경로에서 [mecab-ko-dic-msvs.zip] 파일 다운로드 후 mecab-ko-msvs 압..

NLP/KoNLPy 2021.04.21

[NLP] Information Extraction

정보추출(Information Extraction, IE) 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음 (엔티티 1, 엔티티 2) 정보추출의 목적 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별 구조화된 엔티티를 데이터베이스 등에 저장하는 것 정보추출의 한계 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함 수작업으로 인한 시간과 ..

NLP/NLP 시스템 2021.04.13

[NLP] NER(Named Entity Recognition)

NER(Named Entity Recognition) 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출 지도학습기반 시스템 HMM(Hidden Markov Models) SVM(Support Vector Machines) CRF(Conditional Random Fields) Decision Tree..

NLP/NLP 시스템 2021.04.12

[NLP] 통계적 언어 모델(Statistical Language Model, SLM)

Language Model 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측한거나 생성하는 모델 통계적 언어 모델(Statistical Language Model, SLM) 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델 모델의 목표는 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는데 있음 조건부 확률(conditional Probabilities) 언어 모델 조건부 확률을 기준으로 글자나 형태소의 결합 확률을 기반으로 모델링 corpus 내에서 각 단어들의 조합이 나오는 횟수를 카운트한 후 이에 기반하여 확률을 계산 스마트폰의 자동 완성 N-gram 언어 모델 문장 내 단..

Generative AI/Language Model 2021.04.12

[NLP] soynlp

soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어 처리를 위한 파이썬 패키지 중 하나 KoNLPy에서 제공하는 형태소 분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미 등록 단어들은 인식이 잘되지 않아 사용자 사전에 단어를 등록하는 절차 필요 사용자 사전과 형태소 분석 없이 cohension 기반으로 토큰화를 할 수 있는 기능 제공 Cohesion 문자열을 글자 단위로 분리하여 부분문자열(substring)을 만들 때 왼쪽부터 문맥을 증가시키면서 각 문맥이 ..

NLP/KoNLPy 2021.04.11

[NLP] Mecab

Mecab(은전한닢) eunjeon.blogspot.com/2013/02/blog-post.html 은전한닢 프로젝트를 소개합니다. 은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인 eunjeon.blogspot.com bitbucket.org/eunjeon/mecab-ko-dic/src/master/ Docker 내에 Mecab 설치하기 RUN apt-get update && \ apt-get upgrade -y && \ apt-get install -y git && \ apt-get install -y curl && \ apt-get install -y bash && \ apt-get install -y python3-dev RUN ..

NLP/KoNLPy 2021.04.11

[NLP] Gensim

Gensim Python library for topic modelling, document indexing and similarity retrieval with large corpora 자연어 처리를 위한 python 패키지 Topic modeling 에 자주 이용되는 Latent Dirichlet Allocation(LDA) 이나 Random Projection(RP) 와 같은 방법들이 구현되어 있는 Python 라이브러리 Version 업데이트 되면서 Word2Vec 과 Doc2Vec 같은 embedding 방법들도 포함 pypi.org/project/gensim/ gensim Python framework for fast Vector Space Modelling pypi.org Gensim 설치 ..

NLP/NLP 기초 2021.04.11

[NLP] 자연어 처리를 위한 수학

확률의 기초 확률 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것 표본 공간 사건에서 발생할 수 있는 모든 경우 확률 변수 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수 P(X=사건)=확률 이산 확률 변수(discrete random variables) 확률 변수가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 공장에서 발생하는 불량품의 개수, 한해 동안 발생하 교통사고 횟수 등 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 확률을 나타내는 함수 이산 확률 분포(discrete probability distribution) 확률 변수가 이산 확률 변수인 경우 확률 질량 함수(probability mass function) 이산 확률 ..

NLP/NLP 기초 2021.04.11

데이터와 인공지능 훑어보기

NLP 37

티스토리툴바