반응형

NLP 37

[Text Annotation][Text Classification] Label Sleuth

Label Sleuth https://www.label-sleuth.org/ Label Sleuth Open-source no-code system for text annotation and building of text classifiers www.label-sleuth.org An open-source no-code system for text annotation and building text classifiers No-code, open-source system for domain experts Easily annotate texts Quickly build text classifiers No AI knowledge required AI 지식이나 코딩 역량이 없더라도 도메인 지식 전문가가 쉽게 본..

NLP/NLP 시스템 2023.08.09

부분구문분석(청크나누기, Chunking)

부분구문분석(청크나누기, Chunking) 부분구문분석(shallow parsing) = 청크나누기(Chunking) 명사, 동사, 형용사와 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것 사전 훈련된 품사태깅 모델이 존재함 여러 개의 품사로 구(pharase)를 만드는 것을 chunking이라 하고, 이 구(pharase)를 chunk라 합니다. 문장을 각 품사로 구분하고, Chunking에 의해 구로 구분하면 문장의 의미를 파악하기 용이해 집니다. 문장에서 (DT + JJ + NN), (DT + JJ + JJ + NN), (JJ + NN), 등의 시퀀스는 모두 명사구 (NP : Noun phrase)로 판단합니다. 겹치는 위치에서 태그 패턴이 일치하는 경우 가장 왼쪽 일치가 우선합니다. sp..

NLP/Embedding 2023.07.18

Text Mining (텍스트 마이닝)

Text Mining (텍스트 마이닝) Text Data Mining 이라고도 합니다. 텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다. 텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어 처리, 정보 검색 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다. 텍스트 데이터 종류 텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다. 정형 데이터 (Structu..

NLP/NLP 시스템 2023.06.20

[NLP][논문리뷰] Distilling the Knowledge in a Neural Network

Distilling the Knowledge in a Neural Network 논문링크: https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural Network A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome arxiv.org Kn..

NLP/NLP 기초 2023.06.13

[NLP] Natural Language Processing (자연어 처리)

Natural Language Processing (자연어 처리) 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술 자연어 이해, NLU(Natural Language Understanding) 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것 자연어 생성, NLG(Natural Language Generation) 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술 자연어 처리 단계 Corpus (말뭉치) 특정한 목적을 가지고 수집한 자연어 데이터. 수많은 ..

NLP/NLP 기초 2023.03.07

PII (Personally Identifiable Information, 개인 식별 정보)

PII (Personally Identifiable Information, 개인 식별 정보) 잠재적으로 특정 개인을 식별할 수 있는 모든 데이터 한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주 사람으로 개인으로 고유하게 식별할 수 있는 모든 정보 name address email telephone number date of birth passport number fingerprint driver's license number credit or debit card number Social Security number References https://www.techtarget.com/searchsecurity/defin..

NLP/NLP 기초 2022.12.13

OCR (Optical Character Recognition)

OCR (Optical Character Recognition) 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷을 변환하는 과정 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것 이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어 OCR 작동 원리 이미지 획득 스캐너를 통해 문서를 읽어들여 이진 데이터로 변환 전처리 이미지를 정리하고 오류를 제거하여 읽을 수 있도록 준비 스캔된 문서를 조금씩 기울기 보정하거나 틸팅하여 스캔 중의 정렬 문제 해결 디지털 이미지의 얼룩을 제거하거나 텍스트 이미지의 가장자리를 부드럽게 만듦 이미지 내의 텍스트 상자 및 선을 정리 다국어 OCR 기술용 스크..

NLP/NLP 시스템 2022.08.01

[NLP] spaCy

spaCy https://spacy.io/ spaCy · Industrial-strength Natural Language Processing in Python spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more. spacy.io 파이썬의 자연어 처리를 위한 오픈 소스 기반 라이브러리 텍스트 전처리에서 좋은 성능을 보여주고 있음 spacy install pip install spacy # download en stopwords python -m spacy download en python ..

NLP/NLTK 2021.05.10

[NLP] Mecab 설치(Windows OS)

mecab-ko-msvs 다운로드 mecab을 윈도우에서 실행될 수 있게 컴파일 하는 역할 하기 경로에서 윈도우 버전 및 32비트/64비트 선택해서 다운로드 후 원하는 폴더 경로에 파일 압축풀기 https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3 Release release-0.9.2-msvc-3 · Pusnow/mecab-ko-msvc Fix: -r 옵션을 지정해 주지 않았을 때 레지스트리에서 이상한 값을 가져와 오류가 나는 문제 해결 github.com mecab-ko-dic-msvs 다운로드 mecab-ko 기본 사전 하기 경로에서 [mecab-ko-dic-msvs.zip] 파일 다운로드 후 mecab-ko-msvs 압..

NLP/KoNLPy 2021.04.21

[NLP] Information Extraction

정보추출(Information Extraction, IE) 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음 (엔티티 1, 엔티티 2) 정보추출의 목적 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별 구조화된 엔티티를 데이터베이스 등에 저장하는 것 정보추출의 한계 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함 수작업으로 인한 시간과 ..

NLP/NLP 시스템 2021.04.13

[NLP] NER(Named Entity Recognition)

NER(Named Entity Recognition) 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출 지도학습기반 시스템 HMM(Hidden Markov Models) SVM(Support Vector Machines) CRF(Conditional Random Fields) Decision Tree..

NLP/NLP 시스템 2021.04.12

[NLP] soynlp

soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어 처리를 위한 파이썬 패키지 중 하나 KoNLPy에서 제공하는 형태소 분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미 등록 단어들은 인식이 잘되지 않아 사용자 사전에 단어를 등록하는 절차 필요 사용자 사전과 형태소 분석 없이 cohension 기반으로 토큰화를 할 수 있는 기능 제공 Cohesion 문자열을 글자 단위로 분리하여 부분문자열(substring)을 만들 때 왼쪽부터 문맥을 증가시키면서 각 문맥이 ..

NLP/KoNLPy 2021.04.11

[NLP] Mecab

Mecab(은전한닢) eunjeon.blogspot.com/2013/02/blog-post.html 은전한닢 프로젝트를 소개합니다. 은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인 eunjeon.blogspot.com bitbucket.org/eunjeon/mecab-ko-dic/src/master/ Docker 내에 Mecab 설치하기 RUN apt-get update && \ apt-get upgrade -y && \ apt-get install -y git && \ apt-get install -y curl && \ apt-get install -y bash && \ apt-get install -y python3-dev RUN ..

NLP/KoNLPy 2021.04.11

[NLP] Gensim

Gensim Python library for topic modelling, document indexing and similarity retrieval with large corpora 자연어 처리를 위한 python 패키지 Topic modeling 에 자주 이용되는 Latent Dirichlet Allocation(LDA) 이나 Random Projection(RP) 와 같은 방법들이 구현되어 있는 Python 라이브러리 Version 업데이트 되면서 Word2Vec 과 Doc2Vec 같은 embedding 방법들도 포함 pypi.org/project/gensim/ gensim Python framework for fast Vector Space Modelling pypi.org Gensim 설치 ..

NLP/NLP 기초 2021.04.11
728x90
반응형