반응형

NLP/NLP 시스템 5

[Text Annotation][Text Classification] Label Sleuth

Label Sleuth https://www.label-sleuth.org/ Label Sleuth Open-source no-code system for text annotation and building of text classifiers www.label-sleuth.org An open-source no-code system for text annotation and building text classifiers No-code, open-source system for domain experts Easily annotate texts Quickly build text classifiers No AI knowledge required AI 지식이나 코딩 역량이 없더라도 도메인 지식 전문가가 쉽게 본..

NLP/NLP 시스템 2023.08.09

Text Mining (텍스트 마이닝)

Text Mining (텍스트 마이닝) Text Data Mining 이라고도 합니다. 텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다. 텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어 처리, 정보 검색 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다. 텍스트 데이터 종류 텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다. 정형 데이터 (Structu..

NLP/NLP 시스템 2023.06.20

OCR (Optical Character Recognition)

OCR (Optical Character Recognition) 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷을 변환하는 과정 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것 이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어 OCR 작동 원리 이미지 획득 스캐너를 통해 문서를 읽어들여 이진 데이터로 변환 전처리 이미지를 정리하고 오류를 제거하여 읽을 수 있도록 준비 스캔된 문서를 조금씩 기울기 보정하거나 틸팅하여 스캔 중의 정렬 문제 해결 디지털 이미지의 얼룩을 제거하거나 텍스트 이미지의 가장자리를 부드럽게 만듦 이미지 내의 텍스트 상자 및 선을 정리 다국어 OCR 기술용 스크..

NLP/NLP 시스템 2022.08.01

[NLP] Information Extraction

정보추출(Information Extraction, IE) 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음 (엔티티 1, 엔티티 2) 정보추출의 목적 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별 구조화된 엔티티를 데이터베이스 등에 저장하는 것 정보추출의 한계 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함 수작업으로 인한 시간과 ..

NLP/NLP 시스템 2021.04.13

[NLP] NER(Named Entity Recognition)

NER(Named Entity Recognition) 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출 지도학습기반 시스템 HMM(Hidden Markov Models) SVM(Support Vector Machines) CRF(Conditional Random Fields) Decision Tree..

NLP/NLP 시스템 2021.04.12
728x90
반응형