728x90
반응형
Natural Language Processing (자연어 처리)
컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술
자연어 이해, NLU(Natural Language Understanding)
- 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정
- 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것
자연어 생성, NLG(Natural Language Generation)
- 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술
- 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술
자연어 처리 단계
Corpus (말뭉치)
특정한 목적을 가지고 수집한 자연어 데이터. 수많은 단어와 문장, 문서로 이뤄진 text 데이터 그 자체.
Token
문법적으로 더 이상 나눌 수 없는 언어요소, 보통 의미를 가지는 최소 단위
단어/문장/형태소(morpheme, 언어학에서 일정한 의미가 있는 가장 작은 말의 단위)
철수가 팥죽을 맛있게 먹고 있다.
단어: 철수, 가, 팥죽, 을, 맛있게, 먹고, 있다
형태소: 철수, 가, 팥, 죽, 을, 맛, 있-, -게, 먹-, -고, 있-, -다
※ 영어의 경우에는 단어 단위, 한국어의 경우에는 형태소 단위 tokenization이 언어처리 시 성능을 좋게할 수 있다.
Tokenization
주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업
문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법
POS(Part-of-Speech) Tagging
형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일
Vocabulary
Corpus에 있는 모든 문서, 문장을 토큰화한 것으로 토큰(단어)의 중복을 제거한 뒤의 집합
OOV(Out of Vocabulary)
자연어처리 모델 학습 데이터의 어휘 사전에 등록되어 있지 않은 단어들
Vectorization
자연어 처리에서는 기계가 문자를 이해 할 수 있도록 수치화해주는 과정
Embedding
사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미
단어나 문장 각각을 벡터로 변환해 벡터 공간(Vector space)으로 끼워 넣는다는 의미
728x90
반응형
'NLP > NLP 기초' 카테고리의 다른 글
[NLP][논문리뷰] Distilling the Knowledge in a Neural Network (0) | 2023.06.13 |
---|---|
PII (Personally Identifiable Information, 개인 식별 정보) (0) | 2022.12.13 |
[NLP] NLP Dataset (0) | 2021.06.11 |
[NLP] Gensim (0) | 2021.04.11 |
[NLP] 자연어 처리를 위한 수학 (0) | 2021.04.11 |