NLP/NLP 기초

[NLP] Natural Language Processing (자연어 처리)

데이터 세상 2023. 3. 7. 15:53

Natural Language Processing (자연어 처리)

컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술

 

자연어 이해, NLU(Natural Language Understanding)

  • 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정
  • 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것

 

자연어 생성, NLG(Natural Language Generation)

  • 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술
  • 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술

자연어 처리 단계

 

Corpus (말뭉치)

특정한 목적을 가지고 수집한 자연어 데이터. 수많은 단어와 문장, 문서로 이뤄진 text 데이터 그 자체.

 

Token

문법적으로 더 이상 나눌 수 없는 언어요소, 보통 의미를 가지는 최소 단위

단어/문장/형태소(morpheme, 언어학에서 일정한 의미가 있는 가장 작은 말의 단위)

철수가 팥죽을 맛있게 먹고 있다.
단어: 철수, 가, 팥죽, 을, 맛있게, 먹고, 있다
형태소: 철수, 가, 팥, 죽, 을, 맛, 있-, -게, 먹-, -고, 있-, -다

※ 영어의 경우에는 단어 단위, 한국어의 경우에는 형태소 단위 tokenization이 언어처리 시 성능을 좋게할 수 있다.

 

Tokenization

주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업

문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법

 

POS(Part-of-Speech) Tagging

형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일

 

Vocabulary

Corpus에 있는 모든 문서, 문장을 토큰화한 것으로 토큰(단어)의 중복을 제거한 뒤의 집합

 

OOV(Out of Vocabulary)

자연어처리 모델 학습 데이터의 어휘 사전에 등록되어 있지 않은 단어

 

Vectorization

자연어 처리에서는 기계가 문자를 이해 할 수 있도록 수치화해주는 과정

 

Embedding

사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미

단어나 문장 각각을 벡터로 변환해 벡터 공간(Vector space)으로 끼워 넣는다는 의미

반응형