728x90
반응형
언어를 이루는 단위
음절(Syllable)
- 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위
- 한국어 음절
- 초성: 가장 처음에 오는 소리, 자음
- 중성: 가운데 소리, 모음
- 종성: 마지막 소리, 자음
- 자연어처리에서는 편의를 위해 한 글자 단위를 음절이라고 함
- 이 문장에서 음절은 몇개일까? : 12개의 음절
형태소(Morpheme)
- 언어에서 의미를 가지는 가장 작은 단위
실질적인 의미 유무에 따른 구분
- 명사, 동사, 형용사, 부사
- 실질 형태소(어휘 형태소)
- 실질적인 의미를 갖는 형태소
- 형식 형태소(문법 형태소)
- 문법적인 기능을 하는 형태소
자립성의 유무에 따른 구분
- 명사, 대명사, 수사, 관형사, 부사, 감탄사
- 자립형태소
- 문장에서 홀로 쓰일 수 있음
- 의존형태소
- 다른 형태소와 결합되어 사용
이형태(Allomorph)
- 서로 다른 모습의 형태가 하나의 형태소에 속할 때 각 형태를 그 형태소의 이형태라고 함
- 공부는, 운동은: '는', '은'은 주격 조사로 같은 기능을 하지만 앞에 오는 단어에 따라 모양이 달라짐
기본형(Basic Allomorph)
- 하나의 형태소에 속한 이형태들 중 가장 본래의 형태에 가까운 것
나는 컴퓨터 공부가 좋아
실질 형태소: 나, 컴퓨터, 공부, 좋-
형식 형태소: 는, 가, 아
자립 형태소: 나, 컴퓨, 공부
의존 형태소: 는, 가, 좋-, 아
어절
- 한 개 이상의 형태소가 모여 구성된 단위
- 띄어쓰기 단위와 거의 일치
품사
- 낱말을 문법적인 기능이나 형태, 뜻에 따라 몇 갈래로 나눈 것
한국어 품사
- 체언: 중심이 되는 역할, 조사가 뒤에 붙음
- 명사: 어떤한 존재의 이름을 나타내는 단어
- 대명사: 어떤한 것의 이름을 대신하여 나타내는 단어(나, 너, 이것)
- 수사: 수량이나 순서를 나타내는 단어(하나, 첫째)
- 수식언: 다른 말을 꾸며주는 역할
- 관형사: 체언 앞에 높여 체언을 꾸며주는 역할(새, 윗, 옛)
- 부사: 주로 용언(동사, 형용사) 앞에서 그 내용을 꾸며주거나 문장 전체를 꾸며주는 역할
- 관계언: 문장에서 자립형태소에 붙어 문법적 관계를 나타내느 의존형태소
- 조사
- 독립언: 독립적으로 쓰이는 품사
- 감탄사
- 용언: 독립된 뜻을 가지고 어미를 활용하여 문장 성분으로서 서술어의 기능을 하는 말
- 동사, 형용사
- 어간과 어미로 이루어짐
- 어간: 하나 또는 둘 이상의 어근이 결합하여 이루어지거나 접사에 의해 파생
- 어미: 어간에 붙어 형태가 바뀌는 특성. 높임법, 시제 등
언어의 구조
구구조(Phrase Structure)
- 언어학자 촘스키(Noam Chomsky)에 시작
- 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어기가 됨으로써 형성되는 일정한 구조
- 선행관계, 지배관계
- 영어와 같이 단어의 배열이 정해져 있는 언어를 분석할 때 많이 쓰임
- 영어: 크게 명사구와 그 두의 동사구로 이루어짐
Colorless green ideas sleep furiously
Noun Pharse
: Colorless(Article) green(A) ideas(Noun)
Verb Pharse
: sleep (Verb) furiously(Adjective)
의존구조(Dependency Structure)
- 문장에 포함된 단어들이 서로 의존 관계를 이루어 하나의 구문을 이룬다고 보는 것
의존 구문 분석
- 문장에는 각 단어의 지배소(Head)와 의존소(Modifier)로 이루어져 있고 그 의존 관계를 분석하는 것
- 한국어는 어순이 자유롭기 떄문에 구구조 분석보다는 의존 구문 분석이 주로 이용됨
Graph-based dependency parsing
- 비결정적(Non-deterministic) 방법
- 어떠한 문장이 가실 수 있는 모든 의존 분석 결과 중에서 가장 높은 점수의 의존트리를 선택하는 방식
- 모든 경우의 수를 계산하는 전역 검색을 이용하기 때문에 속도가 느림
Transition-based dependency parsing
- 선형적 탐색을 하기 때문에 근거리 의존관계를 찾는데 강하고 속도가 빠름
- 문장의 의존 구조를 전역적으로 확인하는 데는 약함
Graph-based | Transition-based |
가능한 단어 쌍의 의존가능성을 여러 문맥자질로 표현하고 이를 점수화함으로써 가장 점수가 큰 의존트리를 찾는 방법 | 두 개의 대상 단어의 의존 여부를 결정하고 이를 이용하여 의존트리를 점차적으로 완성해나가는 방법 |
전역적 학습모델 | |
언어 표현과 지시체 분석
의미론
- 단어, 문장, 발화에서 그 표현이 실제로 가리키는 지시체와의 의미 관계를 파악하는 것
- 문법적으로 옳은 문장일지라도 의미가 어색하다면 언어라도 할 수 없다
- 어위적 관계(Lexical Relation)으로도 단어의 의미를 파악
- 동의 관계(Synonymy)
- 반의 관계(Antonymy)
- 상하관계(Hyponymy)
- 원형(Prototype)
화용론
- 언어 사용자와 발화 맥락(Context)을 고려하는 연구
- 언어 자체만이 아니라 언어의 주변을 설명하는 말하는 이, 듣는 이, 시간, 장소 등으로 구성되는 맥락 속에서의 언어 사용을 다룸
- 언어를 해석할 때에는 직역 뿐 아니라 그 상황과 문맥을 고려한 해석을 해야 한다
References
728x90
반응형
'NLP > NLP 기초' 카테고리의 다른 글
[NLP] Syntactic Analysis (0) | 2021.04.05 |
---|---|
[NLP] Lexical Analysis (0) | 2021.04.05 |
[NLP] Corpus (0) | 2021.04.05 |
[NLP] 자연어 처리 난제 (0) | 2021.04.05 |
[NLP] Data Preprocessing (0) | 2021.03.15 |