NLP/NLP 기초

[NLP] 언어학의 기본 원리

데이터 세상 2021. 4. 5. 19:52
728x90
반응형

언어를 이루는 단위

음절(Syllable)

  • 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위
  • 한국어 음절
    • 초성: 가장 처음에 오는 소리, 자음
    • 중성: 가운데 소리, 모음
    • 종성: 마지막 소리, 자음
  • 자연어처리에서는 편의를 위해 한 글자 단위를 음절이라고 함
    • 이 문장에서 음절은 몇개일까? : 12개의 음절

 

형태소(Morpheme)

  • 언어에서 의미를 가지는 가장 작은 단위

실질적인 의미 유무에 따른 구분

  • 명사, 동사, 형용사, 부사
  • 실질 형태소(어휘 형태소)
    • 실질적인 의미를 갖는 형태소
  • 형식 형태소(문법 형태소)
    • 문법적인 기능을 하는 형태소

자립성의 유무에 따른 구분

  • 명사, 대명사, 수사, 관형사, 부사, 감탄사
  • 자립형태소
    • 문장에서 홀로 쓰일 수 있음
  • 의존형태소
    • 다른 형태소와 결합되어 사용

이형태(Allomorph)

  • 서로 다른 모습의 형태가 하나의 형태소에 속할 때 각 형태를 그 형태소의 이형태라고 함
  • 공부는, 운동은: '는', '은'은 주격 조사로 같은 기능을 하지만 앞에 오는 단어에 따라 모양이 달라짐

기본형(Basic Allomorph)

  • 하나의 형태소에 속한 이형태들 중 가장 본래의 형태에 가까운 것
나는 컴퓨터 공부가 좋아

실질 형태소: 나, 컴퓨터, 공부, 좋-
형식 형태소: 는, 가, 아
자립 형태소: 나, 컴퓨, 공부
의존 형태소: 는, 가, 좋-, 아

 

어절

  • 한 개 이상의 형태소가 모여 구성된 단위
  • 띄어쓰기 단위와 거의 일치

품사

  • 낱말을 문법적인 기능이나 형태, 뜻에 따라 몇 갈래로 나눈 것

한국어 품사

  • 체언: 중심이 되는 역할, 조사가 뒤에 붙음
    • 명사: 어떤한 존재의 이름을 나타내는 단어
    • 대명사: 어떤한 것의 이름을 대신하여 나타내는 단어(나, 너, 이것)
    • 수사: 수량이나 순서를 나타내는 단어(하나, 첫째)
  • 수식언: 다른 말을 꾸며주는 역할
    • 관형사: 체언 앞에 높여 체언을 꾸며주는 역할(새, 윗, 옛)
    • 부사: 주로 용언(동사, 형용사) 앞에서 그 내용을 꾸며주거나 문장 전체를 꾸며주는 역할
  • 관계언: 문장에서 자립형태소에 붙어 문법적 관계를 나타내느 의존형태소
    • 조사
  • 독립언: 독립적으로 쓰이는 품사
    • 감탄사
  • 용언: 독립된 뜻을 가지고 어미를 활용하여 문장 성분으로서 서술어의 기능을 하는 말
    • 동사, 형용사
    • 어간과 어미로 이루어짐
      • 어간: 하나 또는 둘 이상의 어근이 결합하여 이루어지거나 접사에 의해 파생
      • 어미: 어간에 붙어 형태가 바뀌는 특성. 높임법, 시제 등

 

언어의 구조

구구조(Phrase Structure)

  • 언어학자 촘스키(Noam Chomsky)에 시작
  • 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어기가 됨으로써 형성되는 일정한 구조
  • 선행관계, 지배관계
  • 영어와 같이 단어의 배열이 정해져 있는 언어를 분석할 때 많이 쓰임
    • 영어: 크게 명사구와 그 두의 동사구로 이루어짐

Colorless green ideas sleep furiously

Noun  Pharse
: Colorless(Article) green(A) ideas(Noun)

Verb Pharse
: sleep (Verb) furiously(Adjective)

 

 

의존구조(Dependency Structure)

  • 문장에 포함된 단어들이 서로 의존 관계를 이루어 하나의 구문을 이룬다고 보는 것

의존 구문 분석

  • 문장에는 각 단어의 지배소(Head)와 의존소(Modifier)로 이루어져 있고 그 의존 관계를 분석하는 것
  • 한국어는 어순이 자유롭기 떄문에 구구조 분석보다는 의존 구문 분석이 주로 이용됨

Graph-based dependency parsing

  • 비결정적(Non-deterministic)  방법
  • 어떠한 문장이 가실 수 있는 모든 의존 분석 결과 중에서 가장 높은 점수의 의존트리를 선택하는 방식
  • 모든 경우의 수를 계산하는 전역 검색을 이용하기 때문에 속도가 느림

Transition-based dependency parsing

  • 선형적 탐색을 하기 때문에 근거리 의존관계를 찾는데 강하고 속도가 빠름
  • 문장의 의존 구조를 전역적으로 확인하는 데는 약함
Graph-based Transition-based
가능한 단어 쌍의 의존가능성을 여러 문맥자질로 표현하고 이를 점수화함으로써 가장 점수가 큰 의존트리를 찾는 방법 두 개의 대상 단어의 의존 여부를 결정하고 이를 이용하여 의존트리를 점차적으로 완성해나가는 방법
전역적 학습모델  

 

언어 표현과 지시체 분석

의미론

  • 단어, 문장, 발화에서 그 표현이 실제로 가리키는 지시체와의 의미 관계를 파악하는 것
  • 문법적으로 옳은 문장일지라도 의미가 어색하다면 언어라도 할 수 없다
  • 어위적 관계(Lexical Relation)으로도 단어의 의미를 파악
    • 동의 관계(Synonymy)
    • 반의 관계(Antonymy)
    • 상하관계(Hyponymy)
    • 원형(Prototype)

화용론

  • 언어 사용자와 발화 맥락(Context)을 고려하는 연구
  • 언어 자체만이 아니라 언어의 주변을 설명하는 말하는 이, 듣는 이, 시간, 장소 등으로 구성되는 맥락 속에서의 언어 사용을 다룸
  • 언어를 해석할 때에는 직역 뿐 아니라 그 상황과 문맥을 고려한 해석을 해야 한다

References

728x90
반응형

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] Syntactic Analysis  (0) 2021.04.05
[NLP] Lexical Analysis  (0) 2021.04.05
[NLP] Corpus  (0) 2021.04.05
[NLP] 자연어 처리 난제  (0) 2021.04.05
[NLP] Data Preprocessing  (0) 2021.03.15