NLP/NLP 기초

[NLP] 자연어 처리 난제

데이터 세상 2021. 4. 5. 18:25

언어의 중의성

언어의 중의성

  • 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것

규칙의 예외

언어의 규칙

  • 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것
  • ex) 한국어 형태소의 "-었-"이 있으면 과거형인 것

반복 단어를 비슷한 의미로 잘못 유추하는 경우

  • 보슬비
    • 보슬(바람없이 조용히 내리는)이라는 의미에서 보슬의 의미를 정의
    • "보슬눈"을 보슬비의 기준으로 의미 추출시 오류 발생(보슬눈은 존재하지 않는 단어)

여러 단어여 모여 내포 뜻이 달라지는 숙어

  • hit the sack: 잠들다의 숙어
    • hit: 때리다
    • sack: 자루
    • 단어 하나 하나의 의미로 해석하면 자루를 치다로 오역할 수 있음

언어의 유연성과 확장성

  • 언어는 매우 유연하고 확장 가능하다
  • 유연한 단어와 소리를 조합하여 만들 수 있는 문장의 수와 길이가 무한하다
  • 시간에 따라 더이상 유효하지 않거나 새로 탄생하는 단어들도 존재

References

 

반응형

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] 언어학의 기본 원리  (0) 2021.04.05
[NLP] Corpus  (0) 2021.04.05
[NLP] Data Preprocessing  (0) 2021.03.15
[NLP] 텍스트 전처리  (0) 2021.03.15
[NLP] Kaggle  (0) 2021.03.15