NLP/NLP 기초

[NLP] Corpus

데이터 세상 2021. 4. 5. 19:04

Corpus

  • 말뭉치
  • 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음
  • 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함

Corpus 구축

  • 데이터의 품질에 학습된 모델의 성능이 크게 영향받기 때문에 코퍼스를 잘 구축하는 것은 매우 중요
  • 엄격한 기준에 따라 양질의 문장만을 엄선
  • 목적에 따라서는 문장에 적절히 가공이나 처리를 추가
반응형

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] Lexical Analysis  (0) 2021.04.05
[NLP] 언어학의 기본 원리  (0) 2021.04.05
[NLP] 자연어 처리 난제  (0) 2021.04.05
[NLP] Data Preprocessing  (0) 2021.03.15
[NLP] 텍스트 전처리  (0) 2021.03.15