728x90
반응형
Corpus
- 말뭉치
- 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음
- 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함
Corpus 구축
- 데이터의 품질에 학습된 모델의 성능이 크게 영향받기 때문에 코퍼스를 잘 구축하는 것은 매우 중요
- 엄격한 기준에 따라 양질의 문장만을 엄선
- 목적에 따라서는 문장에 적절히 가공이나 처리를 추가
728x90
반응형
'NLP > NLP 기초' 카테고리의 다른 글
[NLP] Lexical Analysis (0) | 2021.04.05 |
---|---|
[NLP] 언어학의 기본 원리 (0) | 2021.04.05 |
[NLP] 자연어 처리 난제 (0) | 2021.04.05 |
[NLP] Data Preprocessing (0) | 2021.03.15 |
[NLP] 텍스트 전처리 (0) | 2021.03.15 |