NLP/Text Similarity & Categorization

[NLP] Text Classification

데이터 세상 2021. 3. 15. 13:33

Text Classification

  • 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇 가지 범주(class) 중 어느 범주에 속하는지 분류
  • 데이터의 정답 라벨 유무에 따라 학습 방법 선택

 

지도 학습을 통한 텍스트 분류

데이터에 대해 각각 속한 범주에 대한 값(라벨)이 이미 주어져 있음

주어진 범주로 글들을 모두 학습한 후 학습한 결과를 이용해 새로운 글의 범주를 예측

분류 모델 예시

  • 나이브 베이즈 분류(Naïve Bayes Classification)
  • 서보트 벡터 머신(Support Vector Machine)
  • 신경망(Neural Network)
  • 선형 분류(Linear Classifier)
  • 로지스틱 분류(Logistic Classifier)
  • 랜덤 포레스트(Random Forest)

 

비지도 학습을 통한 텍스트 분류

  • 텍스트 군집화
  • 데이터의 특성에 따라 비슷한 데이터끼리 묶어주는 개념

분류 모델 예시

  • K-평균 군집화(K-means Clustering)
  • 계층적 군집화(Hierarchical Clustering)
  • DBSCAN

References

 

반응형

'NLP > Text Similarity & Categorization' 카테고리의 다른 글

[NLP] Text Similarity  (0) 2021.03.15