반응형

NLP/Text Similarity & Categorization 2

[NLP] Text Similarity

Text Similarity 텍스트가 얼마나 유사한지는 표현하는 방식 같은 단어의 개수를 사용해서 유사도를 판단하는 방법 형태소로 나누어 형태소를 비교하는 방법 자소 단위로 나누어 단어를 비교하는 방법 딥러닝을 기반으로 텍스트의 유사도를 측정하는 방법 Jaccard Similarity 자카드 유사도 또는 자카드 지수는 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도를 측정하는 방식 두 집합의 교집합인 공통된 단어의 개수를 합집합(전체 단어의 수)로 나눔 유사도 값은 0 ~ 1, 1에 가까울수록 유사도가 높음을 의미 Cosine Similarity 두 개의 벡터값에서 코사인 각도를 구하는 방법 유사도 값은 -1 ~ 1, 1에 가까울수록 유사도가 높음을 의미 두 벡터간의 각도를 구해 방향성의..

[NLP] Text Classification

Text Classification 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇 가지 범주(class) 중 어느 범주에 속하는지 분류 데이터의 정답 라벨 유무에 따라 학습 방법 선택 지도 학습을 통한 텍스트 분류 데이터에 대해 각각 속한 범주에 대한 값(라벨)이 이미 주어져 있음 주어진 범주로 글들을 모두 학습한 후 학습한 결과를 이용해 새로운 글의 범주를 예측 분류 모델 예시 나이브 베이즈 분류(Naïve Bayes Classification) 서보트 벡터 머신(Support Vector Machine) 신경망(Neural Network) 선형 분류(Linear Classifier) 로지스틱 분류(Logistic Classifier) 랜덤 포레스트(Random Forest) 비지도 학습을..

728x90
반응형