728x90
반응형
soynlp
https://github.com/lovit/soynlp
한국어 처리를 위한 파이썬 패키지 중 하나
- KoNLPy에서 제공하는 형태소 분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미 등록 단어들은 인식이 잘되지 않아 사용자 사전에 단어를 등록하는 절차 필요
사용자 사전과 형태소 분석 없이 cohension 기반으로 토큰화를 할 수 있는 기능 제공
Cohesion
- 문자열을 글자 단위로 분리하여 부분문자열(substring)을 만들 때 왼쪽부터 문맥을 증가시키면서 각 문맥이 주어졌을 때 그 다음 글자가 나올 확률을 계산하여 누적곱을 한 값
Branching Entropy
- 문자열의 경계에서 얼마나 다양한 다음 문자가 등장하는지를 계산하는 척도
- 조건부 확률의 값이 아니라 확률분포의 엔트포리값을 사용
Accessor Variety
- 확률분포를 구하지 않고 단순히 특정 문자열 다음에 나올 수 있는 글자의 종류만 계산
- 글자의 종류가 많다면 엔트로피가 높아질 것이라고 추정하는 것
soynlp 설치
pip install soynlp
Corpus 다운로드
패키지 내에 말뭉치를 제공하지 않음
예제 말뭉치 파일을 다운로드해서 사용
github.com/lovit/soynlp/blob/master/tutorials/2016-10-20.txt
from soynlp import DoublespaceLineCorpus
# 문서 단위 말뭉치 생성
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus) # 문서의 갯수
References
728x90
반응형
'NLP > KoNLPy' 카테고리의 다른 글
[NLP] Mecab 설치(Windows OS) (0) | 2021.04.21 |
---|---|
[NLP] Mecab (0) | 2021.04.11 |
[NLP] Khaii (0) | 2021.03.18 |
[NLP] Okt (0) | 2021.03.18 |
[NLP] KoNLPy (0) | 2021.03.11 |