728x90
반응형
코엔엘파이(KoNLPy)
- 한국어 자연어 처리를 위한 JAVA 기반으로 만들어진 형태소 분석기 패키지
- 5개의 형태소 분석기(한나움, 꼬꼬마, 코모란, Okt, 메캅) 한꺼번에 이용 가능
- 오픈소스 소프트웨어, GPL v3 또는 그 이상
한국어 형태소 분석기
- 한나움(Hannanum)
- 꼬꼬마(Kkma)
- 코모란(Komoran)
- Okt(Open Korea Text): KoNLPy 0.5.0 전에는 Twitter로 불림
- 메캅(Mecab)
- soynlp
- 카이(khaiii)
KoNLPy 설치
- JAVA 1.7+ 이상 설치
- KoNLPy는 JAVA로 구성되어 있기 때문에 JDK 설치 필요
- JPype 1(>=0.5.7) 설치
- JAVA와 Python을 연결해주는 역할
- cp: python version
- 다운로드 경로: www.lfd.uci.edu/~gohlke/pythonlibs/#jpype
(venv) D:\test_project>pip install JPype1-1.2.0-cp38-cp38-win_amd64.whl
Processing d:\study\ai_3weeks\test_project\jpype1-1.2.0-cp38-cp38-win_amd64.whl
Installing collected packages: JPype1
Attempting uninstall: JPype1
Found existing installation: JPype1 1.2.1
Uninstalling JPype1-1.2.1:
Successfully uninstalled JPype1-1.2.1
Successfully installed JPype1-1.2.0
KoNLPY 패키지 설치
pip install konlpy
※ DockerFile
# Install OpenJDK-115
RUN apt-get update && \
apt-get install -y openjdk-15-jre-headless && \
apt-get clean;
# Fix certificate issues
RUN apt-get update && \
apt-get install ca-certificates-java && \
apt-get clean && \
update-ca-certificates -f;
형태소 분석기 별 성능 비교
konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes
문자의 개수를 늘려감에 따라 모든 클래스의 실행 시간은 기하급수적으로 증가
Hannanum | Kkma | Komoran | Mecab | Okt |
아버지가방에들어가 / N | 아버지 / NNG | 아버지가방에들어가신다 / NNP | 아버지 / NNG | 아버지 / Noun |
이 / J | 가방 / NNG | 가 / JKS | 가방 / Noun | |
시ㄴ다 / E | 에 / JKM | 방 / NNG | 에 / Josa | |
들어가 / VV | 에 / JKB | 들어가신 / Verb | ||
시 / EPH | 들어가 / VV | 다 / Eomi | ||
ㄴ다 / EFN | 신다 / EP+EC |
References
728x90
반응형
'NLP > KoNLPy' 카테고리의 다른 글
[NLP] Mecab 설치(Windows OS) (0) | 2021.04.21 |
---|---|
[NLP] soynlp (0) | 2021.04.11 |
[NLP] Mecab (0) | 2021.04.11 |
[NLP] Khaii (0) | 2021.03.18 |
[NLP] Okt (0) | 2021.03.18 |