NLP/KoNLPy

[NLP] KoNLPy

데이터 세상 2021. 3. 11. 00:19
728x90
반응형

코엔엘파이(KoNLPy)

  • 한국어 자연어 처리를 위한 JAVA 기반으로 만들어진 형태소 분석기 패키지
  • 5개의 형태소 분석기(한나움, 꼬꼬마, 코모란, Okt, 메캅) 한꺼번에 이용 가능
  • 오픈소스 소프트웨어, GPL v3 또는 그 이상

한국어 형태소 분석기

  • 한나움(Hannanum)
  • 꼬꼬마(Kkma)
  • 코모란(Komoran)
  • Okt(Open Korea Text): KoNLPy 0.5.0 전에는 Twitter로 불림
  • 메캅(Mecab)
  • soynlp
  • 카이(khaiii)

KoNLPy 설치

  • JAVA 1.7+ 이상 설치
    • KoNLPy는 JAVA로 구성되어 있기 때문에 JDK 설치 필요
  • JPype 1(>=0.5.7) 설치
(venv) D:\test_project>pip install JPype1-1.2.0-cp38-cp38-win_amd64.whl
Processing d:\study\ai_3weeks\test_project\jpype1-1.2.0-cp38-cp38-win_amd64.whl
Installing collected packages: JPype1
  Attempting uninstall: JPype1
    Found existing installation: JPype1 1.2.1
    Uninstalling JPype1-1.2.1:
      Successfully uninstalled JPype1-1.2.1
Successfully installed JPype1-1.2.0

KoNLPY 패키지 설치

pip install konlpy

※ DockerFile

# Install OpenJDK-115
RUN apt-get update && \
    apt-get install -y openjdk-15-jre-headless && \
    apt-get clean;

# Fix certificate issues
RUN apt-get update && \
    apt-get install ca-certificates-java && \
    apt-get clean && \
    update-ca-certificates -f;

 

형태소 분석기 별 성능 비교

konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes

 

형태소 분석 및 품사 태깅 — KoNLPy 0.5.2 documentation

형태소 분석 및 품사 태깅 형태소 분석 이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것입니다. 품사 태깅 은 형태소의 뜻과 문

konlpy.org

문자의 개수를 늘려감에 따라 모든 클래스의 실행 시간은 기하급수적으로 증가

Hannanum Kkma Komoran Mecab Okt
아버지가방에들어가 / N 아버지 / NNG 아버지가방에들어가신다 / NNP 아버지 / NNG 아버지 / Noun
이 / J 가방 / NNG   가 / JKS 가방 / Noun
시ㄴ다 / E 에 / JKM   방 / NNG 에 / Josa
  들어가 / VV   에 / JKB 들어가신 / Verb
  시 / EPH   들어가 / VV 다 / Eomi
  ㄴ다 / EFN   신다 / EP+EC  

References

728x90
반응형

'NLP > KoNLPy' 카테고리의 다른 글

[NLP] Mecab 설치(Windows OS)  (0) 2021.04.21
[NLP] soynlp  (0) 2021.04.11
[NLP] Mecab  (0) 2021.04.11
[NLP] Khaii  (0) 2021.03.18
[NLP] Okt  (0) 2021.03.18