반응형

NLP/KoNLPy 6

[NLP] Mecab 설치(Windows OS)

mecab-ko-msvs 다운로드 mecab을 윈도우에서 실행될 수 있게 컴파일 하는 역할 하기 경로에서 윈도우 버전 및 32비트/64비트 선택해서 다운로드 후 원하는 폴더 경로에 파일 압축풀기 https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3 Release release-0.9.2-msvc-3 · Pusnow/mecab-ko-msvc Fix: -r 옵션을 지정해 주지 않았을 때 레지스트리에서 이상한 값을 가져와 오류가 나는 문제 해결 github.com mecab-ko-dic-msvs 다운로드 mecab-ko 기본 사전 하기 경로에서 [mecab-ko-dic-msvs.zip] 파일 다운로드 후 mecab-ko-msvs 압..

NLP/KoNLPy 2021.04.21

[NLP] soynlp

soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어 처리를 위한 파이썬 패키지 중 하나 KoNLPy에서 제공하는 형태소 분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미 등록 단어들은 인식이 잘되지 않아 사용자 사전에 단어를 등록하는 절차 필요 사용자 사전과 형태소 분석 없이 cohension 기반으로 토큰화를 할 수 있는 기능 제공 Cohesion 문자열을 글자 단위로 분리하여 부분문자열(substring)을 만들 때 왼쪽부터 문맥을 증가시키면서 각 문맥이 ..

NLP/KoNLPy 2021.04.11

[NLP] Mecab

Mecab(은전한닢) eunjeon.blogspot.com/2013/02/blog-post.html 은전한닢 프로젝트를 소개합니다. 은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인 eunjeon.blogspot.com bitbucket.org/eunjeon/mecab-ko-dic/src/master/ Docker 내에 Mecab 설치하기 RUN apt-get update && \ apt-get upgrade -y && \ apt-get install -y git && \ apt-get install -y curl && \ apt-get install -y bash && \ apt-get install -y python3-dev RUN ..

NLP/KoNLPy 2021.04.11

[NLP] Khaii

카이(Khaiii) Kakao Hangul Analyzer III 국립국어원이 구축한 세종 corpus를 이용해 CNN 모델을 적용해 학습 C++로 구현해 GPU 없이도 형태소 분석이 가능하며 실행 속도 빠름 http://tech.kakao.com/2018/12/13/khaii kakao의 오픈소스 Ep9 - Khaiii : 카카오의 딥러닝 기반 형태소 분석기 “카카오의 오픈소스를 소개합니다” 아홉 번째는 jamie.lim과 자연어 처리 파트 동료들이 함께 개발한 khaiii(Kakao Hangul Analyzer III)입니다. khaiii는 세종 코퍼스를 이용하여 CNN(Convolutional Neural Network, tech.kakao.com 입력 문장을 문자 단위로 읽어 들인 뒤 convol..

NLP/KoNLPy 2021.03.18

[NLP] Okt

Okt(Open Korean Text) twitter에서 만든 오픈소스 한국어 처리기 twitter-korean-text를 이어받아 만들고 있는 프로젝트 github.com/open-korean-text/open-korean-text open-korean-text/open-korean-text Open Korean Text Processor - An Open-source Korean Text Processor - open-korean-text/open-korean-text github.com okt.morphs(norm=False, stem=False) 텍스트를 형태소 단위로 나눔 norm normalize 문장을 정규화 stem 각 단어에서 어간을 추출하는 기능 okt.nouns() 텍스트에서 명사만 ..

NLP/KoNLPy 2021.03.18

[NLP] KoNLPy

코엔엘파이(KoNLPy) 한국어 자연어 처리를 위한 JAVA 기반으로 만들어진 형태소 분석기 패키지 5개의 형태소 분석기(한나움, 꼬꼬마, 코모란, Okt, 메캅) 한꺼번에 이용 가능 오픈소스 소프트웨어, GPL v3 또는 그 이상 한국어 형태소 분석기 한나움(Hannanum) 꼬꼬마(Kkma) 코모란(Komoran) Okt(Open Korea Text): KoNLPy 0.5.0 전에는 Twitter로 불림 메캅(Mecab) soynlp 카이(khaiii) KoNLPy 설치 JAVA 1.7+ 이상 설치 KoNLPy는 JAVA로 구성되어 있기 때문에 JDK 설치 필요 JPype 1(>=0.5.7) 설치 JAVA와 Python을 연결해주는 역할 cp: python version 다운로드 경로: www.lfd..

NLP/KoNLPy 2021.03.11
728x90
반응형