NLP/KoNLPy

[NLP] Okt

데이터 세상 2021. 3. 18. 10:41

Okt(Open Korean Text)

  • twitter에서 만든 오픈소스 한국어 처리기
  • twitter-korean-text를 이어받아 만들고 있는 프로젝트

github.com/open-korean-text/open-korean-text

 

open-korean-text/open-korean-text

Open Korean Text Processor - An Open-source Korean Text Processor - open-korean-text/open-korean-text

github.com

okt.morphs(norm=False, stem=False)

  • 텍스트를 형태소 단위로 나눔
  • norm
    • normalize
    • 문장을 정규화
  • stem
    • 각 단어에서 어간을 추출하는 기능

okt.nouns()

  • 텍스트에서 명사만 뽑아냄

okt.phrases()

  • 텍스트에서 어절을 뽑아냄

okt.pos(norm=False, stem=False, join=False)

  • 각 품사를 태킹하는 역할
  • join
    • True로 설정할 경우 나눠진 형태소와 품사를 '형태소/품사' 형태로 같이 붙여서 리스트화
from konlpy.tag import Okt

okt = Okt()
text = "한글 자연어 처리는 어떻게 하지. 코엔엘파이로 시작해봐야지."
print(okt.morphs(text))
print(okt.morphs(text, stem=True))
>>
['한글', '자연어', '처리', '는', '어떻게', '하지', '.', '코', '엔엘', '파이', '로', '시작', '해봐야지', '.']
['한글', '자연어', '처리', '는', '어떻다', '하다', '.', '코', '엔엘', '파이', '로', '시작', '해보다', '.']

print(okt.nouns(text))
>>
['한글', '자연어', '처리', '코', '엔엘', '파이', '시작']

print(okt.phrases(text))
>>
['한글', '한글 자연어', '한글 자연어 처리', '코엔엘파이', '시작', '자연어', '처리', '엔엘', '파이']

print(okt.pos(text))
>>
[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('어떻게', 'Adjective'), 
('하지', 'Verb'), ('.', 'Punctuation'), ('코', 'Noun'), ('엔엘', 'Noun'), ('파이', 'Noun'), 
('로', 'Josa'), ('시작', 'Noun'), ('해봐야지', 'Verb'), ('.', 'Punctuation')]

print(okt.pos(text, join=True))
>>
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '어떻게/Adjective', '하지/Verb', 
'./Punctuation', '코/Noun', '엔엘/Noun', '파이/Noun', '로/Josa', '시작/Noun', 
'해봐야지/Verb', './Punctuation']

 

반응형

'NLP > KoNLPy' 카테고리의 다른 글

[NLP] Mecab 설치(Windows OS)  (0) 2021.04.21
[NLP] soynlp  (0) 2021.04.11
[NLP] Mecab  (0) 2021.04.11
[NLP] Khaii  (0) 2021.03.18
[NLP] KoNLPy  (0) 2021.03.11