728x90
반응형
Okt(Open Korean Text)
- twitter에서 만든 오픈소스 한국어 처리기
- twitter-korean-text를 이어받아 만들고 있는 프로젝트
github.com/open-korean-text/open-korean-text
okt.morphs(norm=False, stem=False)
- 텍스트를 형태소 단위로 나눔
- norm
- normalize
- 문장을 정규화
- stem
- 각 단어에서 어간을 추출하는 기능
okt.nouns()
- 텍스트에서 명사만 뽑아냄
okt.phrases()
- 텍스트에서 어절을 뽑아냄
okt.pos(norm=False, stem=False, join=False)
- 각 품사를 태킹하는 역할
- join
- True로 설정할 경우 나눠진 형태소와 품사를 '형태소/품사' 형태로 같이 붙여서 리스트화
from konlpy.tag import Okt
okt = Okt()
text = "한글 자연어 처리는 어떻게 하지. 코엔엘파이로 시작해봐야지."
print(okt.morphs(text))
print(okt.morphs(text, stem=True))
>>
['한글', '자연어', '처리', '는', '어떻게', '하지', '.', '코', '엔엘', '파이', '로', '시작', '해봐야지', '.']
['한글', '자연어', '처리', '는', '어떻다', '하다', '.', '코', '엔엘', '파이', '로', '시작', '해보다', '.']
print(okt.nouns(text))
>>
['한글', '자연어', '처리', '코', '엔엘', '파이', '시작']
print(okt.phrases(text))
>>
['한글', '한글 자연어', '한글 자연어 처리', '코엔엘파이', '시작', '자연어', '처리', '엔엘', '파이']
print(okt.pos(text))
>>
[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('어떻게', 'Adjective'),
('하지', 'Verb'), ('.', 'Punctuation'), ('코', 'Noun'), ('엔엘', 'Noun'), ('파이', 'Noun'),
('로', 'Josa'), ('시작', 'Noun'), ('해봐야지', 'Verb'), ('.', 'Punctuation')]
print(okt.pos(text, join=True))
>>
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '어떻게/Adjective', '하지/Verb',
'./Punctuation', '코/Noun', '엔엘/Noun', '파이/Noun', '로/Josa', '시작/Noun',
'해봐야지/Verb', './Punctuation']
728x90
반응형
'NLP > KoNLPy' 카테고리의 다른 글
[NLP] Mecab 설치(Windows OS) (0) | 2021.04.21 |
---|---|
[NLP] soynlp (0) | 2021.04.11 |
[NLP] Mecab (0) | 2021.04.11 |
[NLP] Khaii (0) | 2021.03.18 |
[NLP] KoNLPy (0) | 2021.03.11 |