Python/문서 데이터 분석

[Python] Textract 문서 데이터 처리

데이터 세상 2022. 1. 10. 13:32
728x90
반응형

Textract

워드, 파워포인트, PDF 파일 등의 텍스트 추출

https://github.com/deanmalmgren/textract

 

GitHub - deanmalmgren/textract: extract text from any document. no muss. no fuss.

extract text from any document. no muss. no fuss. Contribute to deanmalmgren/textract development by creating an account on GitHub.

github.com

 

Textract 설치

pip install textract

 

Textract를 이용한 문서 데이터 추출

import textract
text = textract.process("path/to/file.extension")
728x90
반응형