Python/문서 데이터 분석
[Python] Textract 문서 데이터 처리
데이터 세상
2022. 1. 10. 13:32
728x90
반응형
Textract
워드, 파워포인트, PDF 파일 등의 텍스트 추출
https://github.com/deanmalmgren/textract
GitHub - deanmalmgren/textract: extract text from any document. no muss. no fuss.
extract text from any document. no muss. no fuss. Contribute to deanmalmgren/textract development by creating an account on GitHub.
github.com
Textract 설치
pip install textract
Textract를 이용한 문서 데이터 추출
import textract
text = textract.process("path/to/file.extension")
728x90
반응형