728x90
반응형
Textract
워드, 파워포인트, PDF 파일 등의 텍스트 추출
https://github.com/deanmalmgren/textract
Textract 설치
pip install textract
Textract를 이용한 문서 데이터 추출
import textract
text = textract.process("path/to/file.extension")
728x90
반응형
'Python > 문서 데이터 분석' 카테고리의 다른 글
[Python] [tika-python] PDF, Powerpoint 정보 추출 (0) | 2022.01.10 |
---|---|
[Python] [tabula-py] PDF 파일 정보 추출 (0) | 2022.01.10 |
[Python] [PyMuPDF] PDF 파일 정보 추출 (0) | 2022.01.10 |
[Python] [PyPDF2] PDF 파일 정보 추출 (0) | 2022.01.10 |
[Python] Python을 이용한 PDF 파일 정보 추출 (0) | 2022.01.09 |