728x90
반응형
PDF 파일 정보 추출을 위한 python 라이브러리들을 소개하고자 한다.
PDF 파일에서 추출하고 싶은 데이터의 구조(텍스트, 테이블 데이터 등)나 Output 형태(이미지 파일, Dataframe 등)에 따라 적합한 라이브러리를 채택하여 데이터를 추출해야 한다.
PyPDF2
※ 한글 텍스트가 정상 추출되지 않는다.
PyMuPDF
※ 한글 텍스트가 정상 추출되지만, 테이블 형태의 테이터를 파악하기 어렵다.
tabula-py
※ PDF 파일 내의 테이블 정보를 pandas의 Dataframe으로 추출할 수 있다.
[Python/문서 데이터 분석] - tabula-py
Tika-python
이전 발행글의 Tika-python을 참고하여 PDF 파일의 정보를 추출할 수 있다.
[Python/문서 데이터 분석] - tika-python
Textract
References
728x90
반응형
'Python > 문서 데이터 분석' 카테고리의 다른 글
[Python] [tabula-py] PDF 파일 정보 추출 (0) | 2022.01.10 |
---|---|
[Python] [PyMuPDF] PDF 파일 정보 추출 (0) | 2022.01.10 |
[Python] [PyPDF2] PDF 파일 정보 추출 (0) | 2022.01.10 |
[Python] Python을 이용한 Powerpoint 파일 정보 추출 비교 (0) | 2022.01.09 |
[Python] [python-pptx] Powerpoint 문서 정보 추출 (0) | 2022.01.09 |