728x90
반응형
PyPDF2
https://pythonhosted.org/PyPDF2/
PyPDF2 설치
pip install PyPDF2
PyPDF2를 이용한 파일 정보 추출
from PyPDF2 import PdfFileReader
pdfreader = PdfFileReader("sample.pdf")
# Document Information
print(pdfreader.documentInfo)
# Total page number
print(f"Number of pages: {pdfreader.numPages}")
# Get text from the first page
print(pdfreader.getPage(0).extractText())
결과
{
'/Title': 'PowerPoint 프레젠테이션',
'/Author': 'Author',
'/CreationDate': "D:20220110111620+09'00'",
'/ModDate': "D:20220110111620+09'00'",
'/Producer': 'Microsoft® PowerPoint® 2013',
'/Creator': 'Microsoft® PowerPoint® 2013'
}
Number of pages: 1
:
1
2
3
1_1
2_1
3_1
1_2
2_2
3_2
1_3
2_3
3_3
※ 한글 텍스트가 정상 추출되지 않는다.
728x90
반응형
'Python > 문서 데이터 분석' 카테고리의 다른 글
[Python] [tabula-py] PDF 파일 정보 추출 (0) | 2022.01.10 |
---|---|
[Python] [PyMuPDF] PDF 파일 정보 추출 (0) | 2022.01.10 |
[Python] Python을 이용한 PDF 파일 정보 추출 (0) | 2022.01.09 |
[Python] Python을 이용한 Powerpoint 파일 정보 추출 비교 (0) | 2022.01.09 |
[Python] [python-pptx] Powerpoint 문서 정보 추출 (0) | 2022.01.09 |