[Python] [PyPDF2] PDF 파일 정보 추출

Python/문서 데이터 분석

[Python] [PyPDF2] PDF 파일 정보 추출

데이터 세상 2022. 1. 10. 13:15

728x90

PyPDF2

https://pythonhosted.org/PyPDF2/

PyPDF2 Documentation — PyPDF2 1.26.0 documentation

pythonhosted.org

PyPDF2 설치

pip install PyPDF2

PyPDF2를 이용한 파일 정보 추출

from PyPDF2 import PdfFileReader
pdfreader = PdfFileReader("sample.pdf")
# Document Information
print(pdfreader.documentInfo)
# Total page number
print(f"Number of pages: {pdfreader.numPages}")
# Get text from the first page
print(pdfreader.getPage(0).extractText())

결과

{
	'/Title': 'PowerPoint 프레젠테이션', 
	'/Author': 'Author', 
	'/CreationDate': "D:20220110111620+09'00'",
	'/ModDate': "D:20220110111620+09'00'", 
	'/Producer': 'Microsoft® PowerPoint® 2013', 
	'/Creator': 'Microsoft® PowerPoint® 2013'
}

Number of pages: 1

:
1
2
3
1_1
2_1
3_1
1_2
2_2
3_2
1_3
2_3
3_3

※ 한글 텍스트가 정상 추출되지 않는다.

728x90

저작자표시 비영리 변경금지

'Python > 문서 데이터 분석' 카테고리의 다른 글

[Python] [tabula-py] PDF 파일 정보 추출 (0)	2022.01.10
[Python] [PyMuPDF] PDF 파일 정보 추출 (0)	2022.01.10
[Python] Python을 이용한 PDF 파일 정보 추출 (0)	2022.01.09
[Python] Python을 이용한 Powerpoint 파일 정보 추출 비교 (0)	2022.01.09
[Python] [python-pptx] Powerpoint 문서 정보 추출 (0)	2022.01.09

현재글[Python] [PyPDF2] PDF 파일 정보 추출

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터와 인공지능 훑어보기

[Python] [PyPDF2] PDF 파일 정보 추출

PyPDF2

PyPDF2 설치

PyPDF2를 이용한 파일 정보 추출

'Python > 문서 데이터 분석' 카테고리의 다른 글

'Python/문서 데이터 분석'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[Python] [PyPDF2] PDF 파일 정보 추출

PyPDF2

PyPDF2 설치

PyPDF2를 이용한 파일 정보 추출

'Python > 문서 데이터 분석' 카테고리의 다른 글

'Python/문서 데이터 분석'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역