반응형

파이썬 18

[Python] 파이썬 문법 기초

Intent 파이썬 공식 가이드인 PEP 8(https://peps.python.org/pep-0008/)에 따라 공백 4칸을 원칙으로 한다. PEP(Python Enhancement Proposals) 프로세스 https://peps.python.org/ 새로운 기능을 제안하고 커뮤니티의 의견을 수렴하여 파이썬의 디자인 결정을 문서화하는 파이썬의 주요 개발 프로세스 Naming Convention 변수명과 함수명은 snake case를 따른다. camelCase PascalCase snake_case Camel Case camel(낙타)에서 유래해 부른 이름이며 단어를 대소문자로 구분하여 섞어서 작명하는 방식이다. 자바의 대표적인 표기 방식이기도 하다. Pascal Case 첫 시작 문자도 대모자로 표..

[Python] 데이터 분석 파이썬 라이브러리

Scipy 과학 계산용 함수를 모아놓은 파이썬 패키지 고성능 선형대수, 함수 최적화, 신호처리, 특수한 수학 함수와 통계 분포 등을 포함한 많은 기능 제공 pip install scipy import scipy as sp matplotlib [Data Visualization] - Matplotlib 과학 계산용 그래프 라이브러리 선 그래프, 히스토그램, 산점도 등을 지원하며 고품질 그래프를 그려준다. pip install matplotlib import matplotlib.pylab as plt seaborn [Data Visualization] - Seaborn matplotlib 패키지에서 지원하지 않는 고급 통계 차트를 그리는 통계용 시각화 기능을 제공한다. pip install seaborn i..

[Python] Textract 문서 데이터 처리

Textract 워드, 파워포인트, PDF 파일 등의 텍스트 추출 https://github.com/deanmalmgren/textract GitHub - deanmalmgren/textract: extract text from any document. no muss. no fuss. extract text from any document. no muss. no fuss. Contribute to deanmalmgren/textract development by creating an account on GitHub. github.com Textract 설치 pip install textract Textract를 이용한 문서 데이터 추출 import textract text = textract.proces..

[Python] [tika-python] PDF, Powerpoint 정보 추출

tika-python [tika-pyhon @github] GitHub - chrismattmann/tika-python: Tika-Python is a Python binding to the Apache Tika™ REST services allowing Tika to be call Tika-Python is a Python binding to the Apache Tika™ REST services allowing Tika to be called natively in the Python community. - GitHub - chrismattmann/tika-python: Tika-Python is a Python binding ... github.com Apach Tika REST 서비스에 대한 Py..

[Python] [tabula-py] PDF 파일 정보 추출

tabula-py https://github.com/chezou/tabula-py GitHub - chezou/tabula-py: Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame - GitHub - chezou/tabula-py: Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame github.com tabula-py를 이용할 경우 PDF 파일 내의 테이블 정보를 pandas의 Dataframe으로 추..

[Python] [PyMuPDF] PDF 파일 정보 추출

PyMuPDF 설치 pip install PyMuPDF PyMuPDF를 이용한 파일 정보 추출 import fitz pdf_doc = fitz.open("sample.pdf") # number of pages print(f"전체 Page 수: {pdf_doc.page_count}") # Get the first page page = pdf_doc.load_page(0) # page 내의 텍스트 추출 print(page.get_text()) 결과 전체 Page 수:1 텍스트 상자: 슬라이드 내의 텍스트 데이터 추출 확인 테이블 컬럼1 테이블 컬럼2 테이블 컬러3 데이터1_1 데이터2_1 데이터3_1 데이터1_2 데이터2_2 데이터3_2 데이터1_3 데이터2_3 데이터3_3 ※ 한글 텍스트가 정상 추출됨을 ..

[Python] [PyPDF2] PDF 파일 정보 추출

PyPDF2 https://pythonhosted.org/PyPDF2/ PyPDF2 Documentation — PyPDF2 1.26.0 documentation pythonhosted.org PyPDF2 설치 pip install PyPDF2 PyPDF2를 이용한 파일 정보 추출 from PyPDF2 import PdfFileReader pdfreader = PdfFileReader("sample.pdf") # Document Information print(pdfreader.documentInfo) # Total page number print(f"Number of pages: {pdfreader.numPages}") # Get text from the first page print(pdfreader..

[Python] Python을 이용한 Powerpoint 파일 정보 추출 비교

Powerpoint 파일 정보 추출을 위한 python 라이브러리들을 소개하고자 한다. python-pptx [python-pptx] 파워포인트 문서 정보 추출 [python-pptx] Powerpoint 문서 정보 추출 python-pptx a Python library for creating and updating PowerPoint (.pptx) files 파워포인트(.pptx) 파일의 슬라이드 내 데이터를 추출하여 분석하고자 하는 경우 python-pptx를 활용할 수 있다. [python-pptx.. yumdata.tistory.com table, cell, row, column 등의 object 활용해서 텍스트 데이터 추출 가능 pptx 파일에만 사용 가능하고, ppt 파일은 사용할 수 없음 ..

[Python] [python-pptx] Powerpoint 문서 정보 추출

python-pptx a Python library for creating and updating PowerPoint (.pptx) files 파워포인트(.pptx) 파일의 슬라이드 내 데이터를 추출하여 분석하고자 하는 경우 python-pptx를 활용할 수 있다. [python-pptx document] python-pptx — python-pptx 0.6.21 documentation python-pptx.readthedocs.io [python-pptx @github] GitHub - scanny/python-pptx: Create Open XML PowerPoint documents in Python Create Open XML PowerPoint documents in Python. Contri..

[Python] Python Module

Module 함수나 변수, 클래스 등을 가진 파일(.py) 모듈 안에는 함수, 클래스 또는 변수들이 정의되어 있음 파이썬은 많은 표준 라이브러리 모듈을 제공 Package 모듈을 효율적으로 관리하기 위한 모듈의 상위 개념 공동 작업이나 코드의 유지 보수 등에 유리 import 패키지.모듈 import 패키지.모듈.변수 import 패키지.모듈.함수 import 패키지.모듈.클래스 from 패키지.모듈 import 변수/함수/클래스 Google Python Style Guide google.github.io/styleguide/pyguide.html styleguide Style guides for Google-originated open-source projects google.github.io Impo..

[Numpy] Numpy (Numerical Python)

Numpy (Numerical Python) Numerical Python의 약자로서 산술계산에 특화된 라이브러리 다차원 배열을 위한 기능과 선형 대수 연산을 제공 반복문을 작성할 필요없이 전체 데이터 배열에 대한 빠른 연산 위한 표준 수학 함수 제공 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용 선형대수, 난수 발생기, 푸리에 변환이 가능 Numpy 특징 ndarray(다차원 배열객체) numpy에서 제공하는 대규모의 데이터 집합을 담을 수 있는 자료 구조로서 N차원의 배열 객체를 의미 빠르고 효율적인 메모리 사용, 유연한 브로드캐스팅 지원 디스크로부터 배열 기반의 데이터를 읽거나 쓰기 용이 C, C++, 포트란 등으로 쓰여진 코드를 통합 가능 선형대수 계산, 푸리에 ..

Python/Numpy 2021.02.24

[Python] Python Class

Class 클래스(Class): 객체를 만드는 구조/틀 객체(Object) 객체 = 속성(attribute) + 기능(method) 객체 = 변수 + 함수 Class Variable 클래스와 인스턴스 전체가 공유하는 변수 Class Method 클래스와 인스턴스 전체가 공유하는 함수 인스턴스(Instance) 클래스가 실질적으로 실체화될 때(메모리에 할당되어 사용될 때) 그 객체를 부르는 용어 클래스 선언 클래스 호출을 통한 객체 할당 # Class 선언 class MyClass(): class_var = '클래스 변수' def __init__(self, v1, v2): self.v1 = v1 self.v2 = v2 @classmethod def class_method(cls): print("클래스의 메..

[Python] Python File

Python 출력 print() print(출력대상1, 출력대상2, ..., sep='-', end='-') python 표준 출력 함수 sep: 출력 시 출력 대상들의 사이에 구분자를 삽입(기본값: 공백) end: 마지막 문자열을 출력하고 이어서 출력할 문자 기술(기본값 : 줄바꿈 문자) file: 출력 위치를 변경(기본값: sys.stdout(표준 출력 장치, 모니터)) flush: 스트림을 강제적으로 flush할지를 지정(기본값: False) print("일","이",1,2) print("일","이",1,2,sep='-') print("첫번째", end='---->') print("두번째") >> 일 이 1 2 일-이-1-2 첫번째---->두번째 with file("test.txt", "w") as..

[Python] Python Function

함수 정의 def 함수이름(매개변수): 함수의 내용 return 반환값 함수이름: 사용자가 정의하는 함수이름, 기존에 사용되는 함수나 예약어들을 제외하고 사용 매개변수: 함수 안에서 사용 할 변수들 (생략 가능) return: 함수 안에서 모든 연산을 마친 후 반환할 값 (생략 가능) 반환값을 정의하지 않으면 자동으로 None 을 반환 precedure: 아무런 값을 반환하지 않는 함수 함수의 매개변수 positional argument, keyword argument 초기 값 없는 변수, 초기값 있는 변수 순으로 배치 함수의 매개 변수가 몇 개가 필요한지 모를 때 Inside a function header: * collects all the positional arguments in a tuple. ..

728x90
반응형