Python/데이터 분석

[Python] 데이터 분석 파이썬 라이브러리

데이터 세상 2022. 4. 26. 00:35

Scipy

과학 계산용 함수를 모아놓은 파이썬 패키지

고성능 선형대수, 함수 최적화, 신호처리, 특수한 수학 함수와 통계 분포 등을 포함한 많은 기능 제공

pip install scipy
import scipy as sp

 

matplotlib

[Data Visualization] - Matplotlib

과학 계산용 그래프 라이브러리

선 그래프, 히스토그램, 산점도 등을 지원하며 고품질 그래프를 그려준다.

pip install matplotlib
import matplotlib.pylab as plt

 

seaborn

[Data Visualization] - Seaborn

matplotlib 패키지에서 지원하지 않는 고급 통계 차트를 그리는 통계용 시각화 기능을 제공한다.

pip install seaborn
import seaborn as sns

 

statsmodels

추정 및 검정, 회귀분석, 시계열분석 등의 기능을 제공한다.

기존에 R에서 가능했던 다양한 회귀분석과 시계열 분석 방법론을 그대로 파이썬에서 이용할 수 있다.

제공 기능 예시

  • 예제 데이터셋
  • 검정 및 모수추정
  • 회귀분석
  • 선형회귀
    • 강건회귀
    • 일반화 선형모형
    • 혼합효과모형
    • 이산종속변수
  • 시계열 분석
    • SARIMAX 모형
    • 상태공간 모형
    • 벡터 AR 모형
  • 생존분석
  • 요인분석
pip install statsmodels
import statsmodels.api as sm

 

scikit-learn

[Machine Learning/Scikit-Learn] - Scikit-Learn

다양한 머신러닝 모형을 하나의 패키지에서 모두 제공한다.

제공하는 머신러닝 모형 예시

  • 데이터셋
    • 회귀분석, 분류, 클러스터링용 가상 데이터셋 생성
    • 각종 벤치마크 데이터셋
  • 전처리
    • 스케일링
    • 누락데이터 처리
    • 텍스트 토큰화
  • 지도학습
    • 회귀분석
    • LDA/QDA
    • 서포트벡터머신
    • 퍼셉트론, SGD
    • KNN
    • 가우스프로세스
    • 나이브베이즈
    • 의사결정나무
    • 랜덤포레스트, 부스팅
  • 비지도학습
    • 가우스 혼합모형
    • 클러스터링
    • PCA
  • 성능 최적화
    • 교차검증
    • 특징선택
    • 하이퍼파라미터 최적화
pip install sklearn
import sklearn as sk

 

missingno

pandas 데이터프레임 데이터에서 누락된 데이터를 찾고 시각화하는 기능을 제공한다.

pip install missingno

 

patsy

pandas 데이터프레임 데이터에서 선택, 변형하는 기능을 제공한다.

statsmodels가 의존하는 패키지이므로 statsmodels 설치 시 별도로 설치할 필요가 없다.

 

텍스트 전처리

 

 

이미지 전처리

  • opencv

사운드 전처리

  • librosa

지리정보 전처리

  • geopandas
반응형

'Python > 데이터 분석' 카테고리의 다른 글

[데이터 분석] Data Scaling (스케일 조정)  (0) 2022.04.28
[Python] 유용한 도구들  (0) 2022.04.25
데이터 분석  (0) 2022.04.25
[Python] 파이썬 통계 분석  (0) 2021.05.10