반응형

Python/데이터 분석 5

[데이터 분석] Data Scaling (스케일 조정)

Data Scaling (특성 스케일 바꾸기) 데이터를 모델링하기 전에는 스케일링 과정을 거쳐야 한다. 스케일링을 통해 다차원의 값들을 비교 분석하기 쉽게 만들어주며, 자료의 오버플로우(overflow)나 언더플로우(underflow)를 방지 하고, 독립 변수의 공분산 행렬의 조건수(condition number)를 감소시켜 최적화 과정에서의 안정성 및 수렴 속도를 향상 시킨다. StandardScaler (Xi - (X의 평균)) / (X의 표준편차) 각 특성의 평균을 0, 분산을 1로 변경하여 특성의 스케일을 맞춘다. 최소값과 최댓값의 크기를 제한하지 않는다. 이상치에 상대적으로 취약하다. from sklearn.preprocessing import StandardScaler features = np..

[Python] 데이터 분석 파이썬 라이브러리

Scipy 과학 계산용 함수를 모아놓은 파이썬 패키지 고성능 선형대수, 함수 최적화, 신호처리, 특수한 수학 함수와 통계 분포 등을 포함한 많은 기능 제공 pip install scipy import scipy as sp matplotlib [Data Visualization] - Matplotlib 과학 계산용 그래프 라이브러리 선 그래프, 히스토그램, 산점도 등을 지원하며 고품질 그래프를 그려준다. pip install matplotlib import matplotlib.pylab as plt seaborn [Data Visualization] - Seaborn matplotlib 패키지에서 지원하지 않는 고급 통계 차트를 그리는 통계용 시각화 기능을 제공한다. pip install seaborn i..

데이터 분석

빅 데이터 분석 프로세스 Problem Definition 업무 이해 혹은 문제를 정의 Data Definition 데이터 이해 Design of Experiment / Sampling 실험 계획 수립 또는 표본화 Data Processing / Data Wrangling 데이터 가공 PDCA(Plan-Do-Check-Action) 주기에 따라 반복 EDA(Exploratory Data Analysis) / Data Visualization 탐색적 분석 데이터 시각화 CDA(Confirmatory Data Anaylysis) / Statistical Modeling 확증적 데이터 분석 통계적 모델링 혹은 모형화 지도 학습 모델 자율 학습 모델 Verification A/B 테스트 등 Data Wrangl..

[Python] 파이썬 통계 분석

파이썬 통계 분석 개요 4차 산업혁명: 초연결, 지능, 융합 -> 사무인터넷, AI, 빅데이터 데이터 과학과(IoT + 빅데이터 + AI): 데이터 내재된 패턴 분석 -> 전략적 의미를 추론하는 방법 데이터의 분류 정형 데이터 일정한 규칙으로 체계적으로 정리된 것으로 그 자체로 해석이 가능하여 바로 활용할 수 있음 관계형 데이터베이스(DBMS) 반정형 데이터 고정된 필드에 저장되어 있지는 않지만 XML, HTML 등의 메타데이터와 스키마를 포함하는 것으로 파일 형태 저장 비정형 데이터 고정된 필드나 스키나가 없는 것 스마트 기기에서 페이스북, 트위터, 유튜브 등으로 생성되는 소셜 데이터 IoT 환경에서 생성되는 위치 정보나 센서 데이터와 같은 사물 데이터 등 데이터 분석 방법 분석 목적에 따른 구분 통계..

728x90
반응형