Python/데이터 분석

[Python] 파이썬 통계 분석

데이터 세상 2021. 5. 10. 09:28
728x90
반응형

파이썬 통계 분석 개요

4차 산업혁명: 초연결, 지능, 융합 -> 사무인터넷, AI, 빅데이터

데이터 과학과(IoT + 빅데이터 + AI): 데이터 내재된 패턴 분석 -> 전략적 의미를 추론하는 방법

 

데이터의 분류

정형 데이터

  • 일정한 규칙으로 체계적으로 정리된 것으로 그 자체로 해석이 가능하여 바로 활용할 수 있음
  • 관계형 데이터베이스(DBMS)

반정형 데이터

  • 고정된 필드에 저장되어 있지는 않지만 XML, HTML 등의 메타데이터와 스키마를 포함하는 것으로 파일 형태 저장

비정형 데이터

  • 고정된 필드나 스키나가 없는 것
  • 스마트 기기에서 페이스북, 트위터, 유튜브 등으로 생성되는 소셜 데이터
  • IoT 환경에서 생성되는 위치 정보나 센서 데이터와 같은 사물 데이터 등

 

데이터 분석 방법

분석 목적에 따른 구분

통계 분석

  • 통계 기법에 의한 분석 방법으로 가장 대표적인 유형

예측 분석

  • 과거의 데이터와 변수 간의 관계를 이용하여 새로운 변수를 추정

데이터 마이닝 분석

  • 많은 데이터 속에 숨겨진 유용한 패턴을 추출하여 분류, 군집, 연관, 이상 탐지 분석 등을 수행

최적화 분석

  • 주어진 제한 조건을 만족하면서 목적 함수를 최대화 또는 최소화하는 방법을 찾는 것

 

데이터 과학 방법론

연구 목표 설정 -> 데이터 수집 -> 데이터 준비 -> 데이터 탐색 -> 데이터 모델링 -> 결과 발표 및 자동화

연구 목표 설정

  • 무엇을 분석할지 
  • 결과가 어디에 필요한지
  • 어떤 데이터가 필요한지

데이터 수집

  • 데이터의 위치와 형태를 확인 후 원시 데이터 수집
  • 웹 크롤링, Open API, RSS, 스트리밍, 로그 수집 등

데이터 준비

  • 데이터 여과
  • 데이터 정제: 결측치, 이상치 값 등 제거
  • 데이터 통합
  • 데이터 변환: 정규화, 집합화, 요약, 계층 생성, 단위 통일 등

데이터 탐색

  • 선 그래프, 히스토그램, 분포도

데이터 모델링

  • 모델 구성, 실행, 평가를 반복해서 문제 해결을 위한 모델 완성

결과 발표 및 자동화

 

통계 분석을 위한 벡터 연산

Python Comprehensions

  • [i for i in range(10)]

 

데이터 변수의 종류

척도수준

명의 척도

  • 단순 구분
  • ex)전화번호, 학생 번호

순서 척도

  • 순서관계나 대소관계 의미 있는 변수, 수치에 대한 차이값은 비교할 수 없음
  • ex)성적순위, 설문조사 만족도

간격 척도

  • 대소 관계 차이에 의미 부여
  • ex)연도, 온도, 학년

비례 척도

  • 대소관계, 차이, 비율이 모두 의미 있는 변수, 0 값이 없는 변수
  • ex)길이, 무게, 악력

데이터 중심의 지표

데이터 파악

  • 1. 평균, 분산, 수치 지표 등을 이용한 데이터 요약
  • 2. 시각화: 데이터를 시각적으로 표현

 

728x90
반응형