728x90
반응형
파이썬 통계 분석 개요
4차 산업혁명: 초연결, 지능, 융합 -> 사무인터넷, AI, 빅데이터
데이터 과학과(IoT + 빅데이터 + AI): 데이터 내재된 패턴 분석 -> 전략적 의미를 추론하는 방법
데이터의 분류
정형 데이터
- 일정한 규칙으로 체계적으로 정리된 것으로 그 자체로 해석이 가능하여 바로 활용할 수 있음
- 관계형 데이터베이스(DBMS)
반정형 데이터
- 고정된 필드에 저장되어 있지는 않지만 XML, HTML 등의 메타데이터와 스키마를 포함하는 것으로 파일 형태 저장
비정형 데이터
- 고정된 필드나 스키나가 없는 것
- 스마트 기기에서 페이스북, 트위터, 유튜브 등으로 생성되는 소셜 데이터
- IoT 환경에서 생성되는 위치 정보나 센서 데이터와 같은 사물 데이터 등
데이터 분석 방법
분석 목적에 따른 구분
통계 분석
- 통계 기법에 의한 분석 방법으로 가장 대표적인 유형
예측 분석
- 과거의 데이터와 변수 간의 관계를 이용하여 새로운 변수를 추정
데이터 마이닝 분석
- 많은 데이터 속에 숨겨진 유용한 패턴을 추출하여 분류, 군집, 연관, 이상 탐지 분석 등을 수행
최적화 분석
- 주어진 제한 조건을 만족하면서 목적 함수를 최대화 또는 최소화하는 방법을 찾는 것
데이터 과학 방법론
연구 목표 설정 -> 데이터 수집 -> 데이터 준비 -> 데이터 탐색 -> 데이터 모델링 -> 결과 발표 및 자동화
연구 목표 설정
- 무엇을 분석할지
- 결과가 어디에 필요한지
- 어떤 데이터가 필요한지
데이터 수집
- 데이터의 위치와 형태를 확인 후 원시 데이터 수집
- 웹 크롤링, Open API, RSS, 스트리밍, 로그 수집 등
데이터 준비
- 데이터 여과
- 데이터 정제: 결측치, 이상치 값 등 제거
- 데이터 통합
- 데이터 변환: 정규화, 집합화, 요약, 계층 생성, 단위 통일 등
데이터 탐색
- 선 그래프, 히스토그램, 분포도
데이터 모델링
- 모델 구성, 실행, 평가를 반복해서 문제 해결을 위한 모델 완성
결과 발표 및 자동화
통계 분석을 위한 벡터 연산
Python Comprehensions
- [i for i in range(10)]
데이터 변수의 종류
척도수준
명의 척도
- 단순 구분
- ex)전화번호, 학생 번호
순서 척도
- 순서관계나 대소관계 의미 있는 변수, 수치에 대한 차이값은 비교할 수 없음
- ex)성적순위, 설문조사 만족도
간격 척도
- 대소 관계 차이에 의미 부여
- ex)연도, 온도, 학년
비례 척도
- 대소관계, 차이, 비율이 모두 의미 있는 변수, 0 값이 없는 변수
- ex)길이, 무게, 악력
데이터 중심의 지표
데이터 파악
- 1. 평균, 분산, 수치 지표 등을 이용한 데이터 요약
- 2. 시각화: 데이터를 시각적으로 표현
728x90
반응형
'Python > 데이터 분석' 카테고리의 다른 글
[데이터 분석] Data Scaling (스케일 조정) (0) | 2022.04.28 |
---|---|
[Python] 데이터 분석 파이썬 라이브러리 (0) | 2022.04.26 |
[Python] 유용한 도구들 (0) | 2022.04.25 |
데이터 분석 (0) | 2022.04.25 |