Python/데이터 분석

데이터 분석

데이터 세상 2022. 4. 25. 12:15

빅 데이터 분석 프로세스

Problem Definition

  • 업무 이해 혹은 문제를 정의

Data Definition

  • 데이터 이해

Design of Experiment / Sampling

  • 실험 계획 수립 또는 표본화

Data Processing / Data Wrangling

  • 데이터 가공
  • PDCA(Plan-Do-Check-Action) 주기에 따라 반복

EDA(Exploratory Data Analysis)  / Data Visualization

  • 탐색적 분석
  • 데이터 시각화

CDA(Confirmatory Data Anaylysis) / Statistical Modeling

  • 확증적 데이터 분석
  • 통계적 모델링 혹은 모형화
    • 지도 학습 모델
    • 자율 학습 모델

Verification

  • A/B 테스트 등

 

Data Wrangling / Data Munging

Data Wrangling, Data Mining, Data Munging은 복잡하고 지저분한 상태의 데이터를 간단한 분석과 접근을 위해 통합하는 과정이다.

Data Wrangling

Data Wrangling은 데이터 세트를 쉽게 사용할 수 있도록 만들기 위해 처리하는 것으로 데이터 정제를 뜻하기도 한다.

즉, 가공하지 않은 원형의 데이터를 수동 방식으로 새로운 유형으로 제작 및 전환하는 것을 의미한다.

데이터 전환은 정보를 보다 편리하게 구성 및 사용하기 위함이다.

  • 불일치나 오류의 수정
  • 서식처럼 기계가 읽을 수 없는 요소의 제거
  • 행과 열의 제목을 위한 표준 라벨의 사용
  • 숫자나 날짜 그 외 수량이 적절하게 표현되도록 보장
  • 적합한 파일 포맷으로 변환
  • 사용되는 또 다른 데이터 세트와 라벨을 일치시키는 과정(데이터 통합)

Data Munging

전처리, 파싱, 필터링과 같이 데이터를 이리저리 핸들링한다는 뜻이다.

Data munging과 Data wrangling과 같이 쓰인다.

 

반응형