Machine Learning/Machine Learning

Data Mining (데이터 마이닝)

데이터 세상 2022. 10. 5. 14:30
728x90
반응형

Data Mining (데이터 마이닝)

다양한 관점에서 데이터를 분석해 의미를 도출 (데이터의 특징을 알아내는 것이 중점)

데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것

일반적으로 데이터 웨어하우스나 연결된 데이터 세트 컬렉션 등 축적된 데이터에서 유용한 정보를 추출하는 과정

  • 보유한 데이터를 다양한 관점에서 분석하고, 그 결과를 유용한 정보로 조합하는 일
  • 방대한 데이터 속에 숨어있던 패턴과 상관성을 통계적 수법들로 식별하여 가치를 부여
  • 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분 
데이터 추출 → 데이터 정제 → 데이터 변경 → 데이터 분석 → 데이터 해석 → 보고서 작성

CRISP- DM (Cross-Industry Standard Process -Data Mining)

CRISP-DM

Business Issue Understanding

적용할 프로젝트에서 발생하는 문제점을 파악하고, 프로젝트의 특성을 파악

 

Data Understanding

모델을 만들기 전에 데이터의 특성을 파악

데이터가 어떻게 생성되었는지 파악

 

Data Preparation

모델을 만들기 전에 데이터가 누락되어 있는지, 오탈자가 있는지 확인

데이터의 중복, 누락된 값 및 이상값과 같은 노이즈를 제거하고, 모델 내에서 최적의 정확도를 보장하기 위해 가장 중요한 예측 변수를 유지

데이터를 정규화(Nomalization)하여 데이터 마이닝 적용을 용이하게 함

 

Analysis / Modeling

데이터를 분석한 결과를 토대로 어떠한 알고리즘을 적용할지 분석하고 적용

 

Validation / Evaluation

적용한 결과를 검증하고 정확도 등을 평가

검증과 평가치가 부족하다면 적절한 알고리즘을 적용하기 못했거나, 데이터의 전처리가 잘못된 것일 수 있음

 

Presentation / Visualization (Deployment)

적용한 모델의 검증과 평가가 완료되고 만족한다면 다른 사용자들이 활용할 수 있게 배포

 


Data Mining 주요 기술

Association (연관 분석)

  • 주어진 데이터 셋에서 자주 발생하는 속성값들을 연결해주는 연관 규칙을 발견하는 일
  • ex) 고객이 구매한 쇼핑카트 내의 개별 상품간의 상관관계 식별

 

Regression (회귀 분석)

  • 독립 변수 분석을 통해 종속 변수가 무엇인지 밝혀내는 일
  • ex) 어떤 상품의 예상 판매 실적을 두고 주요 고객들의 소득 수준과 상품의 판매 가격과의 상관관계로부터 예측하는 방법

 

Classification (분류)

  • 개체들을 여러 카테고리로 나누는 일

 


데이터 랭글링(Data Wrangling) / 데이터 먼징(Data Munging)

데이터 준비 및 이해

데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며 경우에 따라 데이터를 통합 및 변환하는 과정

다양한 데이터 소스(비정형 데이터와 정형 데이터가 공존)의 데이터를 통합하고 쉽게 액세스하고 분석할 수 있도록 정리하는 프로세스

 

데이터 랭글링 6단계

Discovering (탐색)

데이터에 대한 깊은 이해를 하는 단계

데이터의 내용 파악과 분석에 유용한 방법을 정확하게 발견하는 것

데이터 셋의 가치 또는 잠재적 사용을 신속하게 식별하는 데 매우 중요

데이터 값의 분포 및 이상치와 같은 데이터의 고유 요소를 이해하여 변환 및 분석 프로세스에 활용

 

Structuring (구조화)

필요없는 행/컬럼 삭제 및 분석 가능한 형태로 구조화하는 단계

데이터는 서로 다른 형태와 크기로 제공되므로 구조화가 필요

 

Cleaning (정제)

데이터 이상치 결측치를 발견하고 처리하는 단계

분석결과를 왜곡할 수 있는 소스 데이터는 반드시 정제 과정을 거쳐야 함

결측치 및 이상치 처리, 서로 다른 데이터 타입 또는 문자열 값의 표준화 또는 숫자 표현 방법의 정규화

예, null 값을 0 또는 빈 문자열로 대체하거나 이상치를 제거하는 과정 필요

 

Enriching (보완)

데이터를 풍부하게 하기 위한 전략을 짜는 단계

서로 다른 내부 또는 외부 데이터를 분석에 통합하여 분석 범위를 확대하는 과정

예, 구매 거래 데이터를 각 고객의 프로필 또는 과거 구매 패턴과 관련된 데이터와 조인함으로써 다양한 분석 작업에 활용

 

Validating (검증)

데이터의 분포 등을 검정하는 단계

유효성 검사는 데이터 품질 및 일관성 이슈에 대해 적절한 정제 및 변환작업으로 문제가 올바르게 해결되었는지 확인하는 작업

최소한 속성/필드의 값이 제약 조건의 만족 여부 확인 뿐 아니라 구문 제약 조건을 따르는지 평가되어야 함

 

Publishing (배포)

데이터를 분석 모델의 인풋으로 입력하는 단계

프로젝트 요구 (특정 분석 주제와 관련된 데이터 적재 등) 또는 향후 프로젝트 요구 (문서화 및 보관 변환 로직 아카이빙)에 대한 데이터 랭글링 결과물의 딜리버리

 


데이터 마이닝과 머신러닝의 차이

데이터 마이닝과 머신러닝은 데이터의 패턴을 파악하는 알고리즘은 동일

 

분류나 예측, 군집과 같은 기술, 모델, 알고리즘을 이용해 문제를 해결하는 것은

Computer Science 관점에서는 머신러닝이라고 하고, 통계학 관점에서는 데이터 마이닝이라고 한다.

 

데이터 마이닝은 가지고 있는 데이터에서 현상 및 특성을 발견하는 것이 목적인 반면,

머신러닝은 거기에서 그치지 않고, 기존 데이터를 통해 학습을 시킨 후 새로운 데이터에 대한 예측값을 알아내는 데 목적이 있다.

 


Reference

728x90
반응형