반응형

분류 전체보기 297

PII (Personally Identifiable Information, 개인 식별 정보)

PII (Personally Identifiable Information, 개인 식별 정보) 잠재적으로 특정 개인을 식별할 수 있는 모든 데이터 한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주 사람으로 개인으로 고유하게 식별할 수 있는 모든 정보 name address email telephone number date of birth passport number fingerprint driver's license number credit or debit card number Social Security number References https://www.techtarget.com/searchsecurity/defin..

NLP/NLP 기초 2022.12.13

epoch, batch size, iteration

batch (배치) 모델의 가중치를 한번 업데이트시킬 때 사용되는 샘플들의 묶음을 의미 mini batch (미니 배치) 전체 데이터 셋을 몇 개의 데이터 셋으로 나누었을 때, 그 작은 데이터 셋 뭉치 batch size (배치 사이즈) 하나의 미니 배치에 넘겨주는 데이터 갯수, 즉 한번의 배치마다 주는 샘플의 크기 배치 사이즈가 너무 크면 한번에 처리해야 할 양이 많이 때문에 학습 속도가 느려짐 경우에 따라서는 메모리 부족 문제가 발생할 수도 있음 배치 사이즈가 너무 적으면 너무 적은 샘플로 가중치가 자주 업데이트되기 때문에 비교적 불안정하게 훈련될 수 있음 iteration (이터레이션) 하나의 미니 배치를 학습할 때 1iteration이라고 한다. 즉, 미니 배치 갯수 = 이터레이션 수 epoch ..

[Marketing] Lookback Window (전환 추적 기간)

Lookback Window (전환 추적 기간) 지정한 모델에서의 전환 기간을 설정하는 것을 의미 the period of time after which an ad is viewed or clicked that a conversion can be attributed to the ad. 광고를 보거나 클릭한 후 전환이 광고에 기인할 수 있는 기간 marketers to determine which ads resulted in conversion during the specified time frame. 마케터가 지정된 기간 동안 전환으로 이어진 광고를 결정할 수 있다. 가장 일반적인 전환 확인 기간은 7일이지만 한 달의 기간과 마찬가지로 1~3일도 드문 일이 아니다. 그러나 광고를 보고 1년 후에 발생하는..

[Statistical Analysis Model][Time Series Data] Holt-Winters

Holt-Winters Holt와 Winters은 계절성(Seasonality)을 잡아내기 위해 Holt의 기법을 확장하였다. Holt-Winters 모델은 단순하면서도 널리 활용되어지는 시계열 분석도구로서 많은 시계열예측의 기준모델로서 쓰이고 있다. 시계열 분석을 위한 모델로서 3가지 정보를 고려한다. Level: 수준 ℓt에 대한 것 Trend: 추세 bt에 대한 것 Seasonality: 계절 성분 st에 대한 것 m: 계절성의 주기 k: (h-1)/m 의 정수부분, 예측을 위해 계절성 지수를 추정한 값이 표본의 마지막 연도에서 유래하도록 함 Level 수준(level)은 평활값(smooting value)이라고도 하며, 주어진 데이터에서 추세(trend)나 계절성(seasonal)을 제거한 파트 ..

[Statistical Analysis Model][Time Series Data] BATS

BATS Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components The BATS algorithm combines Box-Cox Transformation, ARMA residuals, Trend, and Seasonality factors to forecast future values. BATS 알고리즘은 Box-Cox 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측한다. The BATS model is an exponential smoothing method along with the ARIMA model for finding the ..

[Statistical Analysis Model][Time Series Data] ARIMA (Autoregressive Integrated Moving Average)

ARIMA (Autoregressive Integrated Moving Average) 시계열 데이터(time series data)를 사용하여 데이터 세트를 더 잘 이해하거나 미래 추세를 예측하는 통계 분석 모델 Autoregressive Integrated Moving Average (ARIMA) model is a typical time series model, which can transform non-stationary data to stationary data through differencing, and then forecast the next value by using the past values, including the lagged values and lagged forecast err..

Statistical Modeling (통계 모델링)

Statistical Modeling (통계 모델링) 수학적 모델과 통계적 가정을 사용하여 샘플 데이터를 생성하고 실제 세계에 대한 예측을 수행하는 것 통계 모델은 실험의 가능한 모든 결과 집합에 대한 확률 분포의 모음이다. 통계 모델링은 데이터 세트에 통계 분석을 적용하는 데이터 과학 프로세스를 말한다. 통계 모델은 하나 이상의 랜덤 변수와 기타 비 랜덤 변수 간의 수학적 관계 원시 데이터에 통계 모델링을 적용하면 데이터 사이언티스트가 전략적 방식으로 데이터 분석에 접근할 수 있으며 변수 간의 관계를 식별하고 예측하는 데 도움이 되는 직관적인 시각화를 제공 통계 분석을 위한 일반적인 데이터 세트 사물 인터넷(IoT) 센서 인구 조사 데이터 공중 보건 데이터 소셜 미디어 데이터 이미지 데이터 실제 예측을..

[Machine Learning] Fairness (공정성)

Fairness in machine learning 특정 그룹의 사람들에 대한 AI 시스템의 부정적인 결과를 피하는 것이 중요!! 기계 학습의 공정성은 기계 학습 모델을 기반으로 하는 자동화된 의사 결정 프로세스에서 알고리즘 편향을 수정하려는 다양한 시도 기계 학습 프로세스 후 컴퓨터가 내리는 결정이 민감한 것으로 간주되는 변수를 기반으로 하는 경우 불공정한 건으로 간주될 수 있다. 예, 성별, 민족, 성적 취향, 장애 등 Disparate impact (이질적인 영향) a metric to evaluate fairness(bias) 모니터링 그룹에 대한 유리한 결과의 백분율 대 참조 그룹에 대한 양호한 결과의 백분율로 계산됨 num_positives: value represents the number ..

[Machine Learning] Feature Engineering

Feature Engineering 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업 머신러닝 알고리즘을 작동하기 위해 데이터의 도메인 지식을 활용해 특징(feature)를 만드는 과정 Feature Engineering is a Representation Problem Feature: A valuable attribute for your modeling task Importance of Feature Engineering Better feature..

AutoML (Automated Machine Learning)

AutoML (Automated Machine Learning) 머신러닝 모델링은 문제 정의 과정에서부터 데이터 수집, 전처리, 모델 학습 및 평가를 거쳐 서비스 적용에 이르기까지 많은 시간과 노력이 요구된다. 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위해 AutoML이 등장하였다. 현실의 문제에 기계학습 적용 과정을 전문가 없이 자동화 → Data Scientist의 역량이 필요한 작업을 자동화 데이터 사이언티스트들이 머신 러닝 모델(ML 모델)을 구축하고 훈련할 때 완료해야 하는 수동 작업을 자동화하는 프로세스 Feature engineering & selection choosing the type of machine le..

[Scikit-Learn] Pipeline

Scikit-Learn(sklearn) Pipeline 데이터 전처리에서 학습까지의 과정을 하나로 연결해주는 것 Scikit-learn 파이프라인을 사용하면 데이터 전처리 및 학습의 모든 단계를 포함하는 단일 개체를 만들 수 있다. 파이프라인에 작업(변수 선택, 표준화, 모형 클래스 등)을 등록만 해주면 기존 과정을 한 번에 처리할 수 있다. train과 test 데이터 손실을 피할 수 있다 교차검증 및 기타 모델 선택 유형을 쉽게 만든다. 재현성이 증가한다. Pipeline 작업명, 작업 클래스 두 개로 이루어진 튜플을 리스트로 담아서 전달 Pipeline(['작업명1', 작업 클래스 1), ('작업명2', 작업 클래스 2),...]) from sklearn.feature_selection import..

Cross Validation(CV, 교차검증)

Cross Validation(CV, 교차검증) Training set과 Validation 을 여러번 나눈 뒤 모델의 학습을 검증하는 방식 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있다. 데이터를 일정한 규칙에 따라 훈련 데이터와 테스트 데이터로 나누어 테스트 데이터에 대한 예측 정확도를 평가하는 방법 교차검증을 사용하여 테스트 데이터에 대해 예측 정확도를 평가하고, 정확도가 최대가 되는 변수의 조합을 선택하는 것 '파라미터 추정 ~ 정확도 평가' 반복으로 인해 계산량이 많아지는 단점이 있음 Cross Validation 효과 및 사용 이유 모든 데이터 셋을 평가에 활용하기 때문에 데이터셋이 부족할 ..

[Machine Learning] Pattern Recognition (패턴인식)

Pattern Recognition (패턴 인식) 컴퓨터가 어떤 대상을 인식하는 문제를 다루는 인지과학과 인공지능의 한 분야 모든 대상의 특징들을 가지고 어떤 대상임을 파악하는 것 인지과학(Cognitive Science) 지능과 인식문제를 다루는 포괄적인 과학 분야 인공지능(Artificial Intelligence) 인간의 학습능력과 추론능력을 인공적으로 모델링하여 외부 대상을 지각하는 능력을 컴퓨터로 구현하는 기술 패턴 인식 분야 문자 인식 일반적으로 스캐터로 받아들인 텍스트 이미지를 컴퓨터에서 편집 가능한 코드화된 문자로 변환 자동 우편물 분류기, 필기체 문자 인식, 수표 및 지폐 인식, 차량 번호판 인식 생체 인식과 인간 행동 패턴 분석 음성인식, 지문, 홍채, 얼굴 인식, DNA 매핑, 보행 ..

[Supervised Learning][Ensemble][Boosting] XGBoost (eXtream Gradient Boosting)

XGBoost(eXtream Gradient Boosting) Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리 Gradient Boosting 알고리즘에 overfitting 방지를 위한 기법이 추가된 알고리즘 Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율이 좋아서, 인기 있는 알고리즘 중 하나 Tree Boosting 기법을 활용한 모델 tree boosting 방식에 경사 하강법을 통해 최적화하는 방법 연산량을 줄이기 위해 의사결정 트리를 구성할 때 병렬 처리를 사용해 빠른 시간에 학습 가능 XGBoost 장점과 단점 장점 GBM (Gradient Boosting Machine) 대비 빠른 수행시간 병렬 처..

728x90
반응형