반응형

Machine Learning 75

[무료 머신 러닝 실습 시스템] Machine Learning for Kids

Machine Learning for Kids https://machinelearningforkids.co.uk/ Machine Learning for Kids An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch. machinelearningforkids.co.uk 이 무료 도구는 머신 러닝 시스템을 교육하고 이를 사용하여 무언가를 구축하기 위한 실습 경험을 제공하여 머신 러닝을 소개합니다. 텍스트, 숫자, 이미지 또는 소리를 인식하도록 ..

[Machine Learning] Federated Learning (연합 학습)

Federated Learning (연합 학습) 구글에서 제안된 기법으로 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델 학습을 수행하는 방법이다. 데이터를 메인 서버가 아닌, 개개인의 로컬 클라이언트에 두고 그 로컬 클라이언트에서 학습을 수행, 로컬 클라이언트에서 업데이트된 모델의 가중치들을 중앙 서버로 보내 취합해서 하나의 모델을 업데이트 하는 것을 의미한다. 다수의 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델을 학습하고 학습된 파라미터를 클라우드 상의 서버로 전송하여 통합한 파라미터를 인공 지능 모델 학습에 사용하고 이를 반복하는 방법이다. Federated Learning은 데이터 프라이버시 향상과 커뮤니케이션 효율성을 가진다. 수 만개의 로컬 디바이스의 데이터를 모두 중..

[Machine Learning] Active Learning

Active Learning 아직 레이블링이 되어 있지 않은 데이터(unlabeled data) 중에 모델 학습에 가장 효과적일 것 같은 데이터를 고르는 작업을 의미한다. 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로 가장 정보량이 많은 데이터를 선택하는 것을 목표로 한다. 효과적인 학습이란, 결과적으로 가지고 있는 데이터셋 전체를 잘 학습했을 때의 '기대 성능에 어떻게 하면 빠르게 도달할 수 있는지' 또는 ‘혹시 그 이상의 성능을 확보할 수 있는지’가를 의미할 수 있다. 관련 논문 dsgissin.github.io/DiscriminativeActiveLearning/about/ About An introduction to the active learning framework, from..

epoch, batch size, iteration

batch (배치) 모델의 가중치를 한번 업데이트시킬 때 사용되는 샘플들의 묶음을 의미 mini batch (미니 배치) 전체 데이터 셋을 몇 개의 데이터 셋으로 나누었을 때, 그 작은 데이터 셋 뭉치 batch size (배치 사이즈) 하나의 미니 배치에 넘겨주는 데이터 갯수, 즉 한번의 배치마다 주는 샘플의 크기 배치 사이즈가 너무 크면 한번에 처리해야 할 양이 많이 때문에 학습 속도가 느려짐 경우에 따라서는 메모리 부족 문제가 발생할 수도 있음 배치 사이즈가 너무 적으면 너무 적은 샘플로 가중치가 자주 업데이트되기 때문에 비교적 불안정하게 훈련될 수 있음 iteration (이터레이션) 하나의 미니 배치를 학습할 때 1iteration이라고 한다. 즉, 미니 배치 갯수 = 이터레이션 수 epoch ..

[Marketing] Lookback Window (전환 추적 기간)

Lookback Window (전환 추적 기간) 지정한 모델에서의 전환 기간을 설정하는 것을 의미 the period of time after which an ad is viewed or clicked that a conversion can be attributed to the ad. 광고를 보거나 클릭한 후 전환이 광고에 기인할 수 있는 기간 marketers to determine which ads resulted in conversion during the specified time frame. 마케터가 지정된 기간 동안 전환으로 이어진 광고를 결정할 수 있다. 가장 일반적인 전환 확인 기간은 7일이지만 한 달의 기간과 마찬가지로 1~3일도 드문 일이 아니다. 그러나 광고를 보고 1년 후에 발생하는..

[Statistical Analysis Model][Time Series Data] Holt-Winters

Holt-Winters Holt와 Winters은 계절성(Seasonality)을 잡아내기 위해 Holt의 기법을 확장하였다. Holt-Winters 모델은 단순하면서도 널리 활용되어지는 시계열 분석도구로서 많은 시계열예측의 기준모델로서 쓰이고 있다. 시계열 분석을 위한 모델로서 3가지 정보를 고려한다. Level: 수준 ℓt에 대한 것 Trend: 추세 bt에 대한 것 Seasonality: 계절 성분 st에 대한 것 m: 계절성의 주기 k: (h-1)/m 의 정수부분, 예측을 위해 계절성 지수를 추정한 값이 표본의 마지막 연도에서 유래하도록 함 Level 수준(level)은 평활값(smooting value)이라고도 하며, 주어진 데이터에서 추세(trend)나 계절성(seasonal)을 제거한 파트 ..

[Statistical Analysis Model][Time Series Data] BATS

BATS Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components The BATS algorithm combines Box-Cox Transformation, ARMA residuals, Trend, and Seasonality factors to forecast future values. BATS 알고리즘은 Box-Cox 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측한다. The BATS model is an exponential smoothing method along with the ARIMA model for finding the ..

[Statistical Analysis Model][Time Series Data] ARIMA (Autoregressive Integrated Moving Average)

ARIMA (Autoregressive Integrated Moving Average) 시계열 데이터(time series data)를 사용하여 데이터 세트를 더 잘 이해하거나 미래 추세를 예측하는 통계 분석 모델 Autoregressive Integrated Moving Average (ARIMA) model is a typical time series model, which can transform non-stationary data to stationary data through differencing, and then forecast the next value by using the past values, including the lagged values and lagged forecast err..

Statistical Modeling (통계 모델링)

Statistical Modeling (통계 모델링) 수학적 모델과 통계적 가정을 사용하여 샘플 데이터를 생성하고 실제 세계에 대한 예측을 수행하는 것 통계 모델은 실험의 가능한 모든 결과 집합에 대한 확률 분포의 모음이다. 통계 모델링은 데이터 세트에 통계 분석을 적용하는 데이터 과학 프로세스를 말한다. 통계 모델은 하나 이상의 랜덤 변수와 기타 비 랜덤 변수 간의 수학적 관계 원시 데이터에 통계 모델링을 적용하면 데이터 사이언티스트가 전략적 방식으로 데이터 분석에 접근할 수 있으며 변수 간의 관계를 식별하고 예측하는 데 도움이 되는 직관적인 시각화를 제공 통계 분석을 위한 일반적인 데이터 세트 사물 인터넷(IoT) 센서 인구 조사 데이터 공중 보건 데이터 소셜 미디어 데이터 이미지 데이터 실제 예측을..

[Machine Learning] Fairness (공정성)

Fairness in machine learning 특정 그룹의 사람들에 대한 AI 시스템의 부정적인 결과를 피하는 것이 중요!! 기계 학습의 공정성은 기계 학습 모델을 기반으로 하는 자동화된 의사 결정 프로세스에서 알고리즘 편향을 수정하려는 다양한 시도 기계 학습 프로세스 후 컴퓨터가 내리는 결정이 민감한 것으로 간주되는 변수를 기반으로 하는 경우 불공정한 건으로 간주될 수 있다. 예, 성별, 민족, 성적 취향, 장애 등 Disparate impact (이질적인 영향) a metric to evaluate fairness(bias) 모니터링 그룹에 대한 유리한 결과의 백분율 대 참조 그룹에 대한 양호한 결과의 백분율로 계산됨 num_positives: value represents the number ..

[Machine Learning] Feature Engineering

Feature Engineering 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업 머신러닝 알고리즘을 작동하기 위해 데이터의 도메인 지식을 활용해 특징(feature)를 만드는 과정 Feature Engineering is a Representation Problem Feature: A valuable attribute for your modeling task Importance of Feature Engineering Better feature..

AutoML (Automated Machine Learning)

AutoML (Automated Machine Learning) 머신러닝 모델링은 문제 정의 과정에서부터 데이터 수집, 전처리, 모델 학습 및 평가를 거쳐 서비스 적용에 이르기까지 많은 시간과 노력이 요구된다. 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위해 AutoML이 등장하였다. 현실의 문제에 기계학습 적용 과정을 전문가 없이 자동화 → Data Scientist의 역량이 필요한 작업을 자동화 데이터 사이언티스트들이 머신 러닝 모델(ML 모델)을 구축하고 훈련할 때 완료해야 하는 수동 작업을 자동화하는 프로세스 Feature engineering & selection choosing the type of machine le..

[Scikit-Learn] Pipeline

Scikit-Learn(sklearn) Pipeline 데이터 전처리에서 학습까지의 과정을 하나로 연결해주는 것 Scikit-learn 파이프라인을 사용하면 데이터 전처리 및 학습의 모든 단계를 포함하는 단일 개체를 만들 수 있다. 파이프라인에 작업(변수 선택, 표준화, 모형 클래스 등)을 등록만 해주면 기존 과정을 한 번에 처리할 수 있다. train과 test 데이터 손실을 피할 수 있다 교차검증 및 기타 모델 선택 유형을 쉽게 만든다. 재현성이 증가한다. Pipeline 작업명, 작업 클래스 두 개로 이루어진 튜플을 리스트로 담아서 전달 Pipeline(['작업명1', 작업 클래스 1), ('작업명2', 작업 클래스 2),...]) from sklearn.feature_selection import..

Cross Validation(CV, 교차검증)

Cross Validation(CV, 교차검증) Training set과 Validation 을 여러번 나눈 뒤 모델의 학습을 검증하는 방식 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있다. 데이터를 일정한 규칙에 따라 훈련 데이터와 테스트 데이터로 나누어 테스트 데이터에 대한 예측 정확도를 평가하는 방법 교차검증을 사용하여 테스트 데이터에 대해 예측 정확도를 평가하고, 정확도가 최대가 되는 변수의 조합을 선택하는 것 '파라미터 추정 ~ 정확도 평가' 반복으로 인해 계산량이 많아지는 단점이 있음 Cross Validation 효과 및 사용 이유 모든 데이터 셋을 평가에 활용하기 때문에 데이터셋이 부족할 ..

728x90
반응형