반응형

Machine Learning/Machine Learning 23

[무료 머신 러닝 실습 시스템] Machine Learning for Kids

Machine Learning for Kids https://machinelearningforkids.co.uk/ Machine Learning for Kids An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch. machinelearningforkids.co.uk 이 무료 도구는 머신 러닝 시스템을 교육하고 이를 사용하여 무언가를 구축하기 위한 실습 경험을 제공하여 머신 러닝을 소개합니다. 텍스트, 숫자, 이미지 또는 소리를 인식하도록 ..

[Machine Learning] Federated Learning (연합 학습)

Federated Learning (연합 학습) 구글에서 제안된 기법으로 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델 학습을 수행하는 방법이다. 데이터를 메인 서버가 아닌, 개개인의 로컬 클라이언트에 두고 그 로컬 클라이언트에서 학습을 수행, 로컬 클라이언트에서 업데이트된 모델의 가중치들을 중앙 서버로 보내 취합해서 하나의 모델을 업데이트 하는 것을 의미한다. 다수의 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델을 학습하고 학습된 파라미터를 클라우드 상의 서버로 전송하여 통합한 파라미터를 인공 지능 모델 학습에 사용하고 이를 반복하는 방법이다. Federated Learning은 데이터 프라이버시 향상과 커뮤니케이션 효율성을 가진다. 수 만개의 로컬 디바이스의 데이터를 모두 중..

[Machine Learning] Active Learning

Active Learning 아직 레이블링이 되어 있지 않은 데이터(unlabeled data) 중에 모델 학습에 가장 효과적일 것 같은 데이터를 고르는 작업을 의미한다. 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로 가장 정보량이 많은 데이터를 선택하는 것을 목표로 한다. 효과적인 학습이란, 결과적으로 가지고 있는 데이터셋 전체를 잘 학습했을 때의 '기대 성능에 어떻게 하면 빠르게 도달할 수 있는지' 또는 ‘혹시 그 이상의 성능을 확보할 수 있는지’가를 의미할 수 있다. 관련 논문 dsgissin.github.io/DiscriminativeActiveLearning/about/ About An introduction to the active learning framework, from..

[Machine Learning] Fairness (공정성)

Fairness in machine learning 특정 그룹의 사람들에 대한 AI 시스템의 부정적인 결과를 피하는 것이 중요!! 기계 학습의 공정성은 기계 학습 모델을 기반으로 하는 자동화된 의사 결정 프로세스에서 알고리즘 편향을 수정하려는 다양한 시도 기계 학습 프로세스 후 컴퓨터가 내리는 결정이 민감한 것으로 간주되는 변수를 기반으로 하는 경우 불공정한 건으로 간주될 수 있다. 예, 성별, 민족, 성적 취향, 장애 등 Disparate impact (이질적인 영향) a metric to evaluate fairness(bias) 모니터링 그룹에 대한 유리한 결과의 백분율 대 참조 그룹에 대한 양호한 결과의 백분율로 계산됨 num_positives: value represents the number ..

[Machine Learning] Feature Engineering

Feature Engineering 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업 머신러닝 알고리즘을 작동하기 위해 데이터의 도메인 지식을 활용해 특징(feature)를 만드는 과정 Feature Engineering is a Representation Problem Feature: A valuable attribute for your modeling task Importance of Feature Engineering Better feature..

AutoML (Automated Machine Learning)

AutoML (Automated Machine Learning) 머신러닝 모델링은 문제 정의 과정에서부터 데이터 수집, 전처리, 모델 학습 및 평가를 거쳐 서비스 적용에 이르기까지 많은 시간과 노력이 요구된다. 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위해 AutoML이 등장하였다. 현실의 문제에 기계학습 적용 과정을 전문가 없이 자동화 → Data Scientist의 역량이 필요한 작업을 자동화 데이터 사이언티스트들이 머신 러닝 모델(ML 모델)을 구축하고 훈련할 때 완료해야 하는 수동 작업을 자동화하는 프로세스 Feature engineering & selection choosing the type of machine le..

Cross Validation(CV, 교차검증)

Cross Validation(CV, 교차검증) Training set과 Validation 을 여러번 나눈 뒤 모델의 학습을 검증하는 방식 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있다. 데이터를 일정한 규칙에 따라 훈련 데이터와 테스트 데이터로 나누어 테스트 데이터에 대한 예측 정확도를 평가하는 방법 교차검증을 사용하여 테스트 데이터에 대해 예측 정확도를 평가하고, 정확도가 최대가 되는 변수의 조합을 선택하는 것 '파라미터 추정 ~ 정확도 평가' 반복으로 인해 계산량이 많아지는 단점이 있음 Cross Validation 효과 및 사용 이유 모든 데이터 셋을 평가에 활용하기 때문에 데이터셋이 부족할 ..

[Machine Learning] Pattern Recognition (패턴인식)

Pattern Recognition (패턴 인식) 컴퓨터가 어떤 대상을 인식하는 문제를 다루는 인지과학과 인공지능의 한 분야 모든 대상의 특징들을 가지고 어떤 대상임을 파악하는 것 인지과학(Cognitive Science) 지능과 인식문제를 다루는 포괄적인 과학 분야 인공지능(Artificial Intelligence) 인간의 학습능력과 추론능력을 인공적으로 모델링하여 외부 대상을 지각하는 능력을 컴퓨터로 구현하는 기술 패턴 인식 분야 문자 인식 일반적으로 스캐터로 받아들인 텍스트 이미지를 컴퓨터에서 편집 가능한 코드화된 문자로 변환 자동 우편물 분류기, 필기체 문자 인식, 수표 및 지폐 인식, 차량 번호판 인식 생체 인식과 인간 행동 패턴 분석 음성인식, 지문, 홍채, 얼굴 인식, DNA 매핑, 보행 ..

[Machine Learning] Machine Learning Algorithms

Machine Learning Algorithms Supervised Learning - Regression Linear Regression [Supervised Learning][Regression] Linear Regression 알고리즘 장점 단점 Linear Regression 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값(수치값)을 구할 수 있다 데이터 특징들이 선형 관계에 있다는 가설하에 작동함으로써 데이터 특징이 가설과 다를 경우 정확도가 낮아진다 Decision Tree Regression [Supervised Learning][Regression] Regression Tree(회귀 트리) 알고리즘 장점 단점 Decision Tree 모델의 추론 과정을 시각화하기 쉽다 데이터에서 중요..

Machine Learning Valuation Metrics (머신러닝 모델 성능 평가)

Machine Learning Valuation Metrics Loss Function (손실함수) Loss Function (손실 함수) 손실 함수(Loss Function)는 지도학습(Supervised Learning) 시 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수 즉, '학습 중에 알고리즘이 얼마나 잘못 예측하는 정도'를 확인하기 위한 함수로써 최적화(Optimization)를 위해 최소화하는 것이 목적인 함수 손실 함수를 목적 함수(Objective Function), 비용 함수(Cost Function), 에너지 함수(Energy Function) 등으로 다양하게 부른다. 손실 함수를 통해 모델 학습 중에 손실(loss)이 커질수록 학습이 잘 안 되고 있다고 해석할 수 있고..

[Machine Learning][Regression Loss Function] MAE, MSE, RMSE MSLE, RMSLE

Regression Metrics / Regression Loss Function 회귀 타입에 사용되는 손실 함수는 대표적으로 평균 오차 계산법이 있음 평균 오차를 계산하는 방식(공식)에 따라 MAE, MSE, RMSE 등으로 구분 MAE (Mean Absolute Error, 평균 절대 오차) L1 Loss로도 불린다. 예측한 값과 실제 값의 차이에 절대값을 취해 모두 더해주고 나서 계산한 샘플 갯수(n)으로 나눠서 구한다. MAE의 스케일(scale)은 예측 대상인 타켓 변수와 같은 스케일이기 때문에 값이 내포하는 의미를 직관적으로 이해하기에 좋다. 모델의 예측값과 실제값의 차이의 절대값의 평균 예측 결과와 정답 결과가 떨어진 정도의 절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표. 절대값을..

[Machine Learning][Metrics] Loss Function(손실 함수) / Cost Function (비용함수)

Loss Function (손실 함수) / Cost Function (비용함수) 통계학, 경제학 등에서 널리 쓰이는 함수로 머신러닝에서도 손실함수는 예측값과 실제값에 대한 오차를 줄이는 데에 유용하게 사용 측정한 데이터를 토대로 산출한 모델의 출력값(예측값)과 정답(실제값)의 오차를 정의하는 함수 신경망을 학습할 때, 학습이 잘 되고 있는지 평가하는 하나의 지표로 사용 Cross-Entropy 라고도 한다. 손실함수(Loss Function): 한 개의 데이터 포인트에서 나온 오차를 최소화하기 위해 정의되는 함수 비용함수(Cost Function): 모든 오차를 일반적으로 최소화하기 위해 정의되는 함수 목적함수(Objective Function): 어떠한 값을 최대화 혹은 최소화 시키기 위해 정의되는 함..

Data Mining (데이터 마이닝)

Data Mining (데이터 마이닝) 다양한 관점에서 데이터를 분석해 의미를 도출 (데이터의 특징을 알아내는 것이 중점) 데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것 일반적으로 데이터 웨어하우스나 연결된 데이터 세트 컬렉션 등 축적된 데이터에서 유용한 정보를 추출하는 과정 보유한 데이터를 다양한 관점에서 분석하고, 그 결과를 유용한 정보로 조합하는 일 방대한 데이터 속에 숨어있던 패턴과 상관성을 통계적 수법들로 식별하여 가치를 부여 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분 데이터 추출 → 데이터 정제 → 데이터 변경 → 데이터 분석 → 데이터 해석 → 보고서 작성 CRISP- DM (Cross-Industry Standard Process -Data Mining) B..

[Machine Learning][Model Performance Measure] Precision, Recall, Accuracy, F1 score, FPR, ROC curve, AUC

Classification Performance Measure Confusion Matrix (Binary Classification) Confusion Matrix (Multi-Class Classification) True Positive(TP) 실제 True인 정답을 True라고 예측 (정답) 맞는 것을 올바르게 예측한 것 True Negative(TN) 실제 False인 정답을 False라고 예측 (정답) 틀린 것을 올바르게 예측한 것 False Positive(FP) 실제 False인 정답을 True라고 예측 (오답) 틀린 것을 맞다고 잘못 예측한 것 False Negative(FN) 실제 True인 정답을 False라고 예측 (오답) 맞는 것을 틀렸다고 잘못 예측한 것 Precision(정밀도..

728x90
반응형