[Supervised Learning][Regression] Linear Regression

Machine Learning/Supervised Learning

[Supervised Learning][Regression] Linear Regression

데이터 세상 2021. 3. 24. 18:53

728x90

Linear Model

입력 특성에 대한 선형 함수를 만들어 예측을 수행

특성 개수: p + 1

Linear Regression

종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법
선형 예측 함수를 사용해 회귀식을 모델링하고 알려지지 않은 파라미더를 데이터로부터 추정
회귀식을 선형 모델이라고 함

y가 없는 x값에 대해 y를 예측
x와 y의 관계를 정량화

Simple Linear Regression (단순 선형 회귀)

1개의 설명 변수에 기반 (독립변수 x가 1개)

Multiple Lineare Regression (다중 선형 회귀)

둘 이상의 설명 변수에 기반 (독립 변수 x가 2개 이상)

여러 독립 변수에 의해 영향을 받는 경우로 2개의 독립 변수면 그래프는 평면으로 나타난다.

출처: https://p829911.github.io/2020/01/16/3.2.1/

Polynominal Linear Regression (다항 선형 회귀)

독립 변수와 종속 변수가 선형 관계가 아닌 경우 즉 독립변수가 다항식인 경우

비선형 데이터를 학습하기 위해 선형 모델을 사용하는 기법

치환식을 적용하면 다항 회귀 모델은 다중 회귀 모델로 계산될 수 있다.

Error(오차)

모집단에서 실제 관찰된 y값과 회귀 직선에 의해 예측되어진 Y값의 차이

잔차(residuals)

표본에서 실제 관찰된 y값과 회귀 직선에 의해 예측되어진 Y값(Yi)의 차이

오차는 측정할 수 없으므로 오차 대시 잔차를 이용한다.

* 모집단(population) : 어떤 정보를 얻고자 하는 전체 대상 또는 전체 집합

* 표본집단(sample): 모집단으로부터 추출된 모집단의 부분 집합

오차 방정식

임의의 선을 그린다
실제 정답과 임의 선이 맞는지 확인하고 평가(오차 확인)
확인된 오차 값을 이용하여 임의 값을 수정
Root Mean Square Error(평균 제곱근 오차) 방정식을 가장 많이 사용
Loss 함수
- 딥러닝이 학습할 수 있도록 해주는 지표. 단순하게 모델의 출력값과 정답의 차이를 의미
- Loss 함수를 어떻게 지정하느냐에 따라 task나 학습에 영향을 미침

각 오차의 값을 제곱

y: 실제 데이터, p: x가 대입되었을 때 임의의 방정식 출력 값

평균 제곱 오차(Mean Squared Error, MSE): 오차 합의 평균

오차의 합을 n으로 나눔

평균 제곱 오차에 루트를 씌워 RMSE를 만듦

Ridge Regression, Lasso Regression

[Supervised Learning] Ridge Regression, Lasso Regression

References

728x90

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning > Supervised Learning' 카테고리의 다른 글

[Supervised Learning][Classification] SVM(Support Vector Machine) (0)	2021.03.24
[Supervised Learning] Ensemble (0)	2021.03.24
[Supervised Learning] Decision Tree (0)	2021.03.24
[Supervised Learning][Classification] KNN(K-Nearest Neighbor) (0)	2021.03.24
[Supervised Learning][Classification] Logistic Regression (0)	2021.03.01

현재글[Supervised Learning][Regression] Linear Regression

데이터와 인공지능 훑어보기