Machine Learning/Supervised Learning

[Supervised Learning][Regression] Linear Regression

데이터 세상 2021. 3. 24. 18:53
728x90
반응형

Linear Model

입력 특성에 대한 선형 함수를 만들어 예측을 수행

  • 특성 개수: p + 1

 

Linear Regression

  • 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법
  • 선형 예측 함수를 사용해 회귀식을 모델링하고 알려지지 않은 파라미더를 데이터로부터 추정
  • 회귀식을 선형 모델이라고 함

>>

  • y가 없는 x값에 대해 y를 예측
  • x와 y의 관계를 정량화

 

Simple Linear Regression (단순 선형 회귀)

1개의 설명 변수에 기반 (독립변수 x가 1개)

 

Multiple Lineare Regression (다중 선형 회귀)

둘 이상의 설명 변수에 기반 (독립 변수 x가 2개 이상)

여러 독립 변수에 의해 영향을 받는 경우로 2개의 독립 변수면 그래프는 평면으로 나타난다.

출처: https://p829911.github.io/2020/01/16/3.2.1/

 

Polynominal Linear Regression (다항 선형 회귀)

독립 변수와 종속 변수가 선형 관계가 아닌 경우 즉 독립변수가 다항식인 경우

비선형 데이터를 학습하기 위해 선형 모델을 사용하는 기법

치환식을 적용하면 다항 회귀 모델은 다중 회귀 모델로 계산될 수 있다.

 

Error(오차)

모집단에서 실제 관찰된 y값과 회귀 직선에 의해 예측되어진 Y값의 차이

잔차(residuals)

표본에서 실제 관찰된 y값과 회귀 직선에 의해 예측되어진 Y값(Yi)의 차이

 

오차는 측정할 수 없으므로 오차 대시 잔차를 이용한다.

* 모집단(population) : 어떤 정보를 얻고자 하는 전체 대상 또는 전체 집합

* 표본집단(sample): 모집단으로부터 추출된 모집단의 부분 집합

 

오차 방정식

  • 임의의 선을 그린다
  • 실제 정답과 임의 선이 맞는지 확인하고 평가(오차 확인)
  • 확인된 오차 값을 이용하여 임의 값을 수정
  • Root Mean Square Error(평균 제곱근 오차) 방정식을 가장 많이 사용
  • Loss 함수
    • 딥러닝이 학습할 수 있도록 해주는 지표. 단순하게 모델의 출력값과 정답의 차이를 의미
    • Loss 함수를 어떻게 지정하느냐에 따라 task나 학습에 영향을 미침

 

각 오차의 값을 제곱

y: 실제 데이터, p: x가 대입되었을 때 임의의 방정식 출력 값

 

평균 제곱 오차(Mean Squared Error, MSE): 오차 합의 평균

오차의 합을 n으로 나눔

 

평균 제곱 오차에 루트를 씌워 RMSE를 만듦

 

 

Ridge Regression, Lasso Regression

[Supervised Learning] Ridge Regression, Lasso Regression


References

728x90
반응형