Machine Learning/Supervised Learning

[Machine Learning][Regression Metrics] R-squared(결정계수)

데이터 세상 2022. 10. 5. 18:31

Regression Metrics

R (상관계수)

독립변수와 종속변수간의 선형적인 관계를 나타내는 척도

상관계수는 -1부터 1까지의 값을 갖는다.

1에 가까울 수록 양의 상관관계를 의미하고, -1에 가까울수록 음의 상관관계를 의미한다.

반대로 0에 가까울수록 두 변수 간에 선형적인 관계가 없다고 볼 수 있다.

 

상관계수는 두 변수 간에 단순 관련성이 아닌 선형적인 관계를 나타내기 때문에

상관계수 값이 0에 가까운 값이더라도 두 변수 간에 비선형적인 관계가 있을 수 있다.

 


R-squared (Coefficient of Determination, 결정계수)

회귀분석에서 나오는 개념으로 모형(즉 독립변수들)이 종속변수를 얼마나 설명하냐를 보여주는 계수

회귀직선의 적합도(goodness-of-fit)를 평가하거나 종속변수에 대한 설명변수들의 설명력을 알고자 할 때 결정계수를 이용

-> 추정한 선형 모형이 주어진 자료에 적합한 정도를 재는 척도

  • SSE(Sum of Squares Error, 관측치와 예측치 차이)
  • SSR(Sum of Squares Regression, 예측치와 평균 차이)
  • SST(Sum of Squares Total, 관측치와 평균 차이)

출처:https://m.blog.naver.com/pmw9440/221822183325

R-squred의 범위는 0~1까지이며, x와 y의 상관관계가 클수록 R-squared의 값은 1에 가까워진다.

R-squared값이 0에 가까워질수록 회귀선은 쓸모가 없고 값이 클수록 (≥0.65) 쓸모있는 회귀식이라고 본다.

총 변동중에서 회귀선에 의해 설명이 되는 변동이 차지하는 비율을 의미한다.

 


Adjusted R-squared (adjusted coefficient of determination, 수정된 결정계수)

결정계수는 독립변수 개수가 많아질수록 그 값이 커지게 된다.

-> 종속 변수의 변동을 별로 설명해주지 못하는 변수가 모형에 추가된다고 하더라도 결정계수값이 커질 수 있다.

표본의 크기와 독립변수의 수를 고려하여 계산

 

단순회귀분석을 하는 경우에는 일반 결정계수를 사용하면 되지만,

다중회귀분석을 수행하는 경우에는 수정된 결정계수를 함께 고려하는 것이 좋다!!


Explained Variance Score (설명 분산 점수)

Explained Variance Score = 1 – ( (Sum of Squared Residuals – Mean Error) / Total Variance )

R-squared(결정계수)와의 차이는 SSE(Sum of Squared Error)에서 Mean Error를 뺀다는 것이다.

 

모델에서 나오는 오차가 0을 기준으로 왔다갔다 한다면 R-squared와 비슷하다.

단, 에러가 한쪽에 쏠려 있다면 모델이 편향되게 피팅이 되었다는 의미이고, 이때 Mean Error는 0에 가까운 값이 아닌 -나 +를 띄게 된다.

R-squred와 설명분산점수가 다르게 나온다면 에러에 편향이 있다는 것이고, 피팅이 잘못되었다는 것을 의미한다.

 

가장 좋은 최적의 값은 1.0이고 더 낮은 값일수록 더 나빠진다.

 


References

 

반응형