단일선형회귀분석이란?
1. 회귀분석 소개
- 두 변수(종속/독립 변수)사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용
- 독립변수의 값이 주어질때, 종속변수의 값을 추정하거나 예측하는데 사용
- 서로 영향을 주고 받는 인과관계를 갖는 두 변수 사이의 관계를 분석
종속변수(Dependent Variable): 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수
독립변수(Independent Variable): 다른 변수에 영향을 주고 그 변수의 값을 예측하려는 변수
2. 산포도(산점도, Scatter)
- 회귀분석을 할때, 두 변수 사이의 관계를 대략적으로 알아보기 위한 그래프
- 보통 X축: 독립변수, Y축: 종속변수로 설정하여 도표에 나타냄
- 두 변수간의 관련성 및 예측을 위한 상관분석이나 회귀분석을 할 만한 자료인지 판단할 수 있음
3. 단일선형회귀모델 소개
- 종속변수 Y가 독립변수 X와 오차항(Error Term)에 어떻게 관계되어 있는가를 나타내는 방정식
오차항: 독립변수 X의 값이 주어질때, 종속변수Y의 실제 값과 예측 값의 차이를 말한다.
- : 이미 알려진 독립변수 X의 i번째 값
- : X값이 변해도 Y의 변동에 영향을 주지 않는 회귀 계수
- :X의 영향력을 크기와 부호로 나타내는 회귀계수, 독립변수 X의 기울기
4. 단일선형회귀모델의 가정
- 하나의 종속 변수와 하나의 독립 변수
- 독립변수 X의 각 값에 대한 Y의 확률 분포가 존재
- Y의 확률분포의 평균은 X값이 변함에 따라 일정한 추세를 따라 움직임(X값이 커지면, 오차도 커질 수 있다)
- 종속변수와 독립변수 간에는 선형 함수 관계가 존재
5. 회귀계수 추정
- 수집된 데이터에 가장 적절한 회귀 직선을 구한다
5-1. 최소자승법
- 잔차를 자승한 값들의 합이 최소가 되도록하는 a,b를 구한다.
- 측정값을 기초로해서 적당한 제곱합을 만들고 그것을 최소로하는 값을 구함
잔차(Residual): 독립변수 X의 값이 주어질때, 예측값과 실제값사이의 표본오차 때문에 발생하는 차이
- 수직적 길이를 제곱하여 합한 값을 최소화
- 큰 폭의 오차에 대해 보다 더 큰 가중치를 부여하여, 독립변수 값이 동일한 평균치를 갖는 경우 가능한 한 변동 폭이 작은 표본회귀선을 도출할 수 있다.
5-2. 예시
차종 |
차랑가격(X) |
판매액(Y) | X^2 | X*Y |
A |
13 |
40 | 169 | 520 |
B |
19 |
83 | 361 | 1577 |
C |
16 |
62 | 256 | 992 |
D |
14 |
48 | 196 | 672 |
E |
15 |
58 | 225 | 870 |
F |
14 |
43 | 196 | 602 |
합계 |
91 |
334 | 1403 | 5233 |
1) X 평균: 91/6 = 15.17
2) Y 평균: 334/6 = 55.67
3)
4) a = 55.67 - 7.46(15.17) = -57.5
5) -57.5 + 7.46x
6. 선형회귀식 적용
차랑가격(x) |
판매액(y) |
예측값 y(-57.5 + 7.46x) |
잔차(y - 예측값 y) |
13 |
40 |
39.48 |
0.52 |
19 |
83 |
84.24 |
-1.24 |
16 |
62 |
61.86 |
0.14 |
14 |
48 |
46.94 |
1.06 |
15 |
58 |
54.4 |
3.6 |
14 |
43 |
46.94 |
-3.94 |
차량 가격이 20 일때, 예측값 y는 -57.5 + 7.46(20) = 91.7임을 알 수 있다
모델검정 - 적합도검증
추정의 표준오차(Standard error of estimate)
- 추정의 표본오차: 표본회귀선 주위로 흩어진 변동을 측정 (vs. 표준편차: 표본들의 실제 값들이 평균 주위로 흩어진 변동 측정)
SSE = 오차제곱합
x |
y |
x^2 |
y^2 |
xy |
13 |
40 |
169 |
1600 |
520 |
19 |
83 |
361 |
6889 |
1577 |
16 |
62 |
256 |
3844 |
992 |
14 |
48 |
196 |
2304 |
672 |
15 |
58 |
225 |
3364 |
870 |
14 |
43 |
196 |
1849 |
602 |
91 |
334 |
1403 |
19850 |
5233 |
총 변동(total variation)
- 총제곱합(Sum of Squares Total: SST): 회귀제곱합(Sum of Squares Regression, SSR) + 잔차제곱합(Sum of Squares Error, SSE)
- SST: 실제값 y들이 이들의 평균 y로부터 흩어진 정도
- SSR: 예측치와 실제값 y들의 평균 y의 차이의 제곱합
- SSE: 예측치와 실제 값의 차이의 제곱 합
결정계수(Coefficient of Determination)
- 표본회귀선이 모든 자료에 완전히 적합하면 SSE=0, R^2 = 1이 된다.
- R^2의 값이 1에 가까울수록 표본회귀선으로 종속변수의 실제값 y를 예측하는 정확성이 높다.
총편차(Total Deviation)= 설명된 편차 + 설명안된 편차
'Study > 파이썬으로 데이터 주무르기' 카테고리의 다른 글
[Linear regression] Boston dataset에 실제 적용해 보기 (0) | 2018.07.09 |
---|---|
[Linear regression] 단일선형회귀분석 실습 (0) | 2018.07.09 |
[모델 성능 평가 척도] 유방암 진단 데이터(Breast Cancer) (0) | 2018.07.09 |
[모델 성능 평가 척도] Residuals / MSE / RMSE (0) | 2018.07.09 |
[모델 성능 평가 척도] Confusion matrix / Learning curve / ROC curve (0) | 2018.07.09 |
댓글