본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Study/파이썬으로 데이터 주무르기

[Linear regression] 단일선형회귀분석이란?

by 징여 2018. 7. 9.
반응형

단일선형회귀분석이란?


1. 회귀분석 소개

- 두 변수(종속/독립 변수)사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용

- 독립변수의 값이 주어질때, 종속변수의 값을 추정하거나 예측하는데 사용

- 서로 영향을 주고 받는 인과관계를 갖는 두 변수 사이의 관계를 분석

종속변수(Dependent Variable): 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수

독립변수(Independent Variable): 다른 변수에 영향을 주고 그 변수의 값을 예측하려는 변수


2. 산포도(산점도, Scatter)

- 회귀분석을 할때, 두 변수 사이의 관계를 대략적으로 알아보기 위한 그래프

- 보통 X축: 독립변수,  Y축: 종속변수로 설정하여 도표에 나타냄

- 두 변수간의 관련성 및 예측을 위한 상관분석이나 회귀분석을 할 만한 자료인지 판단할 수 있음


3. 단일선형회귀모델 소개

- 종속변수 Y가 독립변수 X와 오차항(Error Term)에 어떻게 관계되어 있는가를 나타내는 방정식

오차항: 독립변수 X의 값이 주어질때, 종속변수Y의 실제 값과 예측 값의 차이를 말한다.

: i번째 관측치에 대한 종속변수 Y 값

: 이미 알려진 독립변수 X의 i번째 값

: X값이 변해도 Y의 변동에 영향을 주지 않는 회귀 계수

:X의 영향력을 크기와 부호로 나타내는 회귀계수, 독립변수 X의 기울기

: i번째 관측치에 대한 오차항


4. 단일선형회귀모델의 가정

- 하나의 종속 변수와 하나의 독립 변수

- 독립변수 X의 각 값에 대한 Y의 확률 분포가 존재

- Y의 확률분포의 평균은 X값이 변함에 따라 일정한 추세를 따라 움직임(X값이 커지면, 오차도 커질 수 있다)

- 종속변수와 독립변수 간에는 선형 함수 관계가 존재


5. 회귀계수 추정

- 수집된 데이터에 가장 적절한 회귀 직선을 구한다

5-1. 최소자승법

- 잔차를 자승한 값들의 합이 최소가 되도록하는 a,b를 구한다.

- 측정값을 기초로해서 적당한 제곱합을 만들고 그것을 최소로하는 값을 구함

잔차(Residual): 독립변수 X의 값이 주어질때, 예측값과 실제값사이의 표본오차 때문에 발생하는 차이


- 수직적 길이를 제곱하여 합한 값을 최소화

- 큰 폭의 오차에 대해 보다 더 큰 가중치를 부여하여, 독립변수 값이 동일한 평균치를 갖는 경우 가능한 한 변동 폭이 작은 표본회귀선을 도출할 수 있다.



5-2. 예시

차종

차랑가격(X)

판매액(Y)

 X^2

 X*Y

A

13 

40 

 169

 520

B

19 

83 

 361

 1577

C

16 

62 

 256

 992

D

14 

48 

 196

 672

E

15 

58 

 225

 870

F

14 

43 

 196

 602

 합계

91

334 

 1403

 5233

1) X 평균: 91/6 = 15.17

2) Y 평균: 334/6 = 55.67

3)  

4) a = 55.67 - 7.46(15.17) = -57.5

5) -57.5 + 7.46x

6. 선형회귀식 적용

 차랑가격(x)

판매액(y) 

 예측값 y(-57.5 + 7.46x)

 잔차(y - 예측값 y)

13

40

39.48

0.52

19

83

84.24

-1.24

16 

62

61.86

0.14

14

48

46.94

1.06

15

58

54.4

3.6

14

43

46.94

-3.94

차량 가격이 20 일때, 예측값 y는 -57.5 + 7.46(20) = 91.7임을 알 수 있다


모델검정 - 적합도검증


추정의 표준오차(Standard error of estimate)

- 추정의 표본오차: 표본회귀선 주위로 흩어진 변동을 측정 (vs. 표준편차: 표본들의 실제 값들이 평균 주위로 흩어진 변동 측정)


SSE = 오차제곱합

x

y

x^2

y^2

xy

13

40

169

1600

520

19

83

361

6889

1577

16

62

256

3844

992

14

48

196

2304

672

15

58

225

3364

870

14

43

196

1849

602

91

334

1403

19850

5233



총 변동(total variation)

- 총제곱합(Sum of Squares Total: SST): 회귀제곱합(Sum of Squares Regression, SSR) + 잔차제곱합(Sum of Squares Error, SSE)

- SST: 실제값 y들이 이들의 평균 y로부터 흩어진 정도

- SSR: 예측치와 실제값 y들의 평균 y의 차이의 제곱합

- SSE: 예측치와 실제 값의 차이의 제곱 합


결정계수(Coefficient of Determination)

- 0부터 1까지 값을 가진다

- 표본회귀선이 모든 자료에 완전히 적합하면 SSE=0, R^2 = 1이 된다.

- R^2의 값이 1에 가까울수록 표본회귀선으로 종속변수의 실제값 y를 예측하는 정확성이 높다.

총편차(Total Deviation)= 설명된 편차 + 설명안된 편차



반응형

댓글