본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[(빅)데이터 교육] 데이터 분석의 기초 - 통계적 추론

by 징여 2018. 6. 22.
반응형

통계적 추론


추정

자료의 정보를 이용하여 모집단에 관한 추측이나 결론을 이끌어 내는 과정

전수조사가 불가능하거나 비실용적인 경우

대상 모집단으로 부터 표본을 추출하고, 이러한 표본을 추출하고, 이러한 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 통계적으로 추론하는 것


점추정

표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정(표본평균, 표본분산)


구간추정

모수의 참값이 포함되어 있을 것으로 추정되는 구간을 결정하는 것(신뢰구간)


신뢰구간(confidence Interval)

모수가 어느 범위안에 있는지 확률적으로 보여주는 방법

- 산출된 구간사이에 모수가 포함될 확률을 나타내는 통계량

 는 모수보다 작고 는 모수보다 클 확률을 0과 1사이의 숫자 를 써서 다음과 같이 표기한다.



이때, 구간 ()를 모수에 대한 신뢰구간 이라고 하고 를 신뢰 계수 또는 신뢰 수준이라고 하며, 0.95 또는 0.99등의 값을 주로 사용한다.


신뢰구간의 성질

- 신뢰수준을 높게하면 구간의 길이가 증가한다.

- 실제 모집단의 모수는 신뢰구간에 포함되지 않을 수도 있다.


신뢰구간의 범위

관련 이미지

출처:https://t1.daumcdn.net/cfile/blog/1638C84C504861A12F


양측 - 상위 2.5%, 하위 2.5%를 벗어나지 않는 범위

단측 - 상위 5%, 하위5%를 벗어나지 않는 범위


가설검정(Hypothesis Testing)

모집단의 모수에 대하여 어떤 가설을 세우고, 표본의 정보를 사용해 가설의 합당성 여부를 판정하는 과정


1) 귀무가설(H0): 현재까지 주장되어 온것이나, 변화나 차이가 없음을 설명하는 가설 (알고있는 사실, 주장)

2) 대립가설(H1): 새로이 주장하는것, 표본으로부터 확실한 근거에 의하여 증명하고자 하는 가설 (알고있는 것을 새롭게 주장!!)

3) 제 1종 오류(알파): 귀무가설이 맞는데 틀렸다고 결론을 내리는 오류

4) 제 2종 오류(베타): 대립가설이 맞는데도 귀무가설이 맞다고 결론내리는 오류

5) 검정력: 대립가설이 맞을때, 그것을 받아들이는 확률

6) 기각역(R): 귀무가설을 기각시키는 검정 통계량들의 범위

7) 유의확률: 가설 검정을 할때, 표본에서 얻은 표본 통계량이 일정한 기각역에 들어갈 확률



 

 실제 현상

 H0 참

 H1 참

 검정결과

 H0 채택

True 

제 2종 오류 

 H1 채택

 제 1종 오류

 True(검정력)


예)


수능점수 평균이 250점인지 검정하려고 한다.

귀무가설: 평균 = 250

대립가설: 평균 != 250


이를 검정하기 위해, 수능점수 자료를 수집하여 이의 

표본평균이 250과 

큰 차이가 없으면 귀무가설 채택

차이가 크면 대립가설을 채택


기각격(rejection region)과 채택역(acceptance region)은 아래와 같다.

 




Z-검정(Z-test)


두 집단의 평균을 비교하는 통계분석 기법


독립 표본 Z검정

서로 독립된 두 집단간의 평균의 차이검정


대응 표본 Z검정 (before vs after)

한집단을 대상으로 어떤 개입의 효과를 측정하기 위한 검정


가설

1) 두 집단간의 평균의 차이가 없다 vs 있다


   vs  


이면, H0 기각

유의 확률: 


2)     vs  


이면, H0 기각

유의확률: 


3)    vs  


이면, H0기각

유의확률:


검증 방법

1) 두집단 분산을 가지고 Z통계량을 구한다.

2) Z분포표에서 유의수준, 자유도에서의 Z분포값으로 기각역을 찾는다.

3) Z분포값과 Z통계량을 비교하여 결과값을 얻는다.

- Z통계량 > Z분포값: 귀무가설 기각

- Z통계량 <= Z분포값: 귀무가설 채택



T-검정(T-test)


두 집단의 평균을 비교하는 통계분석 기법

독립 표본 T검정

대응 표본 T점겅

자료가 정규성을 따른다는 가정을 만족해야한다.


가설

- 귀무가설(H0): 두집단의 평균이 같다.

- 대립가설(H1): 두집단의 평균이 유의한 차이가 있다.


검증방법

1) 두 집단의 합동 분산을 구하고 T통계량을 구한다.

2) T분포표에서 유의수준, 자유도에서의 T분포값으로 기각역을 찾는다.

3) T분포값과 T통계량을 비교하여 결과를 얻는다.

- T통계량 > T분포값: 귀무가설 기각

- T통계량 <= T분포값: 귀무가설 채택

반응형

댓글