[(빅)데이터 교육] 데이터 분석의 기초

모평균에 관한 추론

점추정

모집단의 확률분포가 정확히 알려진 경우. 일반적인 경우, 표본평균을 이용해 모평균을 추정

구간추정

모집단의 특성에 따른 표본평균의 분포를 이용하여 신뢰구간 추정

신뢰구간 추정

- 모평균의 100(1- $\small \alpha$ )%의 신뢰구간

1) 모집단이 분산이 알려진 정규분포를 따른 경우

- 표본 분포이용

$\small \bar{x} -\frac{z\alpha}{2}\cdot \frac{\sigma}{\sqrt{n}}$ , $\small \bar{x} +\frac{z\alpha}{2}\cdot \frac{\sigma}{\sqrt{n}}$

2) 모집단의 분산이 알려져있으나 정규분포를 따르지 않는경우

- 중심극한정리를 이용(n이 충분히 클 때)

$\small \bar{x} -\frac{z\alpha}{2}\cdot \frac{\sigma}{\sqrt{n}}$ , $\small \bar{x} +\frac{z\alpha}{2}\cdot \frac{\sigma}{\sqrt{n}}$

3) 모집단이 분산이 알려져있지 않고 정규분포를 따를 경우

-T분포 이용

$\small \bar{x} -\frac{t\alpha(n-1)}{2}\cdot \frac{s}{\sqrt{n}}$ , $\small \bar{x} +\frac{t\alpha(n-1)}{2}\cdot \frac{s}{\sqrt{n}}$

예시

모집단이 정규분포를 따르며, n=64로 표본을 추출 하였을 때,

$\small \bar{x}$ = 27.750, s = 5.083일때, 모집단의 99% 신뢰구간은?

분판이 알려져있지 않음 -> T 분포 이용

$\small t_{0.005}(63) = 2.656$ 이므로,

(27.750 - 1.688, 27.750+ 1.688)

모평균에 관한 가설검정

모집단의 특성에 따른 표본평균의 분포를 이용하여 모평균에 관한 가설의 합당성 여부 판단

1. 표본이 충분히 클때,

표준 정규분포, 어떤 묘집단의 분포가 표준 정규분포를 따름을 이용하여, 검정통계량의 관측값을 Z통계량으로 사용

예시(양측검정)

A사 과자의 한 봉지당 함량은 125g으로 표기되어있다. 임의로 74봉지를 뽑아 평균을 구한결과 121.7g이었다.

봉지당 함량의 표준편차는 12g이라고 할때, 봉지당 함량의 평균이 125g이라고 할 수 있는가?(유의수준 5%)

검정하고자 하는 가설

H0 : 평균 = 125 vs H1: 평균 != 125

검정통계량 관측값은

$\small z_{0} = \frac{x-\mu_{0}}{\sigma/\sqrt{n}} = \frac{121.7-125}{12\sqrt{64}} = -2.2$

$\small |z_{0}| = |-2.2|\geq z_{0.025} = 1.96$ 이므로, H0 기각

2. 표본이 충분히 크지 않은 경우

모집단의 분포가 정규분포를 따를때

모분산을 아는 경우

정규분포를 따른다는 것을 알고있기 때문에 Z통계량을 사용

예시(단측검정)

어느 창던지기 선수의 10회의 기록이 다음과 같고, 표준편차가 1이다.

이 선수의 창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수준 5%에서 검정

64 64.8 66 63.5 65 68 67 63.6 67.7 68.9

검정하고자 하는 가설

H0 : 평균 = 65 vs H1: 평균 > 65

n = 10, x평균 = 65.84, 분산 = 1이며, 검정통계량 관측값은

$\small z_{0} = \frac{x-\mu_{0}}{\sigma/\sqrt{n}} = \frac{65.84-65}{1/\sqrt{10}} = 2.66$

$\small z_{0} = 2.66\geq z_{0.05} = 1.645$ 이므로 H0 기각

3. 표본이 충분히 크지 않은경우

모집단의 분포가 정규분포를 따를때,

모분산을 모르는 경우 => T검정 사용

모집단의 특성에 따른 표본평균의 분포를 이용하여 모평균에 관한 가설의 합장성 여부를 판단.

예시

어느 창던지기 선수의 10회의 기록이 다음과 같을때,

이 선수의 창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수준 5%에서 검정

64 64.8 66 63.5 65 68 67 63.6 67.7 68.9

검정하고자 하는 가설

H0: 평균= 65vs H1: 평균>65

n = 10, x=65.84, s = 1,948 (표준편차값이용)

$\small t_{0} = \frac{x-\mu_{0}}{s/\sqrt{n}} = \frac{65.84-65}{1.958/\sqrt{10}} = 1.364$

$\small t_{0} = 1.364 < t_{0.05}(9) = 1.8333$ 이므로 H0기각할 수 없다.

모분산을 아는 경우와 모르는 경우

Z검정통계량을 사용하느냐 T검정통계량을 사용하느냐에 따라, 결과가 달라질 수 있다.

이표본에 의한 모평균의 비교

독립된 두 모집단의 모평균 차이에 관한 가설의 합당성 여부 판단

1. 표본이 충분히 클 때,

그룹 X1을 평균 $\small \mu_{1}$ , 분산이 $\small \sigma_{1}^{2}$ 인 모집단에서 뽑은 크기 $\small n_{1}$ 인 확률 표본

그룹 X2을 평균 $\small \mu_{2}$ , 분산이 $\small \sigma_{2}^{2}$ 인 모집단에서 뽑은 크기 $\small n_{2}$ 인 확률 표본이고,

두 표본은 독립일때,

$\small Z = \frac{(\bar{X_{1}} - \bar{X_{2}}) - (\mu_{1} -\mu_{2})}{\sqrt{(\sigma_{1}^{2}/n_{1})+(\sigma_{2}^{2}/n_{1})}}$ 이고, 근사적으로 N(0,1)을 따른다.

검정통계량의 관측값은

$\small z_{0} = \frac{ (\bar{x}_{1} -\bar{x}_{2})}{\sqrt{(\sigma_{1}^{2}/n_{1})+(\sigma_{2}^{2}/n_{1})}}$

( $\small \sigma_{1}, \sigma_{2}$ 를 모를때, 표본표준편차( $\small s_{1}, s_{2}$ )로 대체 가능)

예시

두 모집단의 어떤 특정치를 비교하기 위해, 모집단1에서 80개, 모집단2에서 60개의 표본을 뽑은 값의 평균과 표준편차는 다음과 같다.

모집단1 - 평균:109 / 표준편차:45.2

모집단2 - 평균:118 / 표준편차:54.3

검정하고자 하는 가설

H0 = 두 평균이 같다 vs H1 두평균이 같지 않다.

$\small \frac{(109-118)}{\sqrt{(45.2^{2}/80) + (54.3^{2}/60)}} = -1.041$

$\small z_{0.025} = 1.96$ 이므로 H0을 기각할 수 없다. 두 모집단의 특성치의 평균은 같다.

2. 두 정규모집단의 분산이 같을 때의 검정방법

표본의 크기와 상관없이 적용 가능하다.

그룹 X1을 평균 $\small \mu_{1}$ , 모집단에서 뽑은 크기 $\small n_{1}$ 인 확률 표본

그룹 X2을 평균 $\small \mu_{2}$ , 모집단에서 뽑은 크기 $\small n_{2}$ 인 확률 표본이다.

두 표본은 독립이고 공통분산의 추정량을

$\small S_{p} = \frac{(n_{1}-1)s_{1}^{2}+ (n_{1}-1)s_{2}^{2}}{n_{1}+n_{2}-2}$ 라고 할때, T검정통계를 따른다.

예시

A,B두 회사에서 생성되는 윤활류의 점도를 각각 자동차 10대씩 사용하여 일정 거리동안 주행한 다음, 윤활류의 점도를 측정하였다.

B사가 윤활유가 사용 후 평균적으로 A회사 보다 점도가 더 높다고 할수 있는지 유의수준5%에서 검정하여라.

(A,B) 회사의 윤활유의 점도는 분산이 같은 정규분포를 따른다고 가정

A = 표본평균:15.08 / 표본표준편차: 12.78 / 표본수:10

B = 표본평균:15.51 / 표본표준편차: 7.40 / 표본수:10

H0: 평균이 같다. vs H1: A < B

$\small \bar{x}_{1} = 15.08 , s_{1}^{2} = 12.78, \bar{x}_{2} = 12.78 , s_{2}^{2} = 7.40, n_{1} = 10 , n_{2}= 10$ 일때, 공통 분산추정량은 다음과 같다.

$\small s_{P}^{2} = \frac{9\times 12.7+9\times7.40}{10+10-2} = 10.09$

$\small t_{0} = \frac{(\bar{x}_{1} - \bar{x}_{2})}{s_{P}^{2}\sqrt{(1/n_{1})+(1/n_{2})}} = \frac{15.08-15.51}{10.09\sqrt{1/10+1/10}} = -0.303$ 이며,

$\small -t_{0.05}(18) = -1.734$ 이므로, H0을 기각할 수 없다.

A회사 제품보다 B회사의 제품 점도가 높다고 할 수 없다.

3. 두 정규모집단의 분산이 같은경우(등분산)의 검정방법

등분산의 가정이 없는 경우

그룹 X1을 평균 $\small \mu_{1}$ , 모집단에서 뽑은 크기 $\small n_{1}$ 인 확률 표본

그룹 X2을 평균 $\small \mu_{2}$ , 모집단에서 뽑은 크기 $\small n_{2}$ 인 확률 표본이다. $\small n_{1}$ , $\small n_{2}$ 는 5이상이고 두 표본은 독립이다.

T통계량을 사용하고, 두집단의 분산이 동일하다는 가정이 없기 때문에, 자유도를 $\small t(df)$ 도 따른다.

$\small df = (\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}) / \frac{1}{n_{1}-1}(\frac{s_{1}^{2}}{n_{1}})^{2} + \frac{1}{n_{2}-1}(\frac{s_{2}^{2}}{n_{2}})^{2}$

대응비교(쌍체비교)에 의한 모평균의 비교

동질적인 두 쌍에 대한 모평균 차이에 관한 가설의 합당성 여부 판단

1. 두 모집단이 쌍으로 조사된 자료 $\small (X_{1}, Y_{1})....(X_{n},Y_{n})$

두 모집단이 정규분포를 따를때,

X의 평균을 $\small \mu_{x}$ , Y의 평균을 $\small \mu_{y}$ 라고 하면, 각 관측치 쌍에 대하여 $\small D_{i} = X_{i} - Y_{i}$ , i = n으로 정의하고, $\small D_{i}$ 의 평균을 $\small \mu_{D}$ 으로 나타냈을때,

$\small T = \frac{\bar{D}-\mu_{D}}{S_{p}/\sqrt{n}} \sim t(n-1)$

검정통계량의 관측값

$\small t_{0} = \frac{\bar{d}}{s_{P}/\sqrt{n}}$

예제

임의로 추출된 10명의 비만 여성에 대하여, 감향을 위한 음식 조절법을 실시한 전후의 체중이 다음과 같다.

체중이 정규분포를 따른다고할때, 음식 조절법의 효과가 있는지 유의수준5%에서 검정하여라

전 82.1 78.1 86.2 84.8 95.2 91.6 75.3 78.5 83.0 83.5

후 80.7 78.1 83.9 83.5 91.2 91.2 72.6 76.2 81.6 81.2

X: 음식 조절 전, Y: 후

$\small D_{i} = X_{i} - Y_{i}$ 라하면, 가설은

H0: $\small \mu_{D}$ = 0 vs H1: $\small \mu_{D}$ >0

(H0: 전,후가 같다. vs H1: 전이 더 크다)

$\small \bar{d} = 1.81 / s_{d} = 1.16 /n = 10$

$\small t_{0} = \frac{1.81}{1.61/\sqrt{10}} = 4.934$

$\small t_{0} \geq t_{0.05}(9) = 1.833$ 이므로, H0을 기각할 수 있다.

모분산

모집단의 데이터가 흩어져 있는 정도를 나타내느 양

점추정

$\small \hat{\sigma} =S^{2}$

구간추정

정규모집단의 분산 $\small \sigma^{2}$ 에 대한 구간 추정은 다음과 같다.

$\small (n-1)S^{2}/\sigma^{2}\sim X^{2}(n-1)$

$\small \sigma^{2}$ 에 대한 $\small 100(1-\alpha)$ % 신뢰구간은 카이제곱분포 사용

$\small \frac{(n-1)S^{2}}{X_{\frac{\alpha}{2}}^{2}(n-1)}, \frac{(n-1)S^{2}}{X_{1-\frac{\alpha}{2}}^{2}(n-1)}$

예시

어느 공정에서 생산되는 강철판의 두께의 산포는 어느정도는 필연적인것으로 간주 되지만, 두께의 표준편차가 1.2mm를 넘으면 생산공정에 이상이 있는 것으로 간주한다.

10개의 판을 랜덤 추출하여 두께를 측정한 결과가 다음과 같았다.

23, 22, 24, 25, 23, 22, 24, 22, 26, 23

강정팔 두께의 분포가 정규분포일때, 판 두께의 모분산에 대한 90% 신뢰구간을 구하여라.

$\small n = 10 , S^{2}= 1.8222, S = 1.3499$

$\small X^{2}_{0.05} (9) = 16.919, X^{2}_{0.95}(9) = 3.325$

따라서, 90%는

$\small (\frac{9*1.8222}{16.919}, \frac{9*1.8222}{3.325})$

가설 검정

표준편차가 $\small \sigma$ 인 정규모집단으로 부터 추출한 추정량은 표본표준(s)편차

H0 : $\small \sigma$ = $\small \sigma_{0}$ 인지 검정하고 이때, 카이제곱검정사용

예시(단측)

볼트와 너트를 생산하는 한 공장에서는 제품의 품질이 얼마나 균일하게 유지되는지를 검사하기 위해 10개의 볼트를 추출하여 지름을 측정하고 표주편차를 구했더니 0.4였다.

그 공장에서 생산되는 불트의 지름이 정규분포를 따른다는 가정하에 $\small \sigma$ 가 0.2보다 크다고 할수 있는지 0.05유의수준으로 검정하여라.

H0 : $\small \sigma$ =0.2 vs H1: $\small \sigma$ >0.2

n = 10, $\small \sigma_{0}$ =0.2, s = 0.4,

검정통계량의 관측값 $\small X_{0}^{2} = 36$ (카이제곱값 36)

기각역 $\small X_{0}^{2} = 36\geq X_{0.05}^{2} (9) = 16.92$ 이고, 검정통계량의 관측값이 기각역에 포함되므로 귀무가설을 기각할 수 있다.

이표본에 의한 분산비 검정

두 표본의 분산이 동일한지 비교검정

1) X: 정규분포를 따른다. $\small \mu_{1}$ , $\small \sigma_{1}^{2}$

2) Y: 정규분포를 따른다. $\small \mu_{2}$ , $\small \sigma_{2}^{2}$

3) 두 확률표본은 서로 독립이다.

두 분산을 비교하기 위해 비율값을 사용하고 있고, 각각의 분산값들이 카이제곱검정을 따르기 때문에 F검정 사용할 수 있다.

$\small F = \frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}} = \frac{\frac{1}{n_{1}-1}\sum (X_{i}-\bar{X})^{2}/\sigma_{1}^{2}}{\frac{1}{n_{2}-1}\sum (Y_{i}-\bar{Y})^{2}/\sigma_{2}^{2}} \sim F(n_{1}-1, n_{2}-1)$

신뢰구간

- $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ 에 대한 $\small 100(1-\alpha)$ % 신뢰구간

$\small \frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F(n_{1}-1, n_{2}-1;\frac{\alpha}{2})}\leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}\leq \frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F(n_{2}-1, n_{1}-1;\frac{\alpha}{2})}$

가설

검정 통계량은 F이고, 검정통계량의 관측값을 f라고 하자.

(1) H0: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ =1 vs H1: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ >1

$\small R: f\geq F(n_{1}-1, n_{2}-1;\alpha)$ 이면 H0 기각

유의확률: $\small P(F\geq f)$

(2) H0: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ =1 vs H1: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ <1

$\small R: f\leq F(n_{1}-1, n_{2}-1;\alpha)$ 이면 H0 기각

유의확률: $\small P(F\leq f)$

(3) H0: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ =1 vs H1: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ !=1

$\small R: f\leq 1/F(n_{1}-1, n_{2}-1;\alpha/2)$ 혹은

$\small R: f\geq F(n_{1}-1, n_{2}-1;\alpha/2)$ 이면 H0 기각

유의확률: $\small 2P(F\leq f)$ 혹은 $\small 2P(F\geq f)$

예시

A,B 두 기계에서 생산되는 제품의 무게에 대한 균등성을 비교하려 한다.

두 기계에서 나온 제품을 랜덤하게 추출하여 그 무게를 측정한 결과, 다음과 같은 자료를 얻었다.

A: 표본크기 = 13, 표본표준편차=2.3

B: 표본크기 = 11, 표본표준편차 = 1.5

가설 H0: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ =1 vs H1: $\small \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ <1

1) 기계 A의 변이도가 기계B의 변이도 보다 크다고 할 수 있는가?(유의수준5%)

기계A에서 측정된 제품의 분산이 B와 다르다고 할수 있는가?

f통계량에 따르기 때문에, $\small f = 5.29/2.25 = 2.35$

$\small R: f > F(12, 10;0.05)= 2.91$

이는 기각역에 포함되지 않으므로 귀무가설 기각X, 즉 기계 A의 변이도가 기계B의 변이도 보다 크다고 할수 없다.

2) 두 모분산의 비해 대한 90% 신뢰구간은?

$\small \frac{s_{A}^{2}}{s_{B}^{2}}\frac{1}{F(12, 10;0.05)}\leq \frac{\sigma_{A}^{2}}{\sigma_{B}^{2}}\leq \frac{s_{A}^{2}}{s_{B}^{2}}\frac{1}{F(10, 12;0.05)} = (0.807,6.470)$

'Data > 데이터 분석·통계' 카테고리의 다른 글

[데이터 분석] python을 활용한 데이터 분석 (1) - 패키지 소개 (0)	2018.07.08
[(빅)데이터 교육] 데이터 분석의 기초 - 데이터의 탐색 (0)	2018.06.25
[(빅)데이터 교육] 데이터 분석의 기초 - 통계적 추론 (0)	2018.06.22
[(빅)데이터 교육] 데이터 분석의 기초 - 확률과 확률분포 (0)	2018.06.22
[(빅)데이터 교육] 데이터 분석의 기초 - 데이터 분석 개요 (0)	2018.06.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지-영

[(빅)데이터 교육] 데이터 분석의 기초 - 분포에 관한 추론

'Data > 데이터 분석·통계' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[(빅)데이터 교육] 데이터 분석의 기초 - 분포에 관한 추론

'Data > 데이터 분석·통계' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역