본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[제대로 시작하는 기초통계학] Chapter2. 모집단과 표본

by 징여 2018. 7. 28.
반응형

1. 모집단과 표본


모집단(Population): 관심대상의 전체 집합

모수(parameter): 모집단을 분석하여 걷어지는 결과 수치

- 모평균, 모분산, 모표준편차, 모비율


표본(Sample): 과학절차를 적용하여 모집단을 대표할 수 있는 일부를 추출하여 직접적인 조사 대상이 된 모집단의 일부(모집단을 설명하는 기준)

통계량(statistic): 표본을 분석하여 얻어지는 결과 수치

- 표본평균, 표본분산, 표본표준편차, 표본비율


표본추출

확률적 표본추출 방법(Probability Sampling method): 표본이 될 확률이 동일한것

- 단순 무작위 표본추출: random

- 체계적 표본추출

- 비례 층화 표본추출

- 다단계 층화 표본추출

- 군집 표본추출

비확률적 표본추출 방법(non-probability Sampling method): 자신의 의지로 표본을 뽑음

- 편의 표본추출

- 판단 표본추출

- 할당 표본추출

- 자발적 표본추출: 표본이 되기 위한 스스로 와서... -> 결과가 왜곡될 가능성이 크다.



2. 표본의 분포


정규분포

어떤 사건이 일어난 빈도(frequency)를 계산하여 그래프로 나타내면 중심(평균)을 기준으로 좌우가 대칭되는 분포

표준화: 기준을 중심(평균/분산)으로 새롭게 배치(표준정규분포)

- z분포: 표본의 갯수가 충분할 경우 사용

- t분포: 표본이 충분하지 못할 경우

n-1: 자유도 , 표준오차

- 카이제곱분포: 자유도가 커지면 정규분포형태를 띄게된다.

- F분포(두개의 분산에 관한 추론)


- phat분포, 표본비율 분포(모비율을 추정할 때 사용됨)

성공 vs. 실패 

남성 vs. 여성

구매 vs. 비구매

어느한 사건이 발생하는 베르누이 시행의 이항분포를 활용하여 표본비율의 분포를 구한다.



3. 표본분포와 중심극한정리


표본분포(Sample distribution): 모수를 측정하기 위한 표본 통계량의 확률 분포

ex) 5일간의 통학 시간, 37분/25분/49분/33분/56분이 소요되었다면, 평균은?

- 표본을 2개 추출하는 경우 5C2 = 10 

(37, 25), (37, 49) ...

-  표본을 3개를 추출하는 경우 5C3 = 10

표본 2개인 경우의 오차와 표본 3개인 오차를 비교해 보았을때,  3개인 경우 오차가 줄어드는 것을 볼 수 있다.


중심극한정리(Central Limit Theorem: CLT): 표본의 개수가 충분하다면, 모수를 모르는 상황에서도 정규분포를 구성하여 모수를 추정할 수 있다.



반응형

댓글