1. 모집단과 표본
모집단(Population): 관심대상의 전체 집합
모수(parameter): 모집단을 분석하여 걷어지는 결과 수치
- 모평균, 모분산, 모표준편차, 모비율
표본(Sample): 과학절차를 적용하여 모집단을 대표할 수 있는 일부를 추출하여 직접적인 조사 대상이 된 모집단의 일부(모집단을 설명하는 기준)
통계량(statistic): 표본을 분석하여 얻어지는 결과 수치
- 표본평균, 표본분산, 표본표준편차, 표본비율
표본추출
확률적 표본추출 방법(Probability Sampling method): 표본이 될 확률이 동일한것
- 단순 무작위 표본추출: random
- 체계적 표본추출
- 비례 층화 표본추출
- 다단계 층화 표본추출
- 군집 표본추출
비확률적 표본추출 방법(non-probability Sampling method): 자신의 의지로 표본을 뽑음
- 편의 표본추출
- 판단 표본추출
- 할당 표본추출
- 자발적 표본추출: 표본이 되기 위한 스스로 와서... -> 결과가 왜곡될 가능성이 크다.
2. 표본의 분포
정규분포
어떤 사건이 일어난 빈도(frequency)를 계산하여 그래프로 나타내면 중심(평균)을 기준으로 좌우가 대칭되는 분포
표준화: 기준을 중심(평균/분산)으로 새롭게 배치(표준정규분포)
- z분포: 표본의 갯수가 충분할 경우 사용
- t분포: 표본이 충분하지 못할 경우
n-1: 자유도 , 표준오차
- 카이제곱분포: 자유도가 커지면 정규분포형태를 띄게된다.
- phat분포, 표본비율 분포(모비율을 추정할 때 사용됨)
성공 vs. 실패
남성 vs. 여성
구매 vs. 비구매
어느한 사건이 발생하는 베르누이 시행의 이항분포를 활용하여 표본비율의 분포를 구한다.
3. 표본분포와 중심극한정리
표본분포(Sample distribution): 모수를 측정하기 위한 표본 통계량의 확률 분포
ex) 5일간의 통학 시간, 37분/25분/49분/33분/56분이 소요되었다면, 평균은?
- 표본을 2개 추출하는 경우 5C2 = 10
(37, 25), (37, 49) ...
- 표본을 3개를 추출하는 경우 5C3 = 10
표본 2개인 경우의 오차와 표본 3개인 오차를 비교해 보았을때, 3개인 경우 오차가 줄어드는 것을 볼 수 있다.
중심극한정리(Central Limit Theorem: CLT): 표본의 개수가 충분하다면, 모수를 모르는 상황에서도 정규분포를 구성하여 모수를 추정할 수 있다.
'Data > 데이터 분석·통계' 카테고리의 다른 글
[제대로 시작하는 기초통계학] Chapter4. 확률과 통계 (0) | 2018.08.18 |
---|---|
[제대로 시작하는 기초통계학] Chapter3. 데이터와 통계량 (0) | 2018.07.30 |
[제대로 시작하는 기초통계학] Chapter1. 통계학의 이해 (0) | 2018.07.28 |
[데이터 분석] python을 활용한 데이터 분석 (2) - ipyhon (0) | 2018.07.08 |
[데이터 분석] python을 활용한 데이터 분석(1) - 패키지 설치 (0) | 2018.07.08 |
댓글