확률과 확률분포
확률
확률
- 경험 혹은 실험의 결과로 특정한 사건이나 결과가 발생할 가능성
- 표본공간(S)에서의 임의의 사건(E)에 대해서 E가 발생할 확률 P(E)는 3가지 조건을 만족 시켜야 한다.
1) 0<= P(E) <=1
2) P(S) = 1
3) 서로 배반사건일때, 모든 사건들의 합사건의 확률 = 개별사건들의 확률값의 합
표본공간(sample space): 통계적 실험에서 모든 가능한 결과의 집합
사건(event): 관심이 있는 실험 결과의 집합
근원사건: 한 개의 원소로 된 사건
사건의 연산
1) 합사건
2) 곱사건
3) 여사건
4) 배반사건
조건부 확률
사건 B(P(B)>0)가 발생한 상태에서 사건 A가 일어날 확률
If P(B) > 0, then P(A|B) = P(A 교집합 B)/P(B)
주요특성
1) 합사건
2) 곱셈법칙
3) 여사건
4) 독립사건
5) 덧셈정리
예제1
졸업하는 학생 900명을 대상으로 남/여 취업 상태를 조사한 결과 다음과 같은 자료를 얻었다.
|
취업 |
미취업 |
합계 |
남 |
460 |
40 |
500 |
여 |
140 |
260 |
400 |
합계 |
600 |
300 |
900 |
이 학교에서 한 학생을 추출했을 때,
사건A = 뽑은 학생이 여학생인 경우
사건B = 취업을 했을 경우
뽑힌 학생이 취업을 했다는 조건하에 학생이 여학생인 확률은?
P(A) = 4/9
P(B) = 2/3
베이즈 정리(Bayes' Theorem)
조건부 확률을 이용해 사전 확률과 사후확률의 관계를 추정하는 정리
사전확률(Prior probability): A라는 사건의 발생 확률 P(A)
사후확률(Posterior probablity): B라는 사건이 주어졌을때, A의 발생확률 P(A|B)
베이즈 정리
2) 의 합집합이 S일때, 전확률의 정의에 의해예제2
어떤 대학의 학생의 30%는 1학년, 25%는 2학년, 25%는 3학년, 20%는 4학년 학생이다.
1학년의 50%, 2학년의 30%, 3학년의 10%, 4학년의 2%가 기초통계학 수강생이다.
이 학교의 학생중 한명을 추출하였을때, 그 학생이 기초통계확률 수강생일 확률은?
A: 기초통계학 수강생일 사건
B1: 1학년 / B2: 2학년 / B3: 3학년 / B4: 4학년
P(A) = 0.3*0.5 + 0.25*0.3 + 0.25*0.1+0.2*0.02 = 0.254
예제3
어떤 지역의 환자 비율이 0.001로 알려져있다.
결핵에 걸려있는지 알아보는 검사에서 결핵에 걸렸을때 양성반응이 나타날 확률은 0.95이고, 그렇지 않을때 양성반응이 나타날때의 확률은 0.011이라고 한다.
양성반응이 나타났을때, 결핵에 걸렸을 확률은?
A: 양성반응인 사건
B: 결핵환자인 사건
P(B|A)?
환자의 비율: 0.001
환자가 아닌 비율: 0.999
P(A) = 0.95*0.001 + 0.011*0.999
환자가 양성반응을 받음 + 환자가 아닌사람이 양성반응을 받음
결핵 환자인데, 양성반응인 경우
P(A|B) = 0.95
P(B) = 0.001
P(B교집합A) = P(A|B)P(B)/P(A) =
P(B|A) = 0.95*0.001 / 0.95*0.001+0.11*0.999 = 0.796
확률변수
표본공간(S) 내의 각 사건들의 실수 값을 대응시키는 함수
하나의 고정된 값을 가지지 않고, 사건의 발생에 따라 각각 다른 확률 값을 가지게 된다.
1) 연속형 확률 변수
확률 변수X가 구간 또는 구간들의 모임인 숫자 값을 갖고,
확률 분포 함수로 확률밀도 함수(Probability density function)을 가진다.
2) 이산형 확률 변수
확률 변수 X가 값이 지정된 유한 범위 또는 셀수 있는 목록 중 하나의 값을 갖고,
확률 분포 함수로 확률 질량 함수(Probability mass function)을 가진다.
예제4: 동전던지기
동전을 한번 던져서 나타나는 앞면 관측
- 동전의 앞면이 나오지 않을 확률
P(0) = 1/2
- 동전의 앞면이 나올 확률
P(1) = 1/2
동전 두개를 던져서 나타나는 앞면 관측
- 동전의 앞면이 0번 나올 확률
P(0) = 1/4
- 동전의 앞면이 1번 나올확률
P(1) = 1/2
-동전의 앞면이 2번 나올 확률
P(2) = 1/4
확률 질량 함수(Probablity Mass Function)
- 이산형 확률 변수를 X라고 할때, X가 취하는 특정 값의 상대적 발생 가능성
- 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수
ex) 주사위를 한번 굴릴 때의 값을 나타내는 확률변수가 X일때, 이 확률 변수에 대응되는 확률 질량 함수는 f(X) = 1/6
확률 변수 X가 표본공간(S)에 의해 정의되는 이산확률 변수 일때, 확률 질량 함수
ex) 동전을 한번 던졌을때, 모든 결과의 표본 공간을 S라 하고, S에 의해 정의되는 확률 변수를 X라고 가정하면,
X는 앞면이 나오면 1이고, 뒷면이 나오면 0이다.
코인의 각 면이 나올 확률은 같으므로 확률질량함수는 다음과 같다.
확률 밀도 함수(Probability Density Function)
- 연속형 확률 변수를 X라고 할때, X가 취하는 특정 값의 상대적 발생 가능성을 나타내는 함수
- 확률 변수 X가 구건 [c,d]에서 정의된 연속형 확률 변수이며,
- 구간위에서 정의된 함수가 f(x)가 다음의 성질을 만족할때, f(x)를 X의 확률밀도 함수라고 한다.
정규분포 밀도 함수
- 함수 형태가 한 점을 중심으로 좌우 대칭, 종(bell) 모양, 그리고 그 대칭점이 평균을 나타낸다.
- 평균과 표준편차에 따라 모양이 결정되고, 이때의 분포를 N(평균, 분산)dmfh vyrlgksek.
확률 분포의 표준화
확률 변수 X가 평균, 분산을 갖는 정규분포를 따를때,
X를 Z = 확률변수-평균/표준편차 로 변환하면, Z는 표준정규분포표를 이용하여 보다 쉽게 확률을 계산할 수 있다.
누적 분포 함수(Cumulative Dustribution Function)
각 실수 a마다 확률변수X가 a이하의 값을 취할 확률을 나타내는 함수
누적 분포 함수를 F 라 하면 F(a) = {X<=a}
- 확률 변수 X의 누적 분포 함수를 F()라 하면, 어떤 실수 에 대해 다음이 성립 된다.
P{a < X <=b } = F(b) - F(a)
- 주요 특성
누적 분포 함수(F())의 성질
1) F(b)는 b의 증가함수이다.
- 활용
주어진 확률 변수의 정규분포 여부 검정, 주어진 확률 변수의 누적 분포 함수와 정규분포의 누적 분포 함수의 일치성을 확인하면서 검정한다
중심 극한 정리(Central Limit Theorem)
동일한 확률분포를 가진 독립 확률 변수 n개의 평균 값들의 분포는 n이 충분히 크다면 정규분포에 가까워 진다.
- 임의의 모집단으로 부터 정의되는 표본을 이라 할때, 표본평균은 다음과 같다.
- : 표본의 크기가 커짐에 따라 평균이 이고, 분산이 인 정규 분포에 근사하다.
- 따라서 확률 변수(Z)의 분포는 근사적으로 표본 정규분포를 따른다.
'Data > 데이터 분석·통계' 카테고리의 다른 글
[(빅)데이터 교육] 데이터 분석의 기초 - 분포에 관한 추론 (0) | 2018.06.25 |
---|---|
[(빅)데이터 교육] 데이터 분석의 기초 - 통계적 추론 (0) | 2018.06.22 |
[(빅)데이터 교육] 데이터 분석의 기초 - 데이터 분석 개요 (0) | 2018.06.21 |
[(빅)데이터 분석] 데이터 분석의 이해 - 기계학습의 이해 및 데이터 분석 사례 (0) | 2018.06.20 |
[(빅)데이터 교육] 데이터 분석의 이해 - 데이터 분석 방법론 (2) (0) | 2018.06.20 |
댓글