본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[제대로 시작하는 기초통계학] Chapter4. 확률과 통계

by 징여 2018. 8. 18.
반응형

1. 확률과 의사결정


통계의 목적: 모수 추정

추정의 이유: 모집단을 대상으로 하는 조사가 불가능하거나 시간과 비용 등의 물리적 한계 때문


확률


- 확률이 가지는 조건 (E: 사건(Event), i:시행횟수, P:확률)


- 확률의 덧셈법칙

1) 서로다른 사건 A와 B일때,

2) 배반사건일 경우(중복이 없었을떄)


-확률의 곱셈법칙

1) A가 발생한뒤,  B가 발생할 확률

 


예제


ex1) 동전을 2번던졌을때, 앞면이 나올 확률

- 2번모두 앞면이 나올 확률:

앞면이 나올확률: 1/2  * 앞면이나올확률: 1/2 = 1/4

- 1번만 앞면이 나올확률:

H/T: 앞면 1/2 * 뒷면 1/2 = 1/4

T/H: 뒷면1/2 * 앞면 1/2 = 1/4

1/4+ 1/4 = 2/4 = 1/2

-따라서, 

1/4+1/2 = 3/4


ex2) 주사위를 두번던져서 나오는 결과의 합이 10이상이 될 확률을 구하여라.

(4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)

합이 10이 되는 경우의 확률

- (4,6)인경우 = 1/6* 1/6 = 1/36

- (5,5)인경우 = 1/6* 1/6 = 1/36

- (6,4)인경우 = 1/6* 1/6 = 1/36

합이 11이 되는 경우의 확률

- (5,6)인경우 = 1/6* 1/6 = 1/36

- (6,5)인경우 = 1/6* 1/6 = 1/36

합이 12이 되는 경우의 확률

- (6,6)인경우 = 1/6* 1/6 = 1/36

6/36 = > 1/6


확률변수(random variable)

확률함수(probability function): 실험결과가 어떨지 알수는 없지만, 결과의 수에 확률을 부여한것

- 이산확률변수(discrete random variable)

- 연속확률변수(continues)


동전 2개던지기

사건, E: HH / HT / TH / TT

확률변수, X : 2 / 1 / 0

확률, P(X): 1/4, 1/2

확률함수, P(X=x)

P(X = 2) = 1/4

P(X = 1) = 1/2

P(X = 0) = 1/4


ex) 윷놀이 확률변수 계산

말 4개를 가지고 최소한으로 움직이면서 가장 빨리 이기는 경우의 확률변수에 대해 설명하라, 확률과 확률함수를 구하라

- 가장 빨리 가는 경우: 모가 4번 후, 걸이 2번 

모가 연속 4회 나오는 경우: 도, 개, 걸, 윳, 모

P(4) = 1/16 * 1/16 * 1/16 * 1/16

P(2) = 4/16 * 4/16


사건, E: 모모모모 걸걸

확률변수, X  = 4, 2

확률, P(X)  = (1/16)^4 , (1/4)^2

P(X = 4)  = 1/65,536

P(X = 2) = 1/16


2. 확률변수의 기대값과 분산


기대값: 사건에 발생하는 해당값과 그 사건이 발생할 확률을 곱해서 모두 더한 값

ex)주사위를 던졌을때, 기대값은

1*1/6 + 2*1/6 + 3*1/6 + 4*16 + 5*1/6 * 6*1/6 = 3.5

- 기대값의 성질

a가 상수, X와 Y가 확률변수일때, 다음과 같이 성립한다.

1) 

2) 
3) 

4) 

5) , X와 Y는 확률적으로 독립


확률변수의 분산: 기대값의 특성을 나타내는 값(확률변수들이 기대값으로 부터 벗어나는 정도)


- 분산의 성질

a와 b가 상수,  X와 Y가 확률변수일 때 다음이 성립한다.

1) 

2) 
3) 

 X와 Y는 확률적으로 독립

4) 

 X와 Y는 확률적으로 독립


확률변수의 표준편차: 분산의 제곱근

제곱을 하게 되면, 값이 커지게 된다. 따라서 커진정도는 눈에 보이긴 하지만, 실질적으로 어느정도 떨어져있는지 보기 어렵다. 따라서 제곱근을 이용해서 표준편차로.


 ex) 우승을노리는 N팀이 이번에 FA가 되는 선수 A와 B 중 한명을 스카우트 하려고한다.

성적에 따라, 인센티브와 각 선수를 영입했을때 얻을 수 있는 성적에 대한 확률을 기반으로 기대값과 확률변수의 분산을 계산하고 누구를 영입할 것인지 판단하라.

  인센티브 A B
우승 300 0.58 0.65 우승확률은 조금 떨어지지만, 기대값은 A가 더 높다
순위 상승 150 0.87 0.51 기대값은 더 적지만, 우승확률이 높은 것은 B이다. 하지만, 분산이 B가 적다.
동일 0 0.55 0.45 우승하기 위해서는 B를 영입해야한다.
하락 -100 0.05 0.05
E 299.5 266.5
var 76760.0125 46327.435
std 277.0559736 215.2380891


반응형

댓글