1. 확률과 의사결정
통계의 목적: 모수 추정
추정의 이유: 모집단을 대상으로 하는 조사가 불가능하거나 시간과 비용 등의 물리적 한계 때문
확률
- 확률이 가지는 조건 (E: 사건(Event), i:시행횟수, P:확률)
- 확률의 덧셈법칙
1) 서로다른 사건 A와 B일때,
2) 배반사건일 경우(중복이 없었을떄)
예제
- 2번모두 앞면이 나올 확률:
앞면이 나올확률: 1/2 * 앞면이나올확률: 1/2 = 1/4
- 1번만 앞면이 나올확률:
H/T: 앞면 1/2 * 뒷면 1/2 = 1/4
T/H: 뒷면1/2 * 앞면 1/2 = 1/4
1/4+ 1/4 = 2/4 = 1/2
-따라서,
1/4+1/2 = 3/4
ex2) 주사위를 두번던져서 나오는 결과의 합이 10이상이 될 확률을 구하여라.
(4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)
합이 10이 되는 경우의 확률
- (4,6)인경우 = 1/6* 1/6 = 1/36
- (5,5)인경우 = 1/6* 1/6 = 1/36
- (6,4)인경우 = 1/6* 1/6 = 1/36
합이 11이 되는 경우의 확률
- (5,6)인경우 = 1/6* 1/6 = 1/36
- (6,5)인경우 = 1/6* 1/6 = 1/36
합이 12이 되는 경우의 확률
- (6,6)인경우 = 1/6* 1/6 = 1/36
6/36 = > 1/6
확률변수(random variable)
확률함수(probability function): 실험결과가 어떨지 알수는 없지만, 결과의 수에 확률을 부여한것
- 이산확률변수(discrete random variable)
- 연속확률변수(continues)
동전 2개던지기
사건, E: HH / HT / TH / TT
확률변수, X : 2 / 1 / 0
확률, P(X): 1/4, 1/2
확률함수, P(X=x)
P(X = 2) = 1/4
P(X = 1) = 1/2
P(X = 0) = 1/4
ex) 윷놀이 확률변수 계산
말 4개를 가지고 최소한으로 움직이면서 가장 빨리 이기는 경우의 확률변수에 대해 설명하라, 확률과 확률함수를 구하라
- 가장 빨리 가는 경우: 모가 4번 후, 걸이 2번
모가 연속 4회 나오는 경우: 도, 개, 걸, 윳, 모
P(4) = 1/16 * 1/16 * 1/16 * 1/16
P(2) = 4/16 * 4/16
사건, E: 모모모모 걸걸
확률변수, X = 4, 2
확률, P(X) = (1/16)^4 , (1/4)^2
P(X = 4) = 1/65,536
P(X = 2) = 1/16
2. 확률변수의 기대값과 분산
기대값: 사건에 발생하는 해당값과 그 사건이 발생할 확률을 곱해서 모두 더한 값
ex)주사위를 던졌을때, 기대값은
1*1/6 + 2*1/6 + 3*1/6 + 4*16 + 5*1/6 * 6*1/6 = 3.5
- 기대값의 성질
a가 상수, X와 Y가 확률변수일때, 다음과 같이 성립한다.
2)3)
확률변수의 분산: 기대값의 특성을 나타내는 값(확률변수들이 기대값으로 부터 벗어나는 정도)
- 분산의 성질
a와 b가 상수, X와 Y가 확률변수일 때 다음이 성립한다.
2)4)
확률변수의 표준편차: 분산의 제곱근
제곱을 하게 되면, 값이 커지게 된다. 따라서 커진정도는 눈에 보이긴 하지만, 실질적으로 어느정도 떨어져있는지 보기 어렵다. 따라서 제곱근을 이용해서 표준편차로.
ex) 우승을노리는 N팀이 이번에 FA가 되는 선수 A와 B 중 한명을 스카우트 하려고한다.
성적에 따라, 인센티브와 각 선수를 영입했을때 얻을 수 있는 성적에 대한 확률을 기반으로 기대값과 확률변수의 분산을 계산하고 누구를 영입할 것인지 판단하라.
인센티브 | A | B | |||
우승 | 300 | 0.58 | 0.65 | 우승확률은 조금 떨어지지만, 기대값은 A가 더 높다 | |
순위 상승 | 150 | 0.87 | 0.51 | 기대값은 더 적지만, 우승확률이 높은 것은 B이다. 하지만, 분산이 B가 적다. | |
동일 | 0 | 0.55 | 0.45 | 우승하기 위해서는 B를 영입해야한다. | |
하락 | -100 | 0.05 | 0.05 | ||
E | 299.5 | 266.5 | |||
var | 76760.0125 | 46327.435 | |||
std | 277.0559736 | 215.2380891 |
'Data > 데이터 분석·통계' 카테고리의 다른 글
[추천 시스템] 주요 회사 알고리즘 정리 (0) | 2021.05.21 |
---|---|
[제대로 시작하는 기초통계학] Chapter3. 데이터와 통계량 (0) | 2018.07.30 |
[제대로 시작하는 기초통계학] Chapter2. 모집단과 표본 (0) | 2018.07.28 |
[제대로 시작하는 기초통계학] Chapter1. 통계학의 이해 (0) | 2018.07.28 |
[데이터 분석] python을 활용한 데이터 분석 (2) - ipyhon (0) | 2018.07.08 |
댓글