1. 데이터의 수집
변수: 어떠한 대응관계(함수관계)로 변화하는 수
변수의 특성을 파악하는 것이 중요하다.
데이터: 조사목적에 맞는 변수를 기반으로 표본으로 부터 수집된 자료
척도
- 범주형 척도:
명목척도: 이름(수치화는 상관이없음) ex) 남/여
서열척도(순서척도): ex) 1등 2등 3등, (관계 간격은 일정하지 않을 수 있다)
- 연속형 척도: 구간안에서 연결되어있는 자료
등간척도: 간격이 동일
비율척도:
2. 데이터의 표현방법
표: 도수분포표(Frequency distribution table)
그래프: 그림으로 직관적으로 볼수 있게 끔
3. 기초통계량
"그래 이맛이야!"
한수저만 떠먹고 "그래 이맛이야!" 했을때, 맛본 부분만 맛 있을까? 아니면 전체가 맛 있을까?
중심경향도(measure of central tendency): 데이터들을 종합하여 그 주심을 이루는 값이 어느정도가 될지 구한 것
ex) 학교까지 가는데 어느 정도 시간이 걸리는가?
- 30분 정도 소요됩니다.
- 30~40분 정도 소요됩니다.
평균(Mean): 모든 통계분석에서 사용되며 표본의 특성을 제시할때 가장 먼저 사용되는 수치
중간값(Median): 편중과 상관없이 가장 작은 값에서 가장 큰값까지 정렬했을때 그 가운데 위치한 값
최빈값(Mode): 가장 많이 나타나는 관측지 (쏠림현상이 나타날수 있다)
문제1. 중간고사 성적이 반에서 중간 이상이면 선물을 받는다. A가 70점을 받았을때, 선물을 받을 수 있을까?
- A반은 6명이다.
- 10, 40, 70, 85, 85, 100점이다.
평균: 10+40+70+85+85+100/6 = 65점
중간값: 10 40 70 85 85 100 -> 중간값이 두개(70,85)일때, 둘의 평균으로 나타낸다. 70+85/2 = 77.5
최빈값: 85점
평균에 따르면, A는 선물을 받을 수 있고, 중간값과 최빈값에 따르면 A는 선물을 받을 수 없다...!
통계는 내용에 따라 달라질 수 있으므로 논리를 잘 펼쳐야 한다..
문제2. 2:2로 골프시합을 했다. 어느 팀이 이겼다고 할수 있을까?
- A는 80타를 쳤고, B는 70과 90타를 쳤다.
- 두 팀모두 똑같이 합산 160타이면서 평균80타이다.
측정된 데이터가 어떻게 분포하고 있는지 대해 파악해야 데이터를 제대로 이해할수있다.
산포도(dispersion): 표본의 특성이라 할수 있는 분포의 정도
모분산: 모집단, 모평균과 모집단의 개별 측정치들 간의 차를 구해서 제곱을 모두 더한후, 그 값을 다시 모집단을 구성하는 개수로 나누어 계산
문제3. A반과 B반의 평균과 분산을 구하고 특성과 차이에 대하여 설명하라.
반 | A | B | ||||
1 | 168 | 179 | ||||
2 | 160 | 175 | ||||
3 | 170 | 152 | ||||
4 | 162 | 153 | ||||
5 | 168 | 173 | A | B | ||
6 | 163 | 158 | 평균 | 164.9 | 164.8 | |
7 | 164 | 175 | 모분산 | 10.29 | 105.56 | |
8 | 167 | 154 | 표본분산 | 11.43333333 | 117.2888889 | |
9 | 161 | 172 | ||||
10 | 166 | 157 |
분산: 평균에서 떨어진 정도
표본분산: 모집단을 기준으로 하지 않고, 표본을 선정해 표본의 개수(n-1)로 계산한 분산을 표본분산(Sample variance)이라 한다.
* df(자유도): n-1, A,B,C의 평균이 10일때, A, B, C가 구성될 수 있는 수치는 ?
A와 B가 정해지면, C는 구속되어버린다.
따라서 자유롭게 변화할 수 있는 자유도는 2가 된다
표준편차: 평균으로부터 측정치들이 어느정도 흩어져있는지의 정도를 다타내는 것. 분산값에 루트
음(-)과 양(+)으로 흩어져 총 합이 0이 되기 떄문에 이를 피하기 위해 편차에 제곱하여 분산으로 사용한다.
'Data > 데이터 분석·통계' 카테고리의 다른 글
[추천 시스템] 주요 회사 알고리즘 정리 (0) | 2021.05.21 |
---|---|
[제대로 시작하는 기초통계학] Chapter4. 확률과 통계 (0) | 2018.08.18 |
[제대로 시작하는 기초통계학] Chapter2. 모집단과 표본 (0) | 2018.07.28 |
[제대로 시작하는 기초통계학] Chapter1. 통계학의 이해 (0) | 2018.07.28 |
[데이터 분석] python을 활용한 데이터 분석 (2) - ipyhon (0) | 2018.07.08 |
댓글