본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[제대로 시작하는 기초통계학] Chapter3. 데이터와 통계량

by 징여 2018. 7. 30.
반응형

1. 데이터의 수집


변수: 어떠한 대응관계(함수관계)로 변화하는 수

변수의 특성을 파악하는 것이 중요하다.

데이터: 조사목적에 맞는 변수를 기반으로 표본으로 부터 수집된 자료


척도

- 범주형 척도: 

명목척도: 이름(수치화는 상관이없음) ex) 남/여

서열척도(순서척도): ex) 1등 2등 3등, (관계 간격은 일정하지 않을 수 있다)

- 연속형 척도: 구간안에서 연결되어있는 자료

 등간척도: 간격이 동일

 비율척도:



2. 데이터의 표현방법


: 도수분포표(Frequency distribution table)

그래프: 그림으로 직관적으로 볼수 있게 끔


3. 기초통계량


"그래 이맛이야!"

한수저만 떠먹고 "그래 이맛이야!" 했을때, 맛본 부분만 맛 있을까? 아니면 전체가 맛 있을까?


중심경향도(measure of central tendency): 데이터들을 종합하여 그 주심을 이루는 값이 어느정도가 될지 구한 것

ex) 학교까지 가는데 어느 정도 시간이 걸리는가?

- 30분 정도 소요됩니다.

- 30~40분 정도 소요됩니다.


평균(Mean): 모든 통계분석에서 사용되며 표본의 특성을 제시할때 가장 먼저 사용되는 수치

중간값(Median): 편중과 상관없이 가장 작은 값에서 가장 큰값까지 정렬했을때 그 가운데 위치한 값

최빈값(Mode): 가장 많이 나타나는 관측지 (쏠림현상이 나타날수 있다)


문제1. 중간고사 성적이 반에서 중간 이상이면 선물을 받는다. A가 70점을 받았을때, 선물을 받을 수 있을까?

- A반은 6명이다.

- 10, 40, 70, 85, 85, 100점이다.

평균: 10+40+70+85+85+100/6 = 65점

중간값: 10 40 70 85 85 100 -> 중간값이 두개(70,85)일때, 둘의 평균으로 나타낸다. 70+85/2 = 77.5

최빈값: 85점

평균에 따르면, A는 선물을 받을 수 있고, 중간값과 최빈값에 따르면 A는 선물을 받을 수 없다...!

통계는 내용에 따라 달라질 수 있으므로 논리를 잘 펼쳐야 한다..


문제2. 2:2로 골프시합을 했다. 어느 팀이 이겼다고 할수 있을까?

- A는 80타를 쳤고, B는 70과 90타를 쳤다.

- 두 팀모두 똑같이 합산 160타이면서 평균80타이다.

측정된 데이터가 어떻게 분포하고 있는지 대해 파악해야 데이터를 제대로 이해할수있다.


산포도(dispersion): 표본의 특성이라 할수 있는 분포의 정도

모분산: 모집단, 모평균과 모집단의 개별 측정치들 간의 차를 구해서 제곱을 모두 더한후, 그 값을 다시 모집단을 구성하는 개수로 나누어 계산


문제3. A반과 B반의 평균과 분산을 구하고 특성과 차이에 대하여 설명하라.

A B
1 168 179
2 160 175
3 170 152
4 162 153
5 168 173   A B
6 163 158 평균 164.9 164.8
7 164 175 모분산 10.29 105.56
8 167 154 표본분산 11.43333333 117.2888889
9 161 172
10 166 157

분산: 평균에서 떨어진 정도

표본분산: 모집단을 기준으로 하지 않고, 표본을 선정해 표본의 개수(n-1)로 계산한 분산을 표본분산(Sample variance)이라 한다.

* df(자유도): n-1, A,B,C의 평균이 10일때, A, B, C가 구성될 수 있는 수치는 ?

A와 B가 정해지면, C는 구속되어버린다.

따라서 자유롭게 변화할 수 있는 자유도는 2가 된다

표준편차: 평균으로부터 측정치들이 어느정도 흩어져있는지의 정도를 다타내는 것. 분산값에 루트

음(-)과 양(+)으로 흩어져 총 합이 0이 되기 떄문에 이를 피하기 위해 편차에 제곱하여 분산으로 사용한다.

반응형

댓글