통계에 대한 기본 개념과 지식을 다시 정리하기 위해서.. KOCW의 한양대학교 안종창교수님의 확률 및 통계 강의를 듣고 정리하기로 하였다. 친절하게 youtube에 다 올라와있더라..
비전공자다 보니, 통계를 공부하고 또 봐도 부족하다는 느낌이 매번 든다.. 이럴땐 익숙해 질때까지 반복하는게 답인것 같다 TT
"소득이 높다고 하여 삶의 만족도가 높을까?"
- 실제로 관련이 있는가에 대한 검증이 필요하다.
- 측정 단위를 살펴볼 필요가 있다.
- 어떻게 수집이 되었고 측정이 되었는지
- 둘의 관계(상호관계에 대한 검증이 필요하다)
제1절 통계학이란 무엇인가?
1. 통계학의 유래
라틴어 |
statisticum collegium |
국가 의회 | |
이태리어 |
statista |
정치인 |
|
독어 |
statistik |
국가자료의 분석 = 국가학 | 정부가 사용할 자료 확보 목적 |
영어 |
political arithmetic |
정치 산술 | 자료의 수집과 분석 @19세기 |
2. 통계학(Statistics)이란?
- 통계학 : 자료(data)의 수집/분석/해석을 다루는 수학의 분야
1) 경영통계학: 경영현상 설명
2) 경제통계학: 경제현상 설명
불확실성(risk)하의 경영/경제 의사결정에 큰 도움을 주며 자연과학/사회과학 분야에 모두 응용 가능하다.
- 통계: 특정 자료에 통계학적 분석을 한 결과치
(두개를 혼용해서 쓰기도하지만, 별 상관이 없다고 한다...)
경영/경제 활동에서 이러한 통계를 쓰는 이유는 예측을 통하여 손실을 최소화 하기 위해서다.
? 공급망이론
? 채찍효과
제2절 지식획득 방법
1. 비과학적 방법
전통에 의한 |
권위에 의한 |
직관(선험)에 의한 |
오래된 지식 수용(합의) |
권위를 가진 인물/기관으로 부터 획득 |
이성과 일치 할 수 있으나 경험과 반드시 일치 하지 않는 지식 |
'세 살 버릇 여든 간다' |
'믿음과 소망과 사랑 중에 그 중에 제일은 사랑이라' |
'원인 없는 결과는 없다' |
수용할 수도 있고 안할 수도 있고 | 성경의 말씀... | 이성적으로 판단해 봤을때... |
2. 과학적 방법
- 논리적으로 유추한 현상 간의 관계 = 경험적으로 관찰된 사실
- 자기수정(self-correction) 기능
과학적 지식의 양대 지주는 논리(논리적 예측 :: 선험(이성)과 관찰(경험적 검증)이다.
지식획득 방법에는 1) 논리적 추론(logical reasoning) 2) 경험주의(empiricism) 가 있다.
1) 논리적 추론
연역적 추론(deductive reasoning): 보편적(general)인 것으로 부터 특수한 것을 추론
귀납적 추론(inductive reasoning): 특정한 것의 관찰로 부터 보편적인 것을 추론
- 우리의 경험 직/간접적으로 의존하는 방식
- 객관적 관찰(obsercation) vs 주관적 해석(interpretation)
- 객관성 (= 각주관성: inter-subject reliability/inter-subject testablity): 동일한 여건하에서 독립적인 연구자가 동일한 연구방법으로 동일한 결론에 도달하는 경우!
제3절 과학적 연구의 과정
1. 필요성: 객관성을 확보하기 위하여 / 개인, 조직 의사결정 혹은 행동에 도움을 준다.
? 과학적 연구방법론: 과학적 지식 창출, 방법을 체계적으로 설명
1) 연구문제의 정의는 호기심, 관심 혹은 흥미에 의해 시작될 수도 있고, 현실문제에 대한 해답을 찾거나, 기존 지식에 대한 연구자들의 불만이나 의구심 등에 의해 시작되기도 한다.
2) 가설설정은 연구문제에 대한 논리적이지만, 잠정적인 해답을 제시하는 것으로 경험적 조사가 가능한 형태로 다시 정리하는 단계이다.
예를 들어서
"X가 Y에 영향을 미치기 때문일꺼야!!!"
논리적 해답: X는 Y에 긍정적인 영향을 미칠 것이다.
잠정적 해답: X와 Y간의 관계가 경험적으로도 존재하는지 미확인
가설은 연구문제에 대한 잠정적인 해답이다.
3) 가설검정은 논리적 해답의 경험적 검정을 하는 것으로 논리와 증거(경험)에 기초한다. 가장 중요한 단계로 연구 설계, 측정방법선택, 자료수집, 자료분석 단계를 거친다.
연구 설계 |
측정방법 선택 |
자료수집 |
자료 분석 |
연구의 전체적 그림(scheme) 그리기 (= design) |
'언어로' 정의 |
구체적으로 관찰(observation)하는 단계 |
관찰된 결과의 분석 - 통계학: 계량적 자료의 분석 |
변수들간의 관계에 대한 모형(model) 설계 |
- 어떠한 현상(phenomenon)이 지신 일반적인 특징(common properties) - 구체적인 사물/사상(tangible objects/ events) 와 연결이 가능하여야 한다. |
전수조사 vs 부분조사(표본조사) - 표본조사: 표본선택, 표본크기, 표본 구성원 접촉 방법 등을 잘 선택해야 한다. |
- 기술통계(descriptive statistics): 현상 설명 및 요약 - 추리통계(inferential statistics): 기술통계 분석 결과를 바탕으로 현상간의 분석 |
어떠한 대상/현상들을 어떻게 관찰하고 관찰결과를 어떻게 분석할지 계획 |
가설형태로 표현된 연구문제를 해결하기 위해, 연구문제의 대상이 되는 현상에 어떻게 부호(symbol) 혹은 숫자(numeral)를 부여할지 결정하는 것
"과학적 지식창출의 핵심은 측정에 있다" |
계량적 자료(quantitative data) 질적 자료(qualitative data) |
가설검정의 핵심적인 역할! |
연구문제(resarch problem)
연구과정(research process) 개시 <- 연구대상(object) 선정(=문제 정의) + 연구동기(motivation) 인식
연구문제와 가설
연구 문제: 왜 자녀 교육을 중요시 할까?
가설: 교육연수는 연소득에 영향을 줄것인가?
가설(hypothesis)
용어 정리!
과학적 지식(scientific knowledge)의 창출 |
논리(논리적 예측)와 관찰(경험적 검증)에 기초, 타당성이 입증된 주장 |
연구 문제 |
주로 의문문형태, 시작!!!! |
가설 |
- 관계가 있을 것이라고 하는 논리적인(그러나 확인되지 않은) 추측성 주장 - 연구문제에 대한 잠정적(tentative) 해답 |
가설 검정(hypothesis testing) |
추측성 주장이 참인지 거짓인지 경험적으로 검증하는 과정 |
1. 가설의 구성 요소
- 추상의 세계(abstract world)와 직/간접적으로 관찰할 수 있는 경험의 세계(concrete/empirical world)의 두 차원을 오고가면서 연구 진행
추상의 세계와 경험의 세계를 동시에 연구를 진행하기 위해서는 경험적인 관찰이 가능하도록 개념을 정의 한다.
1) 개념(concept)과 구성개념(construct)
개념(= 개념적 정의): 정의를 통해 구축되며 구체적인 현상들을 일반화함으로써 얻어지는 추상체
구성개념(= 조작적 정의): 특정목적을 위해 의식적으로 고안되거나 채택된 개념 -> 관찰/측정이 가능하도록 정의된 개념! (= 변수)
2) 변수
- 연구대상 구성개념
- 값(values)이 부여되는 대상 혹은 기호(symbol) / 측정되어 값을 가지게 되면 변수!!
- 보유한 속성의 정도가 변화하는 특징을 지닌 구성개념(변화하지 않으면 상수)
변수의 유형
(1) 잠재변수와 관찰변수
잠재변수(latent variable) |
관찰 변수(observed variable) |
- 직접관찰이 불가능한 그러나 변화하는 값을 가지는 구성개념 - "관찰된 변수로부터 추론되는 실제"인, 관찰할 수 없는 변수 - 직접 관찰/측정이 불가하여 다른 변수를 통해 간접적으로 측정 가능한 변수 |
경험의 세계에서 측정된 변수 |
(2) 독립변수와 종속변수
독립변수(independent variable) |
종속변수(dependent variabel) |
원인변수, 실험변수 |
결과변수, 측정변수 |
X | Y |
(3) 외생변수(extraneous variabel)
독립변수와 종속변수를 제외한 다른 모든 변수
(4) 매개변수(intervening variabel/mediating variable)
독립변수와 종속변수 사이의 관계를 중간에서 설명해 주는 변수
* 의사관계(spurious relationship)
(5) 조절변수(moderating varialbe) = 조건변수(conditional variable), 상호작용변수(interaction variable)
독립변수가 종속변수에 미치는 영향을 강화해주거나 약화해주는 변수
* 독립변수, 종속변수, 조절변수
(6) 이산변수와 연속변수
이산변수(discrete variable) |
연속변수(continuous variable) |
범주형/유목변수 |
연속적인 값이 의미를 가지는 변수 |
ex) 남, 여 / 전문직, 비전문직, 기타 등 |
ex) 체중, 키, 시간 등 |
가능하다면, 연속변수로 측정하는 것이 자료수집 후 다양한 통계분석에 유리하다
(연속변수를 이산변수로 변환 가능하기 때문 ^^*)
'Data > 데이터 분석·통계' 카테고리의 다른 글
[(빅)데이터 교육] 데이터 분석의 이해 - 데이터 분석 방법론 (2) (0) | 2018.06.20 |
---|---|
[(빅)데이터 교육] 데이터 분석의 이해 - 데이터 분석 방법론 (0) | 2018.06.20 |
통계분석개론 :: 통계분석방법 (0) | 2018.03.28 |
통계분석개론 :: 평균과 표준편차 (0) | 2018.03.28 |
[Doing Data Science] 데이터과학 입문 - O'Reilly :: 연습문제(1) (0) | 2018.03.15 |
댓글