본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Archived/ADsP

[ADsP] 3과목 데이터 분석 - (2) 통계 분석

by 징여 2018. 8. 24.
반응형

- 통계 분석

- 통계학 개론

1) 통계: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약 표현

- 총조사(census)와 표본조사

2) 통계자료 획득방법:

(1) 총 조사(census)

(2) 표본조사

- 모집단: 조사하고자 하는 대산 집단 전체

- 원소: 모집단 구성개체

- 표본: 추출한 모집단의 일부 원소

- 모수: 구하고자 하는 모집단에 대한 정보

- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확하게 명시

(3) 표본추출방법: 모집단을 대표할 수 있는 표본 추출

- 단순랜덤추출법

복원, 비복원 추출: 임의의 n개 추출하는 방법 -> 각 샘플은 선택될 확률이 동일하다

- 계통추출법: 단순랜덤추출의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고, 첫구간에서 하나를 임의로 선택후, K개씩 띄어서 선택

- 집락추출법: 군집을 구분하고 군집별로 단순랜덤추출법

지역표본추출, 다단계표본추출

- 층화추출법: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할수 있도록 표본 추출

비례층화추출법, 불비례층화추출법

(4) 측정

- 명목척도: 측정 대상이 어느집단에 속하는지

- 순서 척도: 서열관계(만족도, 선호도, 학년, 신용등급)

- 구간척도: (온도, 지수) 구간의 간격의 의미가 있는 가

- 비율척도: 차이의 비율이 의미를 가지는 자료, 절대적인 기준이 존재하고 사칙연산이 가능(무게, 나이, 시간, 거리)


- 기초 통계 분석통계

- 기술통계: 주어진 자료로 부터 어떠한 판단이나 예측과 같은 주관이 섞일수 있는 과정 배제(평균, 표준편차, 최빈값, 중위수 등)

정리 요약

그래프를 이용한 자료정리: 히스토그램(연속형) vs 막대그래프(범주형), 상자그림

- 추측통계(통계적 추론): 수집된 자료를 이용해 모집단에 대한 의사결정을 하는것

모수 추정: 모집단의 특성인 모수를 분석하여 모집단을 추론

가설 검정: 대상집단에 대해 특정한 가설을 설정한 후 그 가설이 옳다 그르다 결정

예측: 미래 불확실성 해결


- 인과관계의 이해

종속변수(y): 영향 받기

독립변수(x): 영향 주기

산점도이용

(1) 두변수 사이의 선형관계 성립?

(2) 함수관계 성립?

(3) 이상값 존재?

(4) 몇개의 집단으로 구분?

공분산(cov)

두 확률변수 X,Y의 방향의 선형성

X,Y가 독립이면 cov(X, Y) = 0 

- 상관분석

두 변수간의 관계를 알아보기 위한 분석방법, 상관계수 이용

상관계수가 1에 가까울수록: 강한 양의 상관관계

상관계수가 -1에 가까울수록: 강한 음의 상관관계

상관계수가 0에 가까울수록: 관계가 없다.

 피어슨

스피어만 

 등간 척도 이상으로 측정된 두 변수들의 상관관계측정

서열 척도 

 연속형변수, 정규성가정

순서형 변수, 비모수적방법
순위를 기준으로 상관관계 측정 

 피어슨(적률상관계수)

순위상관계수(로우) 


R에서 코드

- 분산: var(x, y)

- 공분산: cov(x, y, use="everything", method="pearson" ("kendall", "spearman"))

- 상관관계: cor(x, y, use="everything", method="pearson" ("kendall", "spaerman"))


확률 및 확률 분포

1) 확률: 특정사건이 일어날 가능성의 척도

- 표본공간: 결과들의 집합

- 사건: 표본공간의 부분집함

- 원소: 나타날 수 있는 개개의 결과들

P(E) = E/Sample space

- 확률 변수: 특정값이 나타날 가능성이 확률적으로 주어지는 변수

정의역(domain)이 표본공간, 치역(range)이 실수값인 함수

(1) 이산형 확률변수

0이 아닌 확률값을 갖는 실수값이 셀수 있는 경우(확률 질량 함수)

- 베르누이 확률분포: 결과가 2개만 나오는 경우(동전, 합격/불합격)

- 이상분포: 베르누이 시행을 n번 반복했을때, k번 성공할 확률

- 성공할 확률p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다.

- p가 1/2에 가까우면 종모양이 된다.

- 기하분포: 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기 까지 x번 실패할 확률

- 다항분포: 이항분포 확장, 3가지 이상의 결과를 가지는 반복 시행에서의 발생 확률 분포

- 포아송분포: 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

(2) 연속형 확률변수

- 균일분포(일양분포): 모든확률변수X가 균일한 확률을 가지는 분포(다트 확률분포)

- 정규분포

표준정규분포는 평균이 0 이고, 표준편차가 1인 정규분포

- t-분포: 두집단의 평균이 동일한지 알고자 할때 활용하는 검정통계량

정규분포보다 더 퍼져 있고 자유도가 커질수록 정규분포에 가까워진다.

- x^2 분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설검정에 사용되는 분포

자유도가 작을 때는 왼쪽에 치우쳐있지만, 자유도가 커질수록 정규분포형태가 된다.

-F 분포: 두집단의 분산의 동일성 검정에 사용되는 검정 통계량분포

정규분포 형태와 비슷하나, 오른쪽 꼬리가 긴 모양을 하고 있다. 두개의 자유도가 증가할 수록 정규분포에 가까워진다.


2) 추정과 가설검정

확률표본

- 분포를 결정하는 평균, 분산 등의 모수를 가지고 있다.

- 특정한 확률분포로 부터 독립적으로 반복해 표본을 추출하는 것

- 각 관찰값들은 서로 독립적이며 동일한 분포를 같는다.

추정: 표본으로부터 모수를 추측

(1) 점추정: 모수가 특정한 값

- 평균, 중위수, 최빈값등을 사용

- 불편성: 모든 가능한 표본에서 얻은 추정량의 기댓값

- 효율성: 추정량의 분산이 작을수록 좋다

- 일치성: 표본의 크기가 아주 커지면, 측정값이 모수와 거의 같아진다.

- 충족성: 추정량이 모수에 대하여 모든 정보를 제공한다.

(2) 구간추정: 확률로 표현, 모수가 특정한 구간에 있을 것

- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간에 모수가 있을 가능성(신뢰수준)이 주어진다.

가설검정

모집단에 대한 어떤 가설을 설정한 뒤에 표본 관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

- 귀무가설: H0, 비교하는 값과 차이가 없다. 동일하다

- 대립가설:H1, 주장하는 가설

- 검정통계량: 관찰된 표본으로부터 구하는 통계량(가설의 진위 판단기준)

- 유의 수준: 귀무가설을 기각하게 되는 확률의 크기

- 기각역: 귀무가설이 옳다는 전제하에서 구한 검정통계량의 분포에서 확률 유의수준인 부분 (<-> 반대는 채택역)

제 1종오류: 귀무가설이 옳은 결정인데도 귀무가설 기각

제 2종오류: 귀무가설이 옳지않은데 귀무가설 채택

가설검정에서는 제1종오류의 크기를 0.1, 0.05, 0.01등으로 고정시킨뒤, 제 2종오류가 최소화 되도록 기각역을 설정

모수적방법

검정하고자하는 모집단의 분포에 대해 가정을하고, 그 가정하에서 검정통계량과 검정통게량의 분포를 유도해 검정을 실시하는 방법

비모수적 방법

- 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시

- 관측된 자료가 특정 분포를 따른다고 가정할 수 없을때, 

- 자료의 수가 많지 않거나 자료의 개체간의 서열관계를 나타내는 경우 사용

예) 부호검정, 월콕슨 순위합검정, 부호순위합검정, 런검정, 스피어만의 순위상관계수, 만-위트니 U검정

모수적 vs 비모수적

- 가설의 설정

가정된 분포의 모수에 대해 가설 설정 vs 분포의 형태가 동일하다 , 분포의 형태가 동일하지 않다

- 검정방법

표본평균, 표본분산 이용 vs 절대적인 크기에 의존하지 않은 순위나 관측값의 차이 부호등을 이용해 검정


회귀분석

하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정

인과관계를 밝히고 모형을 적합하여 관심있는 변수예측, 추론하기 위한 방법


- 영향을 받는 변수(y): 반응변수, 종속변수, 결과변수

- 영향을 주는 변수(x): 설명변수, 독립변수, 예측변수

조건

(1) 모형이 통계적으로 유의한가?

(2) f 통계량 확인: 유의수준5%이하에서 f통계량의 p값이 0.05보다 작으면 유의하다.

(3) 신뢰구간 확인

(4) 얼마나 설명력을 갖는가?

결정계수를 확인 -> 높은 값을 가질수록 설명력이 높다.

(5) 모형이 데이터를 잘 적합했는가?

잔차를 그래프로 그리고 회귀 진단

회귀계수릐 추정

1) 최소제곱법

2) 최소자승법

회귀분석의 검정

1) 회귀계수가 0이면 입력변수(x)와 출력변수(y)의 사이에는 아무런 관계가 없다.

2) 결정계수

(1) 전체제곱합(SST)

(2) 회귀제곱합(SSR)

(3) 오차제곱합(SSE)

(4) SST = SSR+SSE

결정계수 R^2은 전체제곱합에서 회귀제곱합의 비 (SSR/SST) 0~1사이의 값으로 1에 가까울 수록 회귀모형이 잘 설명함을 의미

3) 적합도 검도

독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표

F 통계량: f값이 크면 귀무가설 기각, 즉 모형이 유의하다


선형회귀분석

조건

1) 선형성: 관계가 선형이다

2) 등분산성: 오차의 분산이 입력변수와 무관하게 일정

3) 독립성: 독립변인과 잔차는 관련이 없다.

4) 비상관성: 오차들끼리 상관이 없다.

5) 정상성(정규성): 오차의 분포가 정규분포를 따른다.

- 단순선형회귀분석: 입력변수와 출력변수간의 산점도

- 다중선형회귀분석: 잔차와 출력변수 (선형회귀분석의 가정이 모두 만족하는 경우 잔차는 랜덤하게 분포)

t-통계량: 회귀계수들이 얼마나 유의미한가?

결정계수: 모형이 얼마나 설명력을 갖는가?

다중공선성: 설명변수들사이의 선형관계가 존재하면, 회귀계수의 정확한 추정이 곤란하다

(1) 분산팽창요인(VIF): 10보다 크면 문제

(2) 상태지수: 10이상이면 문제있음

-> 선형관계가 강한 변수를 제거하고 주성분 회귀, 능형회귀로 활용

종류

(1) 단순회귀: 설명변수 1개

(2) 다중회귀: 설명변수 n개

(3) 로지스틱회귀: 범주형 경우

(4) 다항회귀: 설명변수가K개이며, 반응변수와의 관계가 1차 함수 이상

(5) 곡선회귀: 설명변수가 1개이며, 반응변수와의 관계가 곡선

(6) 비선형회귀: 선형관계로 이루어지지 않음


최적회귀방정식 선택

단계적 변수선택

(1) 전진선택법: 절편만 있는 상수모형에서 시작해 설명변수 차례로 모형 추정

(2) 후진제거법: 전부 모두 포함에서 하나씩 제거하면서

(3) 단계별방법: 전진에 의해 추가하면서, 중요도가 약화되면 변수 제거

벌점화된 선택기준

(1) AIC: 일치성이 성립하지 않지만

(2) BIC: 일치성 성립

둘중 최소가 되는 모형선택

- 일치성: 자료의 수가 늘어날 때 참인 모형이 주어진 모형선택 기준의 최소값을 갖게 되는 성질

(3) 그외: RIC, CIC, DIC

- 시계열 예측

시간의 흐름에 따라 관찰된 값들

일변량시계열 분석: ARMA, 지수평활법, 시계열 분해법 등

다중시계열분석: 다변량 ARIMA, 계량경제모형, 전이함수모형, 개입분석, 상태공간 분석..

계량경제: 시계열데이터의 회귀분석 이자율


- 비정상성 시계열자료 

- 정상성 시계열자료

1) 평균이 일정할 경우: 차분을 통해 정상화

차분? 현시점자료에서 전시점자료 뺀것

- 일반차분: 바로전 시점

- 계열 차분: 여러시점

2) 평균이 일정하지 않고 분산도 시점에 의존하지 않는경우

- 변환

3) 공분산도 단지 시차에만 의존, 실제 특정 시점 t,s에는 의존하지 않는다.

4) 특징

- 어떤 시점에서 평균과 분산 그리고 특정 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다.

- 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭

- 정상성시계열이 아니면, 특정 기간의 시계열로 부터 얻은 정보를 다른 시기로 일반화하기 어렵다.


분석 방법

- 수학적 이론모형: 회귀분석, Box-Jenkins

- 직관적: 지수평활법, 시계열 분해법 - 변동이 느린데이터 분석에 활용

- 장기 예측: 회귀분석방법 활용

- 단기 예측: Box-Jenkins, 지수평활법, 시계열 분해법


시계열 모형

1) 자기회귀모형(AR)

p시점 전의 자료가 현재 자료에 영향을 줌

자기상관함수(ACF)는 빠르게감소, 부분자기함수(PACF)는 어느 시점에서 절단점을 가진다.

- 자기상과계수(ACF): K기간 떨어진 값들의 상관계수

2) 이동평균모형(MA)

- 유한한 개수의 백색잡음의 결합 -> 정상성 만족

- 1차 이동평균모형(MA 1모형)은 이동평균모형 중 가장 간단한 모형

시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음으로 결합

- AR모형과는 반대로, ACF에서 절단점을 갖고 PACF가 빠르게 감소

3) 자기회귀누적이동평균(ARIMA)

비정상시계열 모형

차분이나 변환을 통해 AR모형이나 MA모형, ARMA모형으로 정상화 할수 있다.

4) 분해 시계열

영향을 주는 일반적인 요인을 시계열에서  분리해 분석하는 방법, 회귀분석적인 방법 사용

(1) 추세요인(Trend)

(2) 계절요인(Seasonal)

(3) 순환요인(Cyclical)

(4) 불규칙요인(Irregular)


반응형

댓글