본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[(빅)데이터 교육] 데이터 분석의 기초 - 데이터의 탐색

by 징여 2018. 6. 25.
반응형

데이터의 탐색


데이터의 분포나 이상치 등을 처리하여 계략적인 분석방안에 대하여 모색


1) 종속변수/독립변수의 선정

목표변수와 설명변수

:종속변수 Y를 무엇으로 하느냐에 따라 분석방법이 달라진다.


2) 데이터 구조의 정량적/정성적 파악

:데이터가 어떤 구조를 가지고 있는지, 어떻게 수집이 되었는지, 충분한지, 특정영역에서 수집되었는건 아닌지? 등 파악


3) 변수의 유형

Character

Numeric

Factor

Integer 등


분석가능한 데이터인지 확인

1) 변수 유형 확인: 유형 + 각 변수가 취할수있는 범위, 범주영역 등 파악

2) 표준화의 필요성

3) 변수의 선택

4) 데이터 양 확인


데이터 표준화

Z-score = (X-mean(X))/sd(X)

- 신뢰성있는 결과를 얻기 위해 표준화가 필요한 경우

- 다변량 데이터의 경우, 변수의 단위가 서로 다를 수 있음



결측치/이상치 탐색


결측치 비율에 따른 변수제거

- 결측치가 10%이하

: 해당 표본을 제거하거나 대체

- 결측치가 20%이상

: 해당변수 제거/ 중요한 변수이면, 대체하여 사용하자


데이터량 확인

통상적으로 변수 수의 최소 3배 정도

데이터량이 충분히 확보될 수 있도록 기준기간을 산정


이상치, 결측치, 분포 해석과 정제방법

1) 이상치: 변수의 분포에서 비정상적으로 벗어난 값 - Box Plot을 이용해 확인 가능

2) 결측치: 값이 관측되지 않은 자료

3) 분포분석: 막대그래프, Histogram, Box plot, 기술통계량 등을 통하여 분포 파악. 정규분포가 아닌 경우 변환을 통한 정규화가 필요할 때가 있다.


이상치 판정 방법론

1. Boxplot 방법

5가지 순서 통계량으로 반들어진 그림

- Q3: 제 3 사분위수(75%)

- Q1: 제 1 사분위수(25%)

- IQR(inter Quartile Range): Q3-Q1 

- Q3+1.5IQR < x < Q1+1.5*IQR 이면, x를 이상치로 규정


2. 3-sigma 방법

일변량 자료들 중에서 를 벗어나는 것들을 비정상이라고 규정

문제점: 데이터에 이상치가 포함되면, 평균은 정상자료 평균과 크게 다르며 sigma를 추정하기 어렵다 -> 중앙값으로 대체


이상치/결측치 처리 방법

1. 이상치 처리 방법

1) 제거

2) 대체


2. 결측치 처리 방법

1) 제거

2) 대체: 비슷한 정보의 자료로 대체

시계열 자료인 경우: 같은 시기의 데이터로 대체

결측치를 제외하고 회귀분석(추세)을 했을때의 추정값으로 대체

최빈값

평균값 등


반응형

댓글