데이터의 탐색
데이터의 분포나 이상치 등을 처리하여 계략적인 분석방안에 대하여 모색
1) 종속변수/독립변수의 선정
목표변수와 설명변수
:종속변수 Y를 무엇으로 하느냐에 따라 분석방법이 달라진다.
2) 데이터 구조의 정량적/정성적 파악
:데이터가 어떤 구조를 가지고 있는지, 어떻게 수집이 되었는지, 충분한지, 특정영역에서 수집되었는건 아닌지? 등 파악
3) 변수의 유형
Character
Numeric
Factor
Integer 등
분석가능한 데이터인지 확인
1) 변수 유형 확인: 유형 + 각 변수가 취할수있는 범위, 범주영역 등 파악
2) 표준화의 필요성
3) 변수의 선택
4) 데이터 양 확인
데이터 표준화
Z-score = (X-mean(X))/sd(X)
- 신뢰성있는 결과를 얻기 위해 표준화가 필요한 경우
- 다변량 데이터의 경우, 변수의 단위가 서로 다를 수 있음
결측치/이상치 탐색
결측치 비율에 따른 변수제거
- 결측치가 10%이하
: 해당 표본을 제거하거나 대체
- 결측치가 20%이상
: 해당변수 제거/ 중요한 변수이면, 대체하여 사용하자
데이터량 확인
통상적으로 변수 수의 최소 3배 정도
데이터량이 충분히 확보될 수 있도록 기준기간을 산정
이상치, 결측치, 분포 해석과 정제방법
1) 이상치: 변수의 분포에서 비정상적으로 벗어난 값 - Box Plot을 이용해 확인 가능
2) 결측치: 값이 관측되지 않은 자료
3) 분포분석: 막대그래프, Histogram, Box plot, 기술통계량 등을 통하여 분포 파악. 정규분포가 아닌 경우 변환을 통한 정규화가 필요할 때가 있다.
이상치 판정 방법론
1. Boxplot 방법
5가지 순서 통계량으로 반들어진 그림
- Q3: 제 3 사분위수(75%)
- Q1: 제 1 사분위수(25%)
- IQR(inter Quartile Range): Q3-Q1
- Q3+1.5IQR < x < Q1+1.5*IQR 이면, x를 이상치로 규정
2. 3-sigma 방법
일변량 자료들 중에서 를 벗어나는 것들을 비정상이라고 규정
문제점: 데이터에 이상치가 포함되면, 평균은 정상자료 평균과 크게 다르며 sigma를 추정하기 어렵다 -> 중앙값으로 대체
이상치/결측치 처리 방법
1. 이상치 처리 방법
1) 제거
2) 대체
2. 결측치 처리 방법
1) 제거
2) 대체: 비슷한 정보의 자료로 대체
시계열 자료인 경우: 같은 시기의 데이터로 대체
결측치를 제외하고 회귀분석(추세)을 했을때의 추정값으로 대체
최빈값
평균값 등
'Data > 데이터 분석·통계' 카테고리의 다른 글
[데이터 분석] python을 활용한 데이터 분석(1) - 패키지 설치 (0) | 2018.07.08 |
---|---|
[데이터 분석] python을 활용한 데이터 분석 (1) - 패키지 소개 (0) | 2018.07.08 |
[(빅)데이터 교육] 데이터 분석의 기초 - 분포에 관한 추론 (0) | 2018.06.25 |
[(빅)데이터 교육] 데이터 분석의 기초 - 통계적 추론 (0) | 2018.06.22 |
[(빅)데이터 교육] 데이터 분석의 기초 - 확률과 확률분포 (0) | 2018.06.22 |
댓글