본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[(빅)데이터 교육] 데이터 분석의 이해 - 데이터 분석 방법론 (2)

by 징여 2018. 6. 20.
반응형

데이터 분석 방법론 (2) - BIGDATA ACADEMY (한국데이터베이스진흥원)


Data Preparing phase


EDA(Exploratory Data Analysis)

데이터를 있는 그대로 보고 탐색해가기

1. Resistance

2. Residual

3. Re-expression

4. Visualization


Box plot - 데이터가 말하고자 하는 것을 이해하기


CDA(Confirmatory Data Analysis)

유의성 검정/ 신뢰구간 추정 -> 통계적



Data Governance란?

전사 차원의 데이터에 대한 정책, 지힘, 표준화 전략을 수집하고 이를 관리하기 위한 조직과 프로세스를 확립, 기업의 가치 창출을 지원하는 체계

1. Data 품질관리

2. Data 구조관리

3. Data 관리 체계

=> 데이터 복잡성의 증가, 통합관리의 부재 등에 의해 요구되는 사항



Data Analyzing Phase (Data scientist) 4단계


Descriptive

Diagnostic

Predictive 예측

Prescriptive 최적화

=> Big data 예측과 최적화 중요


Prepare Dataset -> Text Analysis -> EDA -> Modeling -> Model Assess -> Model Deployment


Data visualization: UI/UX와는 다른 개념으로 Data 목적/story/컨셉 등 찾기

(시각화 예시)

나이팅게일 시각화에 대한 이미지 검색결과

출처:http://ppss.kr/wp-content/uploads/2016/07/1-16-540x283.png




System Developing Phase(개발)

개발 계획 수립 / 시스템에 적용할 모델을 구현하기! / 변화 관리


과적합 문제: Training Data에 지나친 적합화 모델링

Under/Overfitting

줄이는 방법 Deicition Tress(Prning)

Regression(Varivale Reducation) 등




Deploying Phase(평가)


모델 평가

연속형 - RMSE/MAPE/R^2 등

이산형 - 정오분류표/ROC curve 등

(true.false: 예측의 정확 유무 positive/negative:예측 값)


Precision(정밀도): 참으로 예측된것 중 실제로 참인 비율 A/(A+C)

Accuracy(정확도): 정확히 예측한 비율 (A+D/n)

Sencitivity(민감도/재현율): 실제 참인 것 -> 참으로 제대로 분류한 비율 (A/A+B)

Sepecificaty(특이도): 실제 거짓인 것 -> 거짓으로 제대로 분류 (B/B+D)


Type 1 Error: (FP)C, H0 기각 요류

Type 2 Error: (FN)B, H0 채택 오류


빅데이터(가치 value 강조 - 경제적 평가요소)  TCO/ROI/IRR/NPV/PP


fitting, 유지보수, remodeling등을 거쳐 완전성을 추구해야함!


반응형

댓글