본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Data/데이터 분석·통계

[(빅)데이터 교육] 데이터 분석의 이해 - 데이터 분석 방법론

by 징여 2018. 6. 20.
반응형

데이터분석에 관하여 공부할 기회가 생겼는데, 이왕 할꺼 열심히 해보려고 한다!



데이터 분석 방법론 - BIGDATA ACADEMY (한국데이터베이스진흥원)


  • 방법론(Methodology)

개개인의 역량과 경험에 의존하지 않고 누가 수행하던 "일정 수준의 질과 양"이 보장 될 수 있는 체계(시스템)

업무 수행에 대한 최소한의 품질 보증(조직의 역량으로 분석 산출물이 만들어져야 한다)


구성요소 : 절차 / 방법 / 기법 / 표준산출물


- 방법론이 만들어지는 과정: 4단계 순환 

1) 암묵적인 지식

2) 형식지: 개인별 문서화

3) 형식적 지식: 방법론

4) 암묵지: 개인별 내제화


방법론 모델:

1) 폭포수 모델: 복잡도가 낮고 사례가 많음

2) 나선형: 요구사항 충족, 관리부족시 복잡도 상승

3) 프로토타입

 -> 조직의 특성과 문화를 고려하여 선택할것


  • 데이터 분석의 방법론

1. KDD(Knowledge Discovery in Database) // 주로 Datamining에서 사용되었음 : 5단계

1) Selection: Data set 편성 및 sampling

2) Pre processing: 일관성있는 데이터 분석을 위해 데이터 정재 및 선처리

3) Transformation: 차원 축소 또는 파생 데이터 생성 -> Data set 확장

4) Data mining: 다양한 분석 기법을 사용하여 데이터의 패턴을 찾고 모델링화

5) Interpretation/Evaluation: 분석된 모델을 해석 및 평가


2. SEMMA(SAS)

1) Sample: Data 생성

2) Exploration: EDA

3) Modification: Data 수정/변환(수량화, 표준화, 계층화, 그룹화)

4) Modeling: 모델 구축 / 숨겨진 패턴 발견 및 알고리즘 적용

5) Assessment: 모델 평가 및 검증


3.CRISP-DM: 가장 많이 쓰임 (데이터 분석을 위해 만들어진 방법론은 아님)

1/2단계를 반복함으로써 분석하려는 데이터와 비즈니스에 대한 이해를 높힌다.

1) Business understanding

비즈니스관점 - 업무 목적파악/상황파악/데이터 마이닝 목표설정/프로젝트 계획수립

분석 목적과 비즈니스에 대한 이해 높히기

2) Data understanding

분석을 위한 데이터 수집 및 데이터 속성을 이해 - 초기데이터 수집/데이터 기술분석/데이터 탐색/품질확인

3) Data preparation

데이터 준비 - 분석 툴에 적합한 데이터셋 편성

데이터 정제/분석용 데이터셋 편성/데이터 통합/데이터 Format

4) Modeling

다양한 모델링 기법과 알고리즘을 선택하여 구현된 모델을 최적화

과적합 문제를 객관적으로 평가하기

모델링 기법 선택/모델 테스트 계획 설계/모델 작성/모델 평가

5) Evaluation: 평가 기준에 부합하지 않는다면 다시 1단계로 돌아간다.

모델링 과정을 수용하여 최적의 모델을 만들 후,

프로젝트의 목적에 부합되는가 평가

사용자의 요구사항을 찾아 시스템을 SI프로젝트와는 다름(사용자의 요구사항은 있지만, 주어진 데이터의 문제로 올바른 답을 주지 못하는 문제점이 있을 수 있음)

-> 이때, 억지로 요구사항에 맞추려다보면 과적합 문제가 발생할 수 있음

분석결과 평가/모델링 과정 평가/적용성 평가

6) Deployment

실 운영환경에 적용 및 모니터링

전개 계획수립/유지보수 계획수립/프로젝트 종료 및 리뷰


4. NIA에도 있음 

공공데이터 오픈의 관점에서



  • Methodology 3 Layers

1. Phase(Process Group)

2. Task(Mapping)

3. Step(Input process output)


  • Methodoloy Ref' Model 


  • 각 방법론을 비교하면,

 

 CRISP-DM

KDD

SEMMA 

 Planning

 Business understanding

 

 

 Data preparing

 Data understanding

Data preparation

 Selection

Pre precessing

Transformation

 Sample

Exploration

Modification

 Data analyzing

 Modeling

Evaluation

 Data mining

Interpretation/Evaluation

Modeling

Assessment 

 System developing

 

 

 

 Deplying

Deployment 

 

 



반응형

댓글