데이터분석에 관하여 공부할 기회가 생겼는데, 이왕 할꺼 열심히 해보려고 한다!
데이터 분석 방법론 - BIGDATA ACADEMY (한국데이터베이스진흥원)
- 방법론(Methodology)
개개인의 역량과 경험에 의존하지 않고 누가 수행하던 "일정 수준의 질과 양"이 보장 될 수 있는 체계(시스템)
업무 수행에 대한 최소한의 품질 보증(조직의 역량으로 분석 산출물이 만들어져야 한다)
구성요소 : 절차 / 방법 / 기법 / 표준산출물
- 방법론이 만들어지는 과정: 4단계 순환
1) 암묵적인 지식
2) 형식지: 개인별 문서화
3) 형식적 지식: 방법론
4) 암묵지: 개인별 내제화
방법론 모델:
1) 폭포수 모델: 복잡도가 낮고 사례가 많음
2) 나선형: 요구사항 충족, 관리부족시 복잡도 상승
3) 프로토타입
-> 조직의 특성과 문화를 고려하여 선택할것
- 데이터 분석의 방법론
1. KDD(Knowledge Discovery in Database) // 주로 Datamining에서 사용되었음 : 5단계
1) Selection: Data set 편성 및 sampling
2) Pre processing: 일관성있는 데이터 분석을 위해 데이터 정재 및 선처리
3) Transformation: 차원 축소 또는 파생 데이터 생성 -> Data set 확장
4) Data mining: 다양한 분석 기법을 사용하여 데이터의 패턴을 찾고 모델링화
5) Interpretation/Evaluation: 분석된 모델을 해석 및 평가
2. SEMMA(SAS)
1) Sample: Data 생성
2) Exploration: EDA
3) Modification: Data 수정/변환(수량화, 표준화, 계층화, 그룹화)
4) Modeling: 모델 구축 / 숨겨진 패턴 발견 및 알고리즘 적용
5) Assessment: 모델 평가 및 검증
3.CRISP-DM: 가장 많이 쓰임 (데이터 분석을 위해 만들어진 방법론은 아님)
1/2단계를 반복함으로써 분석하려는 데이터와 비즈니스에 대한 이해를 높힌다.
1) Business understanding
비즈니스관점 - 업무 목적파악/상황파악/데이터 마이닝 목표설정/프로젝트 계획수립
분석 목적과 비즈니스에 대한 이해 높히기
2) Data understanding
분석을 위한 데이터 수집 및 데이터 속성을 이해 - 초기데이터 수집/데이터 기술분석/데이터 탐색/품질확인
3) Data preparation
데이터 준비 - 분석 툴에 적합한 데이터셋 편성
데이터 정제/분석용 데이터셋 편성/데이터 통합/데이터 Format
4) Modeling
다양한 모델링 기법과 알고리즘을 선택하여 구현된 모델을 최적화
과적합 문제를 객관적으로 평가하기
모델링 기법 선택/모델 테스트 계획 설계/모델 작성/모델 평가
5) Evaluation: 평가 기준에 부합하지 않는다면 다시 1단계로 돌아간다.
모델링 과정을 수용하여 최적의 모델을 만들 후,
프로젝트의 목적에 부합되는가 평가
사용자의 요구사항을 찾아 시스템을 SI프로젝트와는 다름(사용자의 요구사항은 있지만, 주어진 데이터의 문제로 올바른 답을 주지 못하는 문제점이 있을 수 있음)
-> 이때, 억지로 요구사항에 맞추려다보면 과적합 문제가 발생할 수 있음
분석결과 평가/모델링 과정 평가/적용성 평가
6) Deployment
실 운영환경에 적용 및 모니터링
전개 계획수립/유지보수 계획수립/프로젝트 종료 및 리뷰
4. NIA에도 있음
공공데이터 오픈의 관점에서
- Methodology 3 Layers
1. Phase(Process Group)
2. Task(Mapping)
3. Step(Input process output)
- Methodoloy Ref' Model
- 각 방법론을 비교하면,
|
CRISP-DM |
KDD |
SEMMA |
Planning |
Business understanding |
|
|
Data preparing |
Data understanding Data preparation |
Selection Pre precessing Transformation |
Sample Exploration Modification |
Data analyzing |
Modeling Evaluation |
Data mining Interpretation/Evaluation |
Modeling Assessment |
System developing |
|
|
|
Deplying |
Deployment |
|
|
'Data > 데이터 분석·통계' 카테고리의 다른 글
[(빅)데이터 분석] 데이터 분석의 이해 - 기계학습의 이해 및 데이터 분석 사례 (0) | 2018.06.20 |
---|---|
[(빅)데이터 교육] 데이터 분석의 이해 - 데이터 분석 방법론 (2) (0) | 2018.06.20 |
통계분석개론 :: 통계분석방법 (0) | 2018.03.28 |
통계분석개론 :: 평균과 표준편차 (0) | 2018.03.28 |
[Doing Data Science] 데이터과학 입문 - O'Reilly :: 연습문제(1) (0) | 2018.03.15 |
댓글