본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Archived/ADsP

[ADsP] 2과목 데이터 분석 기획 - (1) 데이터 분석 기획의 이해

by 징여 2018. 8. 23.
반응형
- 데이터 분석 기획의 이해

- 분석 기획 방향성 도출

분석 기획: 목표를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방법으로 수행할지 계획을 수렵하는 작업

분석은 분석의 대상(What) 및 분석의 방법(How)에 따라 4가지로 분석 주제를 나눌 수 있다.

1) 방법(O) 대상(O): 최적화

2) 방법(O) 대상(X): 통찰

3) 방법(X) 대상(O): 솔루션

4) 방법(X) 대상(X): 발견

목표시점별

1) 과제중심적인 접근방식

2) 장기적인 마스터 플랜방식

분석기획시 고려 사항

1) 분석의 기본이 되는 데이터에 대한 고려

- 데이터 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르다

- 정형데이터, 비정형데이터, 반정형 데이터

2) 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유즈케이스의 탐색 필요

- 바퀴를 재발명하지마라 -> 활용되고 있는 유사분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요

3) 분석을 수행함에 있어 발생하는 장애요소들에 대한 사전 계획 수립 필요

- Change Management


- 분석 방법론

체계화한 절차와 방법의 정리

절차, 방법, 도구와 기법, 템플릿과 산출물


방법론의 생성과정: 방법론 -내제화-> 암묵지 -형식화-> 형식지 -치계화-> 방법론

1) 폭포수 모델(Waterfall Model): 순차적 진행

2) 나선형 모델(Spiral Model): 반복을 통해 검증적으로 개발

3) 프로토타입 모델 prototype Model): 폭포수 모델 단점 보완, 일부분만 우선 개발하여 사용자에게 시험


방법론의 구성: 단계 -> 태스크(보고서) -> 스텝(보고서 구성요소)


KDD(Knowledge Discovery in Database)  분석 방법론

- 데이터들로 부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

1) 분석 대상 비즈니스 도메인이해

2) 분석 대상 데이터셋 선택과 생성

3) 데이터 Noise와 Outlier 제거 정제작업 전처리 실시

4) 분석 목적에 맞는 변수 찾고, 필요시 데이터의 차원을 축소

5) 분석 목적에 맞는 데이터 마이닝 기법 선택

6) 분석 목적에 맞는 데이터 마이닝 알고리즘 선택

7) 테이터 마이닝 실행

8) 데이터 마이닝 결과에 대한 해석

9) 데이터 마이닝에서 발견된 지식 활용


- KDD 분석 절차

1) 데이터 선택

비즈니스 도메인에 대한 이해와 프로젝트 목표 설정

데이터 분석에 필요한 데이터 선택

목표데이터(target cate) 구성

2) 데이터 전처리(preprocessing)

Noise, Outlier, NA 식별하고 필요시 제거 혹은 재처리 (정제)

추가로 요구되는 데이터 셋이 필요한 경우 1)번으로 간다

3) 데이터 변환(Trasformation)

정제된 데이터에 분석 목적에 맞게 변수 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터 마이닝알 수 있도록 데이터 변경

- 학습용 데이터와 검증용 데이터로 분리

4) 데이터 마이닝(Data Mining)

분석목적에 맞는 데이터마이닝 기법 선택, 적절한 알고리즘 적용 -> 작업실행

필요에 따라 2)번으로 간다

5) 데이터 마이닝 결과 평가(Interpretation/Evaluation)

결과에 대한 해석과 평가 그리고 분석 목적과 일치성 확인

 발견한 지식을 업무에 활용하기 위한 방안 마련

필요에 따라 1)..번으로 다시가요


CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론

- 계층적 프로세스 모델로서 4개의 레벨로 구성

- CRISP-DM 프로세스

1) 업무이해(Business Understanding)

비즈니스 관점에서 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획 수립 단계

- 업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립

2) 데이터 이해(Data Understanding)

분석을 위한 데이터 수집, 데이터 품질에 대한 분제점 식별하고 숨겨져 이쓴 인사이트 발견

- 초기 데이서 투집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

3) 데이터 준비(Data Preparation)

분석을 위하여 수집된 데이터에 분석기법에 적합한 데이터 편성

- 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편셩, 데이터 통합, 데이터 포맷팅

4) 모델링(Modeling)

모델링 기법과 알고리즘 선택하고 사용되는 파라미터를 최적화해가는 단계 / 과적합 문제 확인

- 모델링 기법선택, 모델 테스크 계획 설게, 모델 작성, 모델 평가

5) 평가(Evaluation)

프로젝트 목적에 부합하는지 평가하는 단계, 데이터마이닝 결과를 최종적으로 수용할 것인지 판단

- 분석결과 평가, 모델링 과정평가, 모델 적용성 평가

6) 전개(Development)

실 업무에 적용하기 위한 계획 수립, 모니터링과 모델 유지보수 계획 마련

- 전개 계획 수립, 모니터링과 유지보수 계획수립, 프로젝트 종료 보고서 작성, 리뷰


- 빅데이터 분석 방법론

계층적 프로세스 모델로써 3계층

1) 단계: 프로세스 그룹을 통하여 완성단계 별 산출물 생성, 버전관리 등을 통하여 통제가 이루어져야 한다 

2) 태스크: 각 단계는 여러개의 테스크로 구성되며, 각 태스크는 단계를 구성하는 단위 활동

3) 스텝: WBS, Work Package에 해당되는 입력자료, 처리 및 도구, 출력자로로 구성된 단위 프로세스


빅데이터 분석 방법론

1) 분석 기획: 비즈니스 도메인과 문제점 인식 및 계획, 프로젝트 수행계획 수립

- 비즈니스 이해 및 범위 설정

Statement Of Wokr(SOW) 작성

- 프로젝트 정의 및 계획 수립

WBS(Work Breakdown Structure), KPI

- 프로젝트 위험 계획 수립

회치, 전이, 완화, 수용 -> 위험관리 계획서 작성

2) 데이터 준비: 요구사항과 데이터 분석에 필요한 원천 데이터 정의 준비 

- 필요 데이터 정의

- 데이터 스토어 설계

전사차원의 데이터 스토어 설계(RDBMS, NoSQL, 하둡 등)

- 데이터 수집 및 정합성 점검

데이터 거버넌스에 근거하여 Meta Data  및 Data Dictionaey 등 작성되고 적용되고 있는지 주기적으로 확인

3) 분석 단계: 원천 데이터를 분석용 데이터 셋으로 편성, 다양한 분석기법과 알고리즘 적용하여 데이터 분석

- 분석용 데이터 준비

- 텍스트 분석

- 탐색적 분석(EDA)

- 모델링: 과적합과 일반화

- 모델 평가 및 검증

4) 시스템 구현: 분석기획에 맞는 모델 도출, 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증 프로토타입 시스템 구현

- 설계 및 구현: 알고리즘 설명서와 데이터 시각화 보고서 등 이용 BI활용......

- 시스템 테스트 및 운영

5) 평가 및 전개: 프로젝트 성과를 평가하고 정리하거나 모델의 발전 계획 수립하여 차기 분석 기획으로 전달하고 종료


- 분석 과제 발굴

하향식 접근방식(Top Down Approach): 문제가 주어지고 이에 대한 해법 찾기

1) 문제 탐색 단계

- 업무: 운영 내부 프로세스 및 주요 자원 관련 주제 도출

- 제품

- 고객

- 규제와 감사: 프로세스 중에서 발생하는 규제 및 보안의 관점

- 지원 인프라: 시스템 영역 및 운영 관리 인력 관점


(1) 거시적 관점: STEEP(Social, Technological, Economic, Environmental, Political)

(2) 경쟁자 확대 관점: 대체재, 경쟁자, 신규인집자

(3) 시장 니즈 탐색 관점: 고객, 채널, 영향자들

(4) 영략의 재해석 관점: 내부역량, 파트너와 네트워크 영역

2) 문제 정의

3) 해결방안 탐색 단계

4) 타당성 검토

상향식 접근방식(Bottom Up Approach): 문제 정의 자체가 어려운 경우

1)  기존 하향식 접근의 한계를 극복하기 위한 분석 방법론

(1) 비지도 학습: 장바구니 분석, 군집분석, 기술 통계 및 프로파일링

(2) 지도학습: 분류, 군집화

2) 시행착오를 통한 문제 해결

3) 분석 과제 정의: 필요소스데이터, 분석방법, 데이터 입수 및 분석난이도, 수행주기, 결과, 검증, 분석 등

디자인 사고(Design Thinking) 프로세스: 상향식, 하향식 접근방식 반복 수행


- 분석 프로젝트 관리 방안

Data Size

Data Complexity: BI 정형데이터, 비정형데이터

Speed: Batch 단위, 실시간

Analytic Complexity: 모델의 정확도와 복잡도는 트레이드오프 관계가 존재

Accuracy & Precision: Accuracy: 정확도, Precision: 편차의 수준-> 동일한 결과 제시

반응형

댓글