본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Archived/ADsP

[ADsP] 3과목 데이터 분석 - (3) 정형 데이터 마이닝

by 징여 2018. 8. 24.
반응형

정형 데이터 마이닝

- 데이터 마이닝 개요

- 통계분석 vs 데이터 마이닝: 데이터 마이닝 -> data로 부터 의미있는 정보를 찾아내는 방법 통칭

- 종류

(1) 정보를 찾는 방법론: 인공지능, 의사결정나무, K-means, 연관분석, 회귀분석, 로짓분석, 최근접 이웃

(2) 분석대상이나 활용목적, 표현방법: 시각홥누석, 분류, 군집화, 포케스팅

- 환경의 변화

- 도구가 다양하고 체계화 되어 환경에 적합한 제품선택하여 활용가능

- 분석결과의 품질은 분석가의 경험과 역량에 따라 차이남..ㅠㅠ

- 한국에는 1990년대 중반

- 2000년대부터 CRM의 중요한 요소로 부각

- 지도학습: 의사결정나무, 인공신경망, 일반화선형모형(회귀, 로지스틱회귀), 사례기반 추론, 최근접 이웃

- 비지도학습: OLAP, 연관성규칙발견, 군집분석, SOM

- 예측 목적: 분류 / 회귀, 판별, 신경망, 의사결정나무

- 설명목적: 연관/연속/군집화( K-means)

- 단계 

(1) 목적설정

(2) 데이터 준비

(3) 데이터 가공

(4) 기법 적용

(5) 검증

- SEMMA(SAS의 데이터 마이닝 프로세스)

Sample Explore Modify Model Assess -> sample ~

- 분류 분석(지도학습)

- 의사결정나무

- 분류분석 vs 예측분석

차이점

분류: 범주형

예측: 연속형

- 분류분석

데이터가 어느 그룹에 속하는지, 예측하는데 사용

클러스터링과 유사하지만, 분류는 그룹이 정의되어있다.

- 분류기법

(1) 회귀분석, 로지스틱 회귀분석

(2) 의사결정나무

의사결정 규칙으로 나눠진 나무모양

회귀나무 모형, 분류나무

최종모형의 예측력과 해석력이 중요하다

활용

- 세분화: 비슷한 특성을 갖는 몇개의 그룹으로 분할해 그룹별 특성 발견

- 분류:

- 예측:

- 차원축소 및 변수선택: 큰 영향을 미치는 변수 고르기

- 교호작용효과파악: 예측변수들을 결합해 목표변수에 작용하는 규칙 파악

- 범주형 병합 또는 연속형 변수의 이산화

특징

- 결과를 설명하기 용이

- 복잡하지 않다

- 대용량 데이터에서도 빠르다

- 비정상 잡음 데이터에서도 민감없이 분류할 수 있다

- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향받지 않는다 (하지만, 나무가 커지므로 제거하자

- 모형 분류 정확도가 높다.

분석과정

1) 성장: 최적의 분리규칙을 찾아 정지규칙을 만족하면 중단

2) 가지치기: 오차를 크게할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지 제거

3) 타당성평가: 이익도표, 위험도표, 시험자료를 이용하여 평가

4) 해석 및 예측

나무성장

- 분리 변수가 연속형인경우

- 분리변수가 범주형인 경우

- 최적 분할의 결정은 불순도 감소량을 가장 크게하는 분할

나무의 가지치기:

- 너무 크면 과적합, 너무작으면 과소적합

- 마디에 속하는 자료가 일정수이하일때는 분할을 정지 -> 비용-복잡도 가지치기를 이용하여 가지치기를 하자.

불순도 여러가지 측도

- 카이제곱, 지니지수, 엔트로피 지수

의사결정나무 알고리즘

1) CART: 범주형일경우 지니지수, 연속형일경우 분산(이진분리)

2) C4.5와 C5.0

각 마디에서 다지분리가 가능하며, 범주형 입력변수에 대해서는 범주의 수만큼 분리

불순도측도: 엔트로피지수

3) CHAID

가지치기를 하지않고 적당한 크기에서 나무모형의 성장 중지, 범주형변수!

불순도 측도: 카이제곱통계

성과분석과 스코어링

party package

(3) 베이지안 분류

(4) 인공신경망

(5) SVM

(6) 최근접이웃

(7) 규칙기반의 분류와 사례기반 추론


앙상블 모델

여러개의 예측모형을 만든후 조합

- 다중모델 조합

- 배깅: 주어진 자료에서 여러개의 bootstrap자료를 생성하고 각 자료에 예측모형을 만든 후 결합

- 부스팅: 예측력이 약한 모형들을 결합하여 만듬

- 랜덤 포레스트(무작위추출): randomForest package 

많은 트리생성

수천개의 변수를 통해 변수제거없이 실행 -> 정확도측면에서는 좋음

32개는 넘을 수없다.

해석이 어렵다는 단점이 있지만, 예측력은 매우 좋음

- 스태킹: 동일한 타입의 모델을 조합하는 배깅, 부스팅과는 달리 다양한 학슴 모델을 구성


오분류표를 통한 모델 평가

 

 Condition

True

False

 Prediction

positive 

 True Positive(TP)

 False Positive(FP)

 Negative

 True Negative(TN)

False Negative(FN) 

 

Sensitivity

TP/(TP+FN) 

Specifity

TN/(FP+TN) 

ROC 커브 이용

1) 민감도와 특이도를 이용하여 평가

2) AUROC(ROC커브 및부분 넓이)

90% 좋음 80% 굳 70% 별루임


- 군집 분석

1) 기존세분화 방법

- 임의로

- 통계적기법

2) 전통적 세분화 방법의 문제점

- 단순격자형의 경우 작업시간이 너무오래걸림

- 후처리에서 병합할때기준이 명확하지 않다

- 유사 집단끼리 나눌때, 집단간의 프로파일이 차이나지 않을 수 있다.

- 격자, cluster, k-means 공통문제: 변수의 특성으로 인한 변동에 따라 의미없이 고객집단 이동

3) 목표기반의 세분화 방법

- 많이 존재하는 집단

- 그렇지 않은 집단

4) 프로파일링 방법

- 격자방식 세분화 방식으로 프로파일링 -> 집단 간의 차이가 세분화 기준변수에 의해 발생

- 자동화 방식으로 세분화가 되고 프로파일링해야해

5) 세분화 수행기간

6) 세분집단개수: 보통 3~10개, 군집수를 늘리거나 줄일때는 집단내 분산크기를 파악해 결정

7) 거리: 관측 데이터간의 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단

연솟형 변수

(1) 유클리드

(2) 표준화거리

(3) 마할라노비스

(4) 체비셰프

(5) 맨하탄

(6) 캔버라

(7) 민코우스키

범주형 변수

(1) 자카드


계층적 군집방법

최단연결법

최장연결법

평균연결법: 평균

와드연결법: 편차들의 제곱함(정보 손실 최소화)

비계층적 군집방법

1) K-means: 원하는 군집개수를 설정한 후 군집 형성

2) 특징: 연속형 변수에 활용 용이, greedy알고리즘으로 안정된 군집을 보장하나, 최적이라는 보장이 없다.

혼합분포 군집

모형기반의 군집 방법으로 데이터가 k개의 모수적 모형의 가중함으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에(?) 가중치를 자료로 부터 추정하는 방법

EM알고리즘 사용

SOM(Self-Organizing Map)

자가 조직화지도, 코호넨....

비지도 신경망으로 고차원의 데이터를 이애하기 쉬운 저차원의 뉴런으로 정렬하여 지도로 형상화

1) 입력층

2) 2차원 격자로 구성된 경쟁층

특징

고차원의 데이터를 저차원으로 형상화 -> 시각적 이해 쉬움

입력변수의 위치 관계를 그대로 보존 -> 실제 데이터와 유사하면서 지도상 가깝게 표현 (이미지 분석에 뛰어남)

전방 패스 사용해서 매우 빠르다.(실시간학습가능)


- 연관 분석

- 장바구니분석, 서열분석

- 사건들간의 규칙을 발견하기 위해 적용

- if-then형태

-연관분석의 측도

지지도(support): P(A교B)

신뢰도(confidence): P(A교B)/P(A)

향상도(Lift): P(A교B)/P(A)P(B), 관련이 없는경우 1

- 절차:

높은 지지도를 갖는 품목 집합을 찾음

최소 지지도 결정 -> 품목 분류 -> 2가지 -> 반복적

- 장점: 탐색적 기법, 강력한 비목적성 분석기법, 사용이 편리한 분석 데이터의 형태, 계산의 용이성

- 단점: 계산이 복잡함, 적절한 품목의 결정(너무 세분화하면 의미가 없어질수도...), 품목 비율차이(거래량이 작으면 당연히 ㅠㅠ)

- 순차패턴: 동시에 구매될 가능성이 큰 상품군 찾기


문제점

대용량에서는 불가능, 시스템 다운......

동향: Apriori나 FP Tree, FPV이용해 .. SKU레벨 연관성 분석 성공적이라네...? --뭐라는거야



반응형

댓글