본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Study/파이썬으로 데이터 주무르기

[데이터 분석] 데이터 셋의 구성과 검증 방법

by 징여 2018. 7. 9.
반응형

1. 데이터 셋 구성



1) Training set: 모델 훈련에 사용하는 데이터 셋

2) Validation set: 모델 훈련에 적절한 지점을 찾기 위한 셋 (overfitting/underfitting을 방지) 

3) Test set: 모델 성능을 평가하기 위해 사용하는 데이터 셋


2. 데이터 셋 구성을 통한 검증 방법


1) Holdout:

1-1) Training set + Test set = 7 : 3

1-2) Training set이 작으면 모델 정확도의 분산이 커진다.

1-3) Training set이 커지면 Test set으로 부터 측정한 정확도의 신뢰도 하락

1-4) 단점을 극복하기 위해 hold out을 반복적으로 실행 (Random subsampling)

2) Random subsampling:

Holdout 방식 반복

2-1) K개의 부분 데이터 셋 사용: 각 데이터 셋은 랜덤

2-2) 최종 성능은 각 실험 성능의 평균으로 도출

3) cross validation:

3-1) 중복되지 않는 k개의 부분 set으로 나누어 구성

3-2) Random subsampling과 유사하지만, k-fold cross validation 사용할 경우 모든 train과 test에 적용 가능

3-3) 최종 성능은 k번의 실험 성능의 평균으로 도출

4) stratified sampling:

4-1) 각 클래스로부터 일정 비율 샘플 추출

4-2) 전체 데이터에서 무작위로 추출할 경우 표본이 특정 클래스에 편중될 수 있기 때문에 사용

5) botstrap:

5-1) 중복 추출 허용


반응형

댓글