1. 데이터 셋 구성
1) Training set: 모델 훈련에 사용하는 데이터 셋
2) Validation set: 모델 훈련에 적절한 지점을 찾기 위한 셋 (overfitting/underfitting을 방지)
3) Test set: 모델 성능을 평가하기 위해 사용하는 데이터 셋
2. 데이터 셋 구성을 통한 검증 방법
1) Holdout:
1-1) Training set + Test set = 7 : 3
1-2) Training set이 작으면 모델 정확도의 분산이 커진다.
1-3) Training set이 커지면 Test set으로 부터 측정한 정확도의 신뢰도 하락
1-4) 단점을 극복하기 위해 hold out을 반복적으로 실행 (Random subsampling)
2) Random subsampling:
Holdout 방식 반복
2-1) K개의 부분 데이터 셋 사용: 각 데이터 셋은 랜덤
2-2) 최종 성능은 각 실험 성능의 평균으로 도출
3) cross validation:
3-1) 중복되지 않는 k개의 부분 set으로 나누어 구성
3-2) Random subsampling과 유사하지만, k-fold cross validation 사용할 경우 모든 train과 test에 적용 가능
3-3) 최종 성능은 k번의 실험 성능의 평균으로 도출
4) stratified sampling:
4-1) 각 클래스로부터 일정 비율 샘플 추출
4-2) 전체 데이터에서 무작위로 추출할 경우 표본이 특정 클래스에 편중될 수 있기 때문에 사용
5) botstrap:
5-1) 중복 추출 허용
'Study > 파이썬으로 데이터 주무르기' 카테고리의 다른 글
[Linear regression] 단일선형회귀분석 실습 (0) | 2018.07.09 |
---|---|
[Linear regression] 단일선형회귀분석이란? (0) | 2018.07.09 |
[모델 성능 평가 척도] 유방암 진단 데이터(Breast Cancer) (0) | 2018.07.09 |
[모델 성능 평가 척도] Residuals / MSE / RMSE (0) | 2018.07.09 |
[모델 성능 평가 척도] Confusion matrix / Learning curve / ROC curve (0) | 2018.07.09 |
댓글