Study/파이썬으로 데이터 주무르기14 [모델 성능 평가 척도] Confusion matrix / Learning curve / ROC curve 모델 성능 평가 척도1. Confusion matrix 예측값 Y(positive) N(negative) 실제값 Y TP(true positive) FN(false negative) N FP(false positive) TN(true negative)실제값: 데이터의 실제 카테고리예측값: 모델이 예측한 데이터의 카테고리1) Accuracy(정확도)TP + TN / TP+FN+FP+TN한계 : - 2class 문제에서 class yes에 해당하는 데이터는 9900건, class no에 해당하는 데이터는 100건이 존재할 경우모델이 모든 데이터를 class yes로 예측할 경우, class no를 예측하지 못했음에도 불구하고 정확도는 높게 나타난다.2) Precision(정밀도)Precision(p) = T.. 2018. 7. 9. [데이터 분석] 데이터 셋의 구성과 검증 방법 1. 데이터 셋 구성 1) Training set: 모델 훈련에 사용하는 데이터 셋2) Validation set: 모델 훈련에 적절한 지점을 찾기 위한 셋 (overfitting/underfitting을 방지) 3) Test set: 모델 성능을 평가하기 위해 사용하는 데이터 셋 2. 데이터 셋 구성을 통한 검증 방법1) Holdout: 1-1) Training set + Test set = 7 : 31-2) Training set이 작으면 모델 정확도의 분산이 커진다.1-3) Training set이 커지면 Test set으로 부터 측정한 정확도의 신뢰도 하락1-4) 단점을 극복하기 위해 hold out을 반복적으로 실행 (Random subsampling)2) Random subsampling:Ho.. 2018. 7. 9. 이전 1 2 3 다음