본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶

분류 전체보기193

[Linear regression] 단일선형회귀분석 실습 단일 선형회귀분석 실습¶pacakge설명¶ pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 numpy : 파이썬 언어를 위한 행렬, 벡터 등의 수학 계산을 위한 자료구조와 계산 함수를 제공하는 패키지 pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 matplotlib : 플롯(그래프)를 그릴 때 주로 쓰이는 2D, 3D 플롯팅 패키지 matplotlib.pyplot : matplotlib의 서브패키지로 *MATLAB 처럼 플롯을 그려주는 패키지 pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 In [41]: from sklearn .. 2018. 7. 9.
[Linear regression] 단일선형회귀분석이란? 단일선형회귀분석이란?1. 회귀분석 소개- 두 변수(종속/독립 변수)사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용- 독립변수의 값이 주어질때, 종속변수의 값을 추정하거나 예측하는데 사용- 서로 영향을 주고 받는 인과관계를 갖는 두 변수 사이의 관계를 분석종속변수(Dependent Variable): 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수독립변수(Independent Variable): 다른 변수에 영향을 주고 그 변수의 값을 예측하려는 변수 2. 산포도(산점도, Scatter)- 회귀분석을 할때, 두 변수 사이의 관계를 대략적으로 알아보기 위한 그래프- 보통 X축: 독립변수, Y축: 종속변수로 설정하여 도표에 나타냄- 두 변수간의 관련성 및 예측을 위한 상관분석이나 회귀.. 2018. 7. 9.
[모델 성능 평가 척도] 유방암 진단 데이터(Breast Cancer) scikit learn 을 이용한 실습¶wisconsin의 유방암 데이터셋 사용¶총 569건의 데이터 악성(212) 양성 (357) datesets: scikit learn에서 제공하는 데이터 셋 이용 DecisionTreeClassifier: decision tree 기계학습모델 이용 In [2]: from sklearn import datasets from sklearn.tree import DecisionTreeClassifier train test split: 데이터셋을 training과 test로 분리 StrarifiedKFold: Strarified k fold cross validation 사용 kfold와는 다르게 fold내 데이터의 클래스 비율을 일정하게 유지 Cross val sco.. 2018. 7. 9.
[모델 성능 평가 척도] Residuals / MSE / RMSE 모델 성능 평가 척도1. Residuals(잔차)- 회귀 분석 모델의 예측값과 실제 값의 차이(error)- Residuals plot 1) y축에 residuals, x축에 독립변수2) 어떤 선형모델이 데이터에 적합한지 알 수 있음3) 적합한 선형 모델: residual이 x축을 기준으로 랜덤으로 분포한 상태4) 적합한 비선형 모델: residual이 패턴을 보이며 분포하는 상태 2. Mean Squared Error(MSE, 평균제곱오차)- 회귀선과 모델 예측값 사이의 오차(residual)이용- 오차를 제곱한 값들의 평균 3. Root Mean Squared Error(RMSE)- MSE에서 구한 값에 Root 적용 2018. 7. 9.
[모델 성능 평가 척도] Confusion matrix / Learning curve / ROC curve 모델 성능 평가 척도1. Confusion matrix 예측값 Y(positive) N(negative) 실제값 Y TP(true positive) FN(false negative) N FP(false positive) TN(true negative)실제값: 데이터의 실제 카테고리예측값: 모델이 예측한 데이터의 카테고리1) Accuracy(정확도)TP + TN / TP+FN+FP+TN한계 : - 2class 문제에서 class yes에 해당하는 데이터는 9900건, class no에 해당하는 데이터는 100건이 존재할 경우모델이 모든 데이터를 class yes로 예측할 경우, class no를 예측하지 못했음에도 불구하고 정확도는 높게 나타난다.2) Precision(정밀도)Precision(p) = T.. 2018. 7. 9.
[데이터 분석] 데이터 셋의 구성과 검증 방법 1. 데이터 셋 구성 1) Training set: 모델 훈련에 사용하는 데이터 셋2) Validation set: 모델 훈련에 적절한 지점을 찾기 위한 셋 (overfitting/underfitting을 방지) 3) Test set: 모델 성능을 평가하기 위해 사용하는 데이터 셋 2. 데이터 셋 구성을 통한 검증 방법1) Holdout: 1-1) Training set + Test set = 7 : 31-2) Training set이 작으면 모델 정확도의 분산이 커진다.1-3) Training set이 커지면 Test set으로 부터 측정한 정확도의 신뢰도 하락1-4) 단점을 극복하기 위해 hold out을 반복적으로 실행 (Random subsampling)2) Random subsampling:Ho.. 2018. 7. 9.