본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶

Study/파이썬으로 데이터 주무르기14

[서울시 범죄율] folium을 이용한 시각화 Folium으로 시각화 하기 - 지도¶ In [2]: import folium In [6]: map_osm = folium.Map(location=[45.5236, -122.6750]) map_osm Out[6]: zoom_star을 사용하면, 확대 비율을 정의할 수 있음¶ In [5]: stamen = folium.Map(location = [45.5236, -122.6750], zoom_start=13) stamen Out[5]: tiles를 설정하면, 지도 모양을 바꿀 수 있다.¶ stamentoner openstreetmap mapquestiopenaerial stamenwatercolor stamenterrain mapboxbright cartodbdark_matter ... 엄청 많다. .. 2018. 7. 11.
[Linear regression] Boston dataset에 실제 적용해 보기 Boston Dataset에 실제 적용해보기¶ In [36]: from sklearn import datasets boston_house_prices = datasets.load_boston() # 로드한 boston 전체 데이터에 key 값을 출력 print(boston_house_prices.keys()) # boston 전체 데이터 중 data에 대한 전체 행, 열 길이를 출력 print(boston_house_prices.data.shape) # boston 데이터에 컬럼 이름을 출력 print(boston_house_prices.feature_names) dict_keys(['data', 'target', 'feature_names', 'DESCR']) (506, 13) ['CRIM' 'ZN'.. 2018. 7. 9.
[Linear regression] 단일선형회귀분석 실습 단일 선형회귀분석 실습¶pacakge설명¶ pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 numpy : 파이썬 언어를 위한 행렬, 벡터 등의 수학 계산을 위한 자료구조와 계산 함수를 제공하는 패키지 pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 matplotlib : 플롯(그래프)를 그릴 때 주로 쓰이는 2D, 3D 플롯팅 패키지 matplotlib.pyplot : matplotlib의 서브패키지로 *MATLAB 처럼 플롯을 그려주는 패키지 pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 In [41]: from sklearn .. 2018. 7. 9.
[Linear regression] 단일선형회귀분석이란? 단일선형회귀분석이란?1. 회귀분석 소개- 두 변수(종속/독립 변수)사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용- 독립변수의 값이 주어질때, 종속변수의 값을 추정하거나 예측하는데 사용- 서로 영향을 주고 받는 인과관계를 갖는 두 변수 사이의 관계를 분석종속변수(Dependent Variable): 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수독립변수(Independent Variable): 다른 변수에 영향을 주고 그 변수의 값을 예측하려는 변수 2. 산포도(산점도, Scatter)- 회귀분석을 할때, 두 변수 사이의 관계를 대략적으로 알아보기 위한 그래프- 보통 X축: 독립변수, Y축: 종속변수로 설정하여 도표에 나타냄- 두 변수간의 관련성 및 예측을 위한 상관분석이나 회귀.. 2018. 7. 9.
[모델 성능 평가 척도] 유방암 진단 데이터(Breast Cancer) scikit learn 을 이용한 실습¶wisconsin의 유방암 데이터셋 사용¶총 569건의 데이터 악성(212) 양성 (357) datesets: scikit learn에서 제공하는 데이터 셋 이용 DecisionTreeClassifier: decision tree 기계학습모델 이용 In [2]: from sklearn import datasets from sklearn.tree import DecisionTreeClassifier train test split: 데이터셋을 training과 test로 분리 StrarifiedKFold: Strarified k fold cross validation 사용 kfold와는 다르게 fold내 데이터의 클래스 비율을 일정하게 유지 Cross val sco.. 2018. 7. 9.
[모델 성능 평가 척도] Residuals / MSE / RMSE 모델 성능 평가 척도1. Residuals(잔차)- 회귀 분석 모델의 예측값과 실제 값의 차이(error)- Residuals plot 1) y축에 residuals, x축에 독립변수2) 어떤 선형모델이 데이터에 적합한지 알 수 있음3) 적합한 선형 모델: residual이 x축을 기준으로 랜덤으로 분포한 상태4) 적합한 비선형 모델: residual이 패턴을 보이며 분포하는 상태 2. Mean Squared Error(MSE, 평균제곱오차)- 회귀선과 모델 예측값 사이의 오차(residual)이용- 오차를 제곱한 값들의 평균 3. Root Mean Squared Error(RMSE)- MSE에서 구한 값에 Root 적용 2018. 7. 9.