본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
[Seoul Store] 내맘대로 하는 서울상가 데이터 탐색기 (1) 심심해서 하는 내맘대로 서울상가 데이터 탐색기 Store data in Seoul¶서울에 있는 상가 데이터를 탐색해보자 In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline 1. 상가업소정보 201803 데이터 탐색¶ In [3]: data1 = pd.read_csv('./소상공인시장진흥공단_상가업소정보_201803/소상공인시장진흥공단_상가업소정보_201803_01.csv', encoding='cp949') data1.head(3) Out[3]: 상가업소번호 상호명 지점명 상권업종대분류코드 상권업종대분류명 상권업종중분류코드 상권업종중.. 2018. 7. 14.
[Folium으로 지도 그리기] folium으로 지도그리기 feat.인구소멸 위기지역 앞서 살펴본 인구소멸 위기 데이터를 이용하여,Folium으로 이쁘게 지도에 나타내보자! 인구소멸위기데이터 확인하러 가기 Folium으로 인구 소멸 위기 지역 그리기¶ In [2]: import folium import json import warnings import pandas as pd warnings.simplefilter(action='ignore', category=FutureWarning) In [3]: pop = pd.read_csv('./data/pop_save.csv') pop = pop.set_index('ID') pop.head() Out[3]: Unnamed: 0 광역시도 시도 20-39세여자 20-39세합계 65세이상합계 인구수남자 인구수여자 인구수합계 소멸비율 소멸위기지역 y .. 2018. 7. 13.
[인구 데이터] 우리나라 인구 소멸 위기 지역 분석 우리나라 인구 소멸 위기 지역 분석¶1. 우리나라 인구 데이터¶ In [1]: import pandas as pd import numpy as np import platform import matplotlib.pyplot as plt %matplotlib inline In [2]: # 폰트설정 from matplotlib import font_manager, rc rc('font', family='AppleGothic') plt.rcParams['axes.unicode_minus'] = False In [3]: path = './data/05. population_raw_data.xlsx' data = pd.read_excel(path, header=1) data.head(3) Out[3]: 행정구역.. 2018. 7. 13.
[서울시 도서관] 서울시 도서관 개수 시각화 In [7]: import pandas as pd import matplotlib.pyplot as plt import numpy as np import folium %matplotlib inline 도서관 데이터 가져오기¶ In [6]: library = pd.read_excel('./data/library.xlsx', skiprows=7) library.head() Out[6]: 도서관명 주소 전화번호 팩스번호 위도 경도 홈페이지 휴관일 도서관코드 0 2.28도서관 대구광역시 중구 2·28길 9 053-257-2280 053-257-2284 35.857981 128.589620 http://www.228lib.or.kr/ 매주 월요일 / 법정공휴일(일요일을 제외한 관공서 공휴일), 도서관 및 기타 .. 2018. 7. 11.
[서울시 범죄율] folium을 이용한 시각화 Folium으로 시각화 하기 - 지도¶ In [2]: import folium In [6]: map_osm = folium.Map(location=[45.5236, -122.6750]) map_osm Out[6]: zoom_star을 사용하면, 확대 비율을 정의할 수 있음¶ In [5]: stamen = folium.Map(location = [45.5236, -122.6750], zoom_start=13) stamen Out[5]: tiles를 설정하면, 지도 모양을 바꿀 수 있다.¶ stamentoner openstreetmap mapquestiopenaerial stamenwatercolor stamenterrain mapboxbright cartodbdark_matter ... 엄청 많다. .. 2018. 7. 11.
[Linear regression] Boston dataset에 실제 적용해 보기 Boston Dataset에 실제 적용해보기¶ In [36]: from sklearn import datasets boston_house_prices = datasets.load_boston() # 로드한 boston 전체 데이터에 key 값을 출력 print(boston_house_prices.keys()) # boston 전체 데이터 중 data에 대한 전체 행, 열 길이를 출력 print(boston_house_prices.data.shape) # boston 데이터에 컬럼 이름을 출력 print(boston_house_prices.feature_names) dict_keys(['data', 'target', 'feature_names', 'DESCR']) (506, 13) ['CRIM' 'ZN'.. 2018. 7. 9.
[Linear regression] 단일선형회귀분석 실습 단일 선형회귀분석 실습¶pacakge설명¶ pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 numpy : 파이썬 언어를 위한 행렬, 벡터 등의 수학 계산을 위한 자료구조와 계산 함수를 제공하는 패키지 pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 matplotlib : 플롯(그래프)를 그릴 때 주로 쓰이는 2D, 3D 플롯팅 패키지 matplotlib.pyplot : matplotlib의 서브패키지로 *MATLAB 처럼 플롯을 그려주는 패키지 pandas : 데이터 분석, 가공, 처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지 In [41]: from sklearn .. 2018. 7. 9.
[Linear regression] 단일선형회귀분석이란? 단일선형회귀분석이란?1. 회귀분석 소개- 두 변수(종속/독립 변수)사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용- 독립변수의 값이 주어질때, 종속변수의 값을 추정하거나 예측하는데 사용- 서로 영향을 주고 받는 인과관계를 갖는 두 변수 사이의 관계를 분석종속변수(Dependent Variable): 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수독립변수(Independent Variable): 다른 변수에 영향을 주고 그 변수의 값을 예측하려는 변수 2. 산포도(산점도, Scatter)- 회귀분석을 할때, 두 변수 사이의 관계를 대략적으로 알아보기 위한 그래프- 보통 X축: 독립변수, Y축: 종속변수로 설정하여 도표에 나타냄- 두 변수간의 관련성 및 예측을 위한 상관분석이나 회귀.. 2018. 7. 9.
[모델 성능 평가 척도] 유방암 진단 데이터(Breast Cancer) scikit learn 을 이용한 실습¶wisconsin의 유방암 데이터셋 사용¶총 569건의 데이터 악성(212) 양성 (357) datesets: scikit learn에서 제공하는 데이터 셋 이용 DecisionTreeClassifier: decision tree 기계학습모델 이용 In [2]: from sklearn import datasets from sklearn.tree import DecisionTreeClassifier train test split: 데이터셋을 training과 test로 분리 StrarifiedKFold: Strarified k fold cross validation 사용 kfold와는 다르게 fold내 데이터의 클래스 비율을 일정하게 유지 Cross val sco.. 2018. 7. 9.