본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶

Data/데이터 분석·통계20

[데이터 분석] python을 활용한 데이터 분석(1) - 패키지 설치 패키지 설치앞서 얘기했던 패키지들을 설치해 보자개별적 설치1. ipython(http://www,ipython.org)2. numpy(http://www.numpy.org)3. pandas(http://pandas.pydata.org)4. matplotlib(http://matplotlib.org) 통합 설치1. Enthough Canopy: community commercialhttps://store.enthought.com2. Python(x, y)https://code.google.com/p/pythonxy3. Anaconda를 통한 설치http://store.continuum.io/cshop/anaconda 개별적으로 따로따로 설치해도 상관없고, 통합설치를 통해서 한번에 해도 상관없다.(설치 할때.. 2018. 7. 8.
[데이터 분석] python을 활용한 데이터 분석 (1) - 패키지 소개 Python을 활용한 데이터 분석(1) - 패키지 소개 - 데이터분석용 주요 패키지1) numpy: 수치, 통계, 선형대수2) mayplotlib3) scipy4) pandas: array를 이용한 다차원의 data structure .. 1. Numpy수치 데이터 처리 기능을 확장arrayasarrayarangeones, ones_likezeros, zeros_like, empty, empty_likeeye, identity universal functions- 일종의 vectorized wrapper1) abs, fabs2) sqrt3) square4) exp : 자연 지수5) log, log10, log2, log1p6) sign7) ceil8) floor9) rint10) modf... 등등 2... 2018. 7. 8.
[(빅)데이터 교육] 데이터 분석의 기초 - 데이터의 탐색 데이터의 탐색데이터의 분포나 이상치 등을 처리하여 계략적인 분석방안에 대하여 모색 1) 종속변수/독립변수의 선정목표변수와 설명변수:종속변수 Y를 무엇으로 하느냐에 따라 분석방법이 달라진다. 2) 데이터 구조의 정량적/정성적 파악:데이터가 어떤 구조를 가지고 있는지, 어떻게 수집이 되었는지, 충분한지, 특정영역에서 수집되었는건 아닌지? 등 파악 3) 변수의 유형CharacterNumericFactorInteger 등 분석가능한 데이터인지 확인1) 변수 유형 확인: 유형 + 각 변수가 취할수있는 범위, 범주영역 등 파악2) 표준화의 필요성3) 변수의 선택4) 데이터 양 확인 데이터 표준화Z-score = (X-mean(X))/sd(X)- 신뢰성있는 결과를 얻기 위해 표준화가 필요한 경우- 다변량 데이터의 경.. 2018. 6. 25.
[(빅)데이터 교육] 데이터 분석의 기초 - 분포에 관한 추론 모평균에 관한 추론점추정모집단의 확률분포가 정확히 알려진 경우. 일반적인 경우, 표본평균을 이용해 모평균을 추정구간추정모집단의 특성에 따른 표본평균의 분포를 이용하여 신뢰구간 추정 신뢰구간 추정- 모평균의 100(1-)%의 신뢰구간1) 모집단이 분산이 알려진 정규분포를 따른 경우- 표본 분포이용 , 2) 모집단의 분산이 알려져있으나 정규분포를 따르지 않는경우- 중심극한정리를 이용(n이 충분히 클 때) , 3) 모집단이 분산이 알려져있지 않고 정규분포를 따를 경우-T분포 이용 , 예시모집단이 정규분포를 따르며, n=64로 표본을 추출 하였을 때, = 27.750, s = 5.083일때, 모집단의 99% 신뢰구간은? 분판이 알려져있지 않음 -> T 분포 이용 이므로, (27.750 - 1.688, 27.75.. 2018. 6. 25.
[(빅)데이터 교육] 데이터 분석의 기초 - 통계적 추론 통계적 추론추정자료의 정보를 이용하여 모집단에 관한 추측이나 결론을 이끌어 내는 과정전수조사가 불가능하거나 비실용적인 경우대상 모집단으로 부터 표본을 추출하고, 이러한 표본을 추출하고, 이러한 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 통계적으로 추론하는 것 점추정표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정(표본평균, 표본분산) 구간추정모수의 참값이 포함되어 있을 것으로 추정되는 구간을 결정하는 것(신뢰구간) 신뢰구간(confidence Interval)모수가 어느 범위안에 있는지 확률적으로 보여주는 방법- 산출된 구간사이에 모수가 포함될 확률을 나타내는 통계량 - 는 모수보다 작고 는 모수보다 클 확률을 0과 1사이의 숫자 를 써서 다음과 같이 표기한다. 이때, 구간 (, )를 .. 2018. 6. 22.
[(빅)데이터 교육] 데이터 분석의 기초 - 확률과 확률분포 확률과 확률분포확률 확률 - 경험 혹은 실험의 결과로 특정한 사건이나 결과가 발생할 가능성- 표본공간(S)에서의 임의의 사건(E)에 대해서 E가 발생할 확률 P(E)는 3가지 조건을 만족 시켜야 한다.1) 0 0, then P(A|B) = P(A 교집합 B)/P(B) 주요특성1) 합사건 2) 곱셈법칙 3) 여사건 4) 독립사건 5) 덧셈정리 예제1졸업하는 학생 900명을 대상으로 남/여 취업 상태를 조사한 결과 다음과 같은 자료를 얻었다. 취업 미취업 합계 남 460 40 500 여 140 260 400 합계 600 300 900 이 학교에서 한 학생을 추출했을 때,사건A = 뽑은 학생이 여학생인 경우사건B = 취업을 했을 경우 뽑힌 학생이 취업을 했다는 조건하에 학생이 여학생인 확률은?P(A) = 4/.. 2018. 6. 22.