본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶

Data/데이터 분석·통계20

[추천 시스템] 주요 회사 알고리즘 정리 Facebook Edge Rank Algorithm 우선순위 매기는 알고리즘 3가지 기준의 점수 부여 1. 친밀도 (Affinity): 사용자와 게시글을 작성한 작성자 간의 관계 사용자 측면: 작성자의 다른 게시물에 대한 반응 작성자 측면: 사용자의 게시물에 대한 반응 사용자 작성자 간의 메신저 이용도 2. 가중치 (Weight): 과거 사용자가 반응한 게시물과 현재 평가하고자 하는 게시물의 유사성과 게시물에 대한 반응 우선순위로 가중치계산 필요 3. 시간 (Decay): 게시물 작성된 시간, 마지막 반응시간, 관계를 맺은 시기 등 4. 그외 스토리 범핑(Story Bumping) 라스트 액터(Last Actor) 사용자가 직접 먼저보기 버튼을 통해 노출 Netflix Cine-match Algorith.. 2021. 5. 21.
[제대로 시작하는 기초통계학] Chapter4. 확률과 통계 1. 확률과 의사결정통계의 목적: 모수 추정추정의 이유: 모집단을 대상으로 하는 조사가 불가능하거나 시간과 비용 등의 물리적 한계 때문 확률 - 확률이 가지는 조건 (E: 사건(Event), i:시행횟수, P:확률) - 확률의 덧셈법칙1) 서로다른 사건 A와 B일때,2) 배반사건일 경우(중복이 없었을떄) -확률의 곱셈법칙 1) A가 발생한뒤, B가 발생할 확률 예제ex1) 동전을 2번던졌을때, 앞면이 나올 확률- 2번모두 앞면이 나올 확률:앞면이 나올확률: 1/2 * 앞면이나올확률: 1/2 = 1/4- 1번만 앞면이 나올확률:H/T: 앞면 1/2 * 뒷면 1/2 = 1/4T/H: 뒷면1/2 * 앞면 1/2 = 1/41/4+ 1/4 = 2/4 = 1/2-따라서, 1/4+1/2 = 3/4 ex2) 주사위를 .. 2018. 8. 18.
[제대로 시작하는 기초통계학] Chapter3. 데이터와 통계량 1. 데이터의 수집변수: 어떠한 대응관계(함수관계)로 변화하는 수변수의 특성을 파악하는 것이 중요하다.데이터: 조사목적에 맞는 변수를 기반으로 표본으로 부터 수집된 자료 척도- 범주형 척도: 명목척도: 이름(수치화는 상관이없음) ex) 남/여서열척도(순서척도): ex) 1등 2등 3등, (관계 간격은 일정하지 않을 수 있다)- 연속형 척도: 구간안에서 연결되어있는 자료 등간척도: 간격이 동일 비율척도: 2. 데이터의 표현방법표: 도수분포표(Frequency distribution table)그래프: 그림으로 직관적으로 볼수 있게 끔 3. 기초통계량"그래 이맛이야!"한수저만 떠먹고 "그래 이맛이야!" 했을때, 맛본 부분만 맛 있을까? 아니면 전체가 맛 있을까? 중심경향도(measure of central .. 2018. 7. 30.
[제대로 시작하는 기초통계학] Chapter2. 모집단과 표본 1. 모집단과 표본모집단(Population): 관심대상의 전체 집합모수(parameter): 모집단을 분석하여 걷어지는 결과 수치- 모평균, 모분산, 모표준편차, 모비율 표본(Sample): 과학절차를 적용하여 모집단을 대표할 수 있는 일부를 추출하여 직접적인 조사 대상이 된 모집단의 일부(모집단을 설명하는 기준)통계량(statistic): 표본을 분석하여 얻어지는 결과 수치- 표본평균, 표본분산, 표본표준편차, 표본비율 표본추출확률적 표본추출 방법(Probability Sampling method): 표본이 될 확률이 동일한것- 단순 무작위 표본추출: random- 체계적 표본추출- 비례 층화 표본추출- 다단계 층화 표본추출- 군집 표본추출비확률적 표본추출 방법(non-probability Sampl.. 2018. 7. 28.
[제대로 시작하는 기초통계학] Chapter1. 통계학의 이해 1. 통계학을 공부하는 이유통계학을 적용한 자료는 신뢰성을 가진다.통계는 의사결정에 필요한 근거 자료를 제시한다: 수치화 시켜 의사결정에 도움을 주어야한다.통계는 현상을 분석하여 실증자료를 제시한다: 스마트폰을 소비하는 비용은 무엇인가? Statistics 수량적인 비교를 기초로 많은 사실을 관찰하고 처리하는 방법 (수치화)- 기술통계(Descriptive statistics) : 표본에 대한 분석결과를 각종 수치들을 활용하여 집단의 특성을 설명- 추론통계(inference statistics): 표본을 활용하여 모집단의 특성을 나타내는 것 통계학의 목적1) 의사결정2) 불확실성(위험요소)의 해소3) 요약4) 연관성 파악5) 예측(과거의 데이터로 미래를 확인) 2. 통계분석과 그 한계수집 -> 정제 ->.. 2018. 7. 28.
[데이터 분석] python을 활용한 데이터 분석 (2) - ipyhon ipython에 대하여 살펴 보기 mac의 경우, 작업을 할 폴더로 이동 후 아래와 같이 실행해주면된다. 1 jupyter notebook cs 실행하면, 웹브라우져가 뜨고 새로운 파일을 하나 만들어 주면 끝. In [1]: import numpy as np from numpy.random import randn In [2]: data = {i:randn() for i in range(7)} data Out[2]: {0: 1.402129791256454, 1: -0.5401556293704064, 2: -0.29486216075501115, 3: 1.1642281840557518, 4: -2.094833336203848, 5: -1.9576522024426697, 6: 0.44024554175567876.. 2018. 7. 8.