본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링 (1) word2vec이라는 걸 알게 되면서 꼭 이번 졸업 논문에 써보겠다 다짐했다.논문을 준비하면서… 음악 정보 검색 기술(Music Information Retrival)- word2vec- WMD(Word Mover’s Distance)- 계층적 군집화(Hierarchical Clustering)에 대하여 공부를 해볼 생각이다 ^-`(찡긋) 먼저 word2vec을 이용하여 음악 가사를 분석해보겠다고 결심하게 된 계기는 어느날 음악을 듣는데, 내가 좋아했던 음악 목록을 듣는데도 별로라는 생각이 들었다. 분명히 내가 좋아했던 음악이었는데? 왜 갑자기 듣기 별로였을까? 아마, 과거의 나 와 지금의 나의 처한 상황이 달라서 이다. 음악을 들을 때 사람은 자신의 생각과 경험이 반영되어 그것에 공감하며 음악을 듣게 .. 2018. 9. 14.
[음악 가사 분석] kaggle 데이터를 이용해여 (3) - ppt자료를 찾았다. 음악 가사 분석 [그때의 기억을 되살리며 작성] 데이터 1.kaggle billboard(1945-2015)라고 쓰고 1965-2015라고 읽는다(데이터에 65년도부터 있었다) 2. melon 1965-2015 멜론과 빌보드차트 두가지를 사용한 것은 한국과 미국의 가사 실태에 대하여 알고 싶은 것이였고, 멜론은 R로 크롤링해서 가져온것으로 기억된다. 그리고 마지막 멜론에서는 가사에 대한 분석보다는 어떤 가수가 주로 등장하였는지를 했던것 같다(아마 시간부족) 주로 나온 10개의 단어 feel, girl, know, like, love, now, one, say, see, time 단순 count에서 차지하는 비율로 바꾸어 비교를 했었다. 보면 느껴지겠지만(사실 글씨가 작아서 안보일듯) 아래것은 그냥 단순 .. 2018. 9. 14.
[음악 가사 분석] Kaggel 데이터를 이용하여 (2) - 결론 및 정리 솔직히, Kaggle 음악 가사 분석했던 건.. 그다지 생각이 안난다. 순서대로 60년대, 70년대, 80년대, 90년대, 00년대, 10년대 (Top 100) 의 주요 가사 내용이다. 전체적으로 Love와 baby가 눈에 띄는걸 볼 수 있다. top100에 속한 노래 대부분이 사랑에 관한 내용이라는걸 알수 있다.그놈의 사랑이야기가 주로 TOP100에 오르락 내리락 한다는걸 알 수 있다. 이건 단편적으로 60년대와 10년대를 비교한 건데, 재밌는점을 찾는다면 10년대로 갈수록 욕설이 많아 진다는 점이다. 사랑과 좋아행~ 자기야 막 이러다가, 갑자기 bitch, money, party, nigga..이런게 눈에띄게 많이 나타났다는 점인데..10년대로 갈수록 사람들이 문란해 지는건가 *^^*..허허허허허허허.. 2018. 9. 14.
[last day on earth] 습격자 퀘스트를 함부로 깼다 보통 퀘스트 깨면 좋은거아닌가 ㅠㅠ? 집이 다 털림.. 너무하신거아닌가요 주변 털곳을 알려준다길래 갔더니 철벽 벙커에 엄청난 총기로 뚜들겨맞으며 돌아왔는데........ 방문했다고 털어갔당..... 알파벙커 다 털고 나온 모든 총무기도...ㅠ.ㅠ 흑흑................너무슬픈것 레벨 99인데... 이 구역에서 벗어나지 못하고있다.. 이게임 또 하는사람없나? ㅠ.ㅠ 제대로된 공략...? 얻고싶당. 일단, 오토바이부터 깨고싶은데, 대체 어디서 얻는거야? 알파 벙커도 아니구! 2018. 9. 13.
[ADsP] 오답정리-공부 데이터 이해 1. CRM의 목적은 변함없고, 방법은 다양해지고있다. 데이터 분석 기획 1. 고객니즈변화: 고객, 채널, 영향자들 2. 우선순위 평가기준: 전략적중요도(전략정 필요성, 시급성) / 실행 용이성(투자 용이성, 기술용이성) 3. 분석적으로 사물을 인식하려는 WHY관점은 일반적으로 사용되고 있는 문제해결방식: 하양식 접근방식 4. 분석과제 주요 관리: Data Size, Data Complexity, Speed, Analytic & Complexity, Accuracy&Precision 5. 집중형 조직구조: 독립적인 분석전담 6. 분산된 조직구조: 현업부서에 분석업무 7. 기능중심: 별도의 조직을 구성하지않고 해당 업무부서에서 직접 분석수행 8. 데이터 분석개요 1. 명목척도 2. 순서척도 3.. 2018. 8. 24.
[ADsP] 3과목 데이터 분석 - (3) 정형 데이터 마이닝 정형 데이터 마이닝- 데이터 마이닝 개요- 통계분석 vs 데이터 마이닝: 데이터 마이닝 -> data로 부터 의미있는 정보를 찾아내는 방법 통칭- 종류(1) 정보를 찾는 방법론: 인공지능, 의사결정나무, K-means, 연관분석, 회귀분석, 로짓분석, 최근접 이웃(2) 분석대상이나 활용목적, 표현방법: 시각홥누석, 분류, 군집화, 포케스팅- 환경의 변화- 도구가 다양하고 체계화 되어 환경에 적합한 제품선택하여 활용가능- 분석결과의 품질은 분석가의 경험과 역량에 따라 차이남..ㅠㅠ- 한국에는 1990년대 중반- 2000년대부터 CRM의 중요한 요소로 부각- 지도학습: 의사결정나무, 인공신경망, 일반화선형모형(회귀, 로지스틱회귀), 사례기반 추론, 최근접 이웃- 비지도학습: OLAP, 연관성규칙발견, 군집분.. 2018. 8. 24.
[ADsP] 3과목 데이터 분석 - (2) 통계 분석 - 통계 분석 - 통계학 개론 1) 통계: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약 표현 - 총조사(census)와 표본조사 2) 통계자료 획득방법: (1) 총 조사(census) (2) 표본조사 - 모집단: 조사하고자 하는 대산 집단 전체 - 원소: 모집단 구성개체 - 표본: 추출한 모집단의 일부 원소 - 모수: 구하고자 하는 모집단에 대한 정보 - 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확하게 명시 (3) 표본추출방법: 모집단을 대표할 수 있는 표본 추출 - 단순랜덤추출법 복원, 비복원 추출: 임의의 n개 추출하는 방법 -> 각 샘플은 선택될 확률이 동일하다 - 계통추출법: 단순랜덤추출의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n.. 2018. 8. 24.
[ADsP] 3과목 데이터 분석 - (1) R기초와 데이터 마트 데이터 분석 - R기초와 데이터 마트 - R 기초 R: 통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경/ GPL하에 배포되는 S프로그래밍 언어로 구현(GNU S) R studio: 메모리에 변수가 어떻게 되어있는지, 타입무엇인지 볼수있따 Rattle: GUI가 패키지와 긴빌하게 결합돼 있어 정해진 기능만 사용가능 특징 1) 표준 플랫폼(S언어기반) 2) 모든 운영체제에서 사용가능 3) 메모리 저장방식 세션마다 저장함 4) 객체지향언어, 함수언어 병렬프로그래밍으로의 전환이 용이하다. 5) 오픈소스 프로그램 - R 기초 2 setwd("작업디렉토리") 도움말: help(함수), ?함수, RsiteSearch(함수명) 히스토리: history(), savehistory(file="파일명"), l.. 2018. 8. 23.
[ADsP] 2과목 오답정리 - 계층적 프로세스 모델의 형태: 마지막 계층(step)은 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 이다. - 잘 정제된 DB형태: 정형 데이터 - 비정형 데이터 email, 보고서, 소셜미디어 데이터 - 반정형데이터: 센서 중심으로 스트리밍되는 머신데이터 - CRISP-DM 분석 과정: 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 - 분석기획은 단기적으로는 분석과제를 도출하여 프로젝트화 한 후 관리를 수행하여 분석 결과를 도출하는 것이고, 중장기적으로는 분석마스터 플랜을 수행하여 지속적인 분석과제 수행을 지원할 수 있는 거버넌스 치계를 수립하는 것이다. - 우선순위결정 일반적: 시급성- 현재, 난이도-쉬움 / 쉬운것 부터 하는가보다. - 분석 과제에 .. 2018. 8. 23.