[음악 가사 분석] kaggle 데이터를 이용해여 (3) - ppt자료를 찾았다.
음악 가사 분석 [그때의 기억을 되살리며 작성] 데이터 1.kaggle billboard(1945-2015)라고 쓰고 1965-2015라고 읽는다(데이터에 65년도부터 있었다) 2. melon 1965-2015 멜론과 빌보드차트 두가지를 사용한 것은 한국과 미국의 가사 실태에 대하여 알고 싶은 것이였고, 멜론은 R로 크롤링해서 가져온것으로 기억된다. 그리고 마지막 멜론에서는 가사에 대한 분석보다는 어떤 가수가 주로 등장하였는지를 했던것 같다(아마 시간부족) 주로 나온 10개의 단어 feel, girl, know, like, love, now, one, say, see, time 단순 count에서 차지하는 비율로 바꾸어 비교를 했었다. 보면 느껴지겠지만(사실 글씨가 작아서 안보일듯) 아래것은 그냥 단순 ..
2018. 9. 14.
[음악 가사 분석] Kaggel 데이터를 이용하여 (2) - 결론 및 정리
솔직히, Kaggle 음악 가사 분석했던 건.. 그다지 생각이 안난다. 순서대로 60년대, 70년대, 80년대, 90년대, 00년대, 10년대 (Top 100) 의 주요 가사 내용이다. 전체적으로 Love와 baby가 눈에 띄는걸 볼 수 있다. top100에 속한 노래 대부분이 사랑에 관한 내용이라는걸 알수 있다.그놈의 사랑이야기가 주로 TOP100에 오르락 내리락 한다는걸 알 수 있다. 이건 단편적으로 60년대와 10년대를 비교한 건데, 재밌는점을 찾는다면 10년대로 갈수록 욕설이 많아 진다는 점이다. 사랑과 좋아행~ 자기야 막 이러다가, 갑자기 bitch, money, party, nigga..이런게 눈에띄게 많이 나타났다는 점인데..10년대로 갈수록 사람들이 문란해 지는건가 *^^*..허허허허허허허..
2018. 9. 14.
[ADsP] 3과목 데이터 분석 - (3) 정형 데이터 마이닝
정형 데이터 마이닝- 데이터 마이닝 개요- 통계분석 vs 데이터 마이닝: 데이터 마이닝 -> data로 부터 의미있는 정보를 찾아내는 방법 통칭- 종류(1) 정보를 찾는 방법론: 인공지능, 의사결정나무, K-means, 연관분석, 회귀분석, 로짓분석, 최근접 이웃(2) 분석대상이나 활용목적, 표현방법: 시각홥누석, 분류, 군집화, 포케스팅- 환경의 변화- 도구가 다양하고 체계화 되어 환경에 적합한 제품선택하여 활용가능- 분석결과의 품질은 분석가의 경험과 역량에 따라 차이남..ㅠㅠ- 한국에는 1990년대 중반- 2000년대부터 CRM의 중요한 요소로 부각- 지도학습: 의사결정나무, 인공신경망, 일반화선형모형(회귀, 로지스틱회귀), 사례기반 추론, 최근접 이웃- 비지도학습: OLAP, 연관성규칙발견, 군집분..
2018. 8. 24.