반응형
음악 가사 분석 - kaggle 데이터 (bilboard 1945- 2015)를 이용하여
년대 별로 자주썼던 단어들 분석해보기
2017년도에 혼자했던 프로젝트, 이게 계기가 되어 졸업 논문까지 이걸로 쓰게 되었다고 한다....
데이터: kaggle에 누가 빌보드차트 1945-2015 데이터를 올려 놓았길래 사용!
데이터는 Year, Rank, Artist, Lyrics, Source로 이루어져 있고,
Source는 뭔지 몰라서 일단 제거해버렷!
데이터 전처리 시작!
1. 데이터 형식 변환
Rank: int
Song : Factor
Artist : Factor
Year : int
Lyrics: Factor
Rank, Year는 Factor로,
Lyrics는 char로 변경
2. NA 값 지우기
sum(is.na())를 하게 되면, NA값이 얼마나 있는지 알 수 있는데,
5100 -> 4913
3. 년도 별로 데이터 모으기
table로 확인하니까, 제목은 1945부터였는데, 65년도 부터 데이터가 존재했다
(...읭?)
이게 무슨경우람 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ top100데이터이기때문에,
대충 100곡씩 다 차있는것 같다.
그래서, 이렇게 묶어서 분석해 보기로 결정
년대 |
년 | 총 곡 |
60년대 |
1965-1969 | 474 |
70년대 |
1970-1979 | 939 |
80년대 |
1980-1989 | 975 |
90년대 |
1990-1999 | 958 |
00년대 |
2000-209 | 975 |
10년대 |
2010-2015 | 592 |
반응형
'Project > 음악 가사 분석' 카테고리의 다른 글
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링(3) - WMD란? (0) | 2018.09.14 |
---|---|
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링(2) - word2vec이란? (0) | 2018.09.14 |
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링 (1) (0) | 2018.09.14 |
[음악 가사 분석] kaggle 데이터를 이용해여 (3) - ppt자료를 찾았다. (0) | 2018.09.14 |
[음악 가사 분석] Kaggel 데이터를 이용하여 (2) - 결론 및 정리 (0) | 2018.09.14 |
댓글