본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Project/음악 가사 분석

[음악 가사 분석] kaggle 데이터 bilboard 1945-2015 (1) - 데이터 전처리

by 징여 2018. 2. 13.
반응형


음악 가사 분석 - kaggle 데이터 (bilboard 1945- 2015)를 이용하여 


년대 별로 자주썼던 단어들 분석해보기



2017년도에 혼자했던 프로젝트, 이게 계기가 되어 졸업 논문까지 이걸로 쓰게 되었다고 한다....


데이터: kaggle에 누가 빌보드차트 1945-2015 데이터를 올려 놓았길래 사용!



데이터는 Year, Rank, Artist, Lyrics, Source로 이루어져 있고,

Source는 뭔지 몰라서 일단 제거해버렷!



데이터 전처리 시작!



1. 데이터 형식 변환


Rank: int

Song : Factor

Artist : Factor

Year : int

Lyrics: Factor


Rank, Year는 Factor로,

Lyrics는 char로 변경



2. NA 값 지우기 

sum(is.na())를 하게 되면, NA값이 얼마나 있는지 알 수 있는데, 

5100 -> 4913



3. 년도 별로 데이터 모으기


table로 확인하니까, 제목은 1945부터였는데, 65년도 부터 데이터가 존재했다

(...읭?)


이게 무슨경우람 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ top100데이터이기때문에,

 대충 100곡씩 다 차있는것 같다.


그래서, 이렇게 묶어서 분석해 보기로 결정


 년대

년 

 총 곡

60년대

1965-1969 

 474

70년대

1970-1979 

 939

80년대

1980-1989 

 975

90년대 

1990-1999 

 958

00년대 

2000-209 

 975

10년대

2010-2015 

 592





반응형

댓글