본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶

Project/음악 가사 분석6

[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링(3) - WMD란? wmd(word mover’s distace)란간단하게 이야기 하면 공통된 단어가 없는 경우에도 두 문장 간의 거리를 평가할 수 있는 방법이다.아래와 같이 공통된 단어가 없을 경우 관련 단어를 일치시키면서 두 문장간의 유사성을 측정할 수 있다. 이미지출처: http://proceedings.mlr.press/v37/kusnerb15.pdf wmd를 이용하기 위해서는 word embedding 단어 사전이 필요하다. word mover's distance! 논문을 정리해보자 *^^* 1) nBOW representation 다음 두 문장을 비교해 보자. S1 - Obama speaks to the media in Illinois S2 - The President greets the press in Chic.. 2018. 9. 14.
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링(2) - word2vec이란? word2vec대하여 알아 볼 생각이다. word2vec word2vec은 간단하게 말하자면 2013년 구글이 제안한 방법을 구현한 알고리즘으로 word embedding 학습 모형이다. 먼저 word2vec을 알아 보기전에 word2vec의 전신이 되는 아이들 부터 살펴보도록 해보자. word embedding? 우리가 다루어야할 음악 가사는 NLP(Natural Language Processing,자연어 처리)로 컴퓨터가 인간이 사용하는 언어를 이해하고 분석할 수 있게 하는 분야를 이야기한다. 컴퓨터는 단어 자체를 사람처럼 개념적인 차이로 이해하는 것이 아니다. 컴퓨터가 어떤 단어인지 인지 할 수 있게 하기 위해서는 수치적인 방식으로 단어를 나타내 주여야 한다. 수화를 통해 단어의 개념적인 차이를 나.. 2018. 9. 14.
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링 (1) word2vec이라는 걸 알게 되면서 꼭 이번 졸업 논문에 써보겠다 다짐했다.논문을 준비하면서… 음악 정보 검색 기술(Music Information Retrival)- word2vec- WMD(Word Mover’s Distance)- 계층적 군집화(Hierarchical Clustering)에 대하여 공부를 해볼 생각이다 ^-`(찡긋) 먼저 word2vec을 이용하여 음악 가사를 분석해보겠다고 결심하게 된 계기는 어느날 음악을 듣는데, 내가 좋아했던 음악 목록을 듣는데도 별로라는 생각이 들었다. 분명히 내가 좋아했던 음악이었는데? 왜 갑자기 듣기 별로였을까? 아마, 과거의 나 와 지금의 나의 처한 상황이 달라서 이다. 음악을 들을 때 사람은 자신의 생각과 경험이 반영되어 그것에 공감하며 음악을 듣게 .. 2018. 9. 14.
[음악 가사 분석] kaggle 데이터를 이용해여 (3) - ppt자료를 찾았다. 음악 가사 분석 [그때의 기억을 되살리며 작성] 데이터 1.kaggle billboard(1945-2015)라고 쓰고 1965-2015라고 읽는다(데이터에 65년도부터 있었다) 2. melon 1965-2015 멜론과 빌보드차트 두가지를 사용한 것은 한국과 미국의 가사 실태에 대하여 알고 싶은 것이였고, 멜론은 R로 크롤링해서 가져온것으로 기억된다. 그리고 마지막 멜론에서는 가사에 대한 분석보다는 어떤 가수가 주로 등장하였는지를 했던것 같다(아마 시간부족) 주로 나온 10개의 단어 feel, girl, know, like, love, now, one, say, see, time 단순 count에서 차지하는 비율로 바꾸어 비교를 했었다. 보면 느껴지겠지만(사실 글씨가 작아서 안보일듯) 아래것은 그냥 단순 .. 2018. 9. 14.
[음악 가사 분석] Kaggel 데이터를 이용하여 (2) - 결론 및 정리 솔직히, Kaggle 음악 가사 분석했던 건.. 그다지 생각이 안난다. 순서대로 60년대, 70년대, 80년대, 90년대, 00년대, 10년대 (Top 100) 의 주요 가사 내용이다. 전체적으로 Love와 baby가 눈에 띄는걸 볼 수 있다. top100에 속한 노래 대부분이 사랑에 관한 내용이라는걸 알수 있다.그놈의 사랑이야기가 주로 TOP100에 오르락 내리락 한다는걸 알 수 있다. 이건 단편적으로 60년대와 10년대를 비교한 건데, 재밌는점을 찾는다면 10년대로 갈수록 욕설이 많아 진다는 점이다. 사랑과 좋아행~ 자기야 막 이러다가, 갑자기 bitch, money, party, nigga..이런게 눈에띄게 많이 나타났다는 점인데..10년대로 갈수록 사람들이 문란해 지는건가 *^^*..허허허허허허허.. 2018. 9. 14.
[음악 가사 분석] kaggle 데이터 bilboard 1945-2015 (1) - 데이터 전처리 음악 가사 분석 - kaggle 데이터 (bilboard 1945- 2015)를 이용하여 년대 별로 자주썼던 단어들 분석해보기 2017년도에 혼자했던 프로젝트, 이게 계기가 되어 졸업 논문까지 이걸로 쓰게 되었다고 한다.... 데이터: kaggle에 누가 빌보드차트 1945-2015 데이터를 올려 놓았길래 사용! 데이터는 Year, Rank, Artist, Lyrics, Source로 이루어져 있고,Source는 뭔지 몰라서 일단 제거해버렷! 데이터 전처리 시작! 1. 데이터 형식 변환 Rank: int Song : FactorArtist : FactorYear : intLyrics: Factor Rank, Year는 Factor로,Lyrics는 char로 변경 2. NA 값 지우기 sum(is.na().. 2018. 2. 13.