본문 바로가기
  • 紹睿: 자유롭고 더불어 사는 가치있는 삶
Project/음악 가사 분석

[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링(3) - WMD란?

by 징여 2018. 9. 14.
반응형

wmd(word mover’s distace)

간단하게 이야기 하면 공통된 단어가 없는 경우에도 두 문장 간의 거리를 평가할 수 있는 방법이다.

아래와 같이 공통된 단어가 없을 경우 관련 단어를 일치시키면서 두 문장간의 유사성을 측정할 수 있다.



이미지출처: http://proceedings.mlr.press/v37/kusnerb15.pdf



wmd 이용하기 위해서는 word embedding 단어 사전이 필요하다.


word mover's distance! 논문을 정리해보자 *^^*


1) nBOW representation


다음 문장을 비교해 보자

S1 - Obama speaks to the media in Illinois 

S2 - The President greets the press in Chicago 

둘은 유사한 의미임에도 불구하고 다른 문장이라고 인식한다는 한계점을 가지고 있다.


2) Word travel cost


따라서wmd 목표는 개별 단어 (ex. President Obama)간의 의미상 유사성을 문서 거리 측정에서 통합하는 것이다.

단어  거리는 유클리디안 거리로 측정된다.


3) Document distacance

단어 사이의 travel cost 문서간의 거리를 측정하는데 사용된다.

두 문서간의 거리를 모든 단어에서로 이동시키는 최소 누적 비용으로 정의한다.


4) Transportation problem

이동하는 최소 누적 비용은 아래의 linear program 같다


 

이미지출처: https://chara.cs.illinois.edu/sites/fa16-cs591txt/pdf/Kusner-2015-ICML.pdf



(위의 최적화는 earth mover's distance에서 사용되었기 때문에, word mover’s distance라고 이름지엇다고 한다...)


5) Visualization


 


이미지출처: https://chara.cs.illinois.edu/sites/fa16-cs591txt/pdf/Kusner-2015-ICML.pdf


위의 사진의 설명은 다음과 같다.


1. 불용어를 지워 각 단어만 남긴다.

president, Greets, press, Chicago


2. 문장 D1의 word와 D2의 word의 화살표들의 거리에 대한 기여도로 표시한다.

word를 유사한 word로 이동시킨다.

(Illinois가 Chicago로 변환되는 것은

Japan이 Chicago로 변환되는 것보다 값이 적은 이유는 word2vec embedding에서 japan보다 Illinois가 더 가깝기 때문)


3. 결과적으로

bag-of-words/TF-IDF를 사용한다면, 공통된 단어가 없기 때문에 같은 거리를 갖는다.

하지만, WMD는 둘의 유사도 값은 다르게 나와 비교할 수 있다.


4. 단어의 수가 일치하지 않을 때의 경우

추가적인 화살표 방향이 다른 유사한 단어로 나타날 수 있다.

긴 문서에서는 여러 유사한 단어가 포함될 수 있기 때문데 거리는 늘어날 수 있다.


5. 계산 비용 같은 경우는 word movers' distance를 참고하세용


참조

https://www.youtube.com/watch?v=NesumaeN1xE

https://chara.cs.illinois.edu/sites/fa16-cs591txt/pdf/Kusner-2015-ICML.pdf

https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html


반응형

댓글