wmd(word mover’s distace)란
간단하게 이야기 하면 공통된 단어가 없는 경우에도 두 문장 간의 거리를 평가할 수 있는 방법이다.
아래와 같이 공통된 단어가 없을 경우 관련 단어를 일치시키면서 두 문장간의 유사성을 측정할 수 있다.
이미지출처: http://proceedings.mlr.press/v37/kusnerb15.pdf
wmd를 이용하기 위해서는 word embedding 단어 사전이 필요하다.
word mover's distance! 논문을 정리해보자 *^^*
1) nBOW representation
다음 두 문장을 비교해 보자.
S1 - Obama speaks to the media in Illinois
S2 - The President greets the press in Chicago
둘은 유사한 의미임에도 불구하고 다른 문장이라고 인식한다는 한계점을 가지고 있다.
2) Word travel cost
따라서, wmd의 목표는 개별 단어 쌍(ex. President 와 Obama)간의 의미상 유사성을 문서 거리 측정에서 통합하는 것이다.
두 단어 의 거리는 유클리디안 거리로 측정된다.
3) Document distacance
두 단어 사이의 travel cost은 두 문서간의 거리를 측정하는데 사용된다.
두 문서간의 거리를 모든 단어에서로 이동시키는 최소 누적 비용으로 정의한다.
4) Transportation problem
이동하는 최소 누적 비용은 아래의 linear program과 같다.
이미지출처: https://chara.cs.illinois.edu/sites/fa16-cs591txt/pdf/Kusner-2015-ICML.pdf
(위의 최적화는 earth mover's distance에서 사용되었기 때문에, word mover’s distance라고 이름지엇다고 한다...)
5) Visualization
이미지출처: https://chara.cs.illinois.edu/sites/fa16-cs591txt/pdf/Kusner-2015-ICML.pdf
위의 사진의 설명은 다음과 같다.
1. 불용어를 지워 각 단어만 남긴다.
president, Greets, press, Chicago
2. 문장 D1의 word와 D2의 word의 화살표들의 거리에 대한 기여도로 표시한다.
word를 유사한 word로 이동시킨다.
(Illinois가 Chicago로 변환되는 것은
Japan이 Chicago로 변환되는 것보다 값이 적은 이유는 word2vec embedding에서 japan보다 Illinois가 더 가깝기 때문)
3. 결과적으로
bag-of-words/TF-IDF를 사용한다면, 공통된 단어가 없기 때문에 같은 거리를 갖는다.
하지만, WMD는 둘의 유사도 값은 다르게 나와 비교할 수 있다.
4. 단어의 수가 일치하지 않을 때의 경우
추가적인 화살표 방향이 다른 유사한 단어로 나타날 수 있다.
긴 문서에서는 여러 유사한 단어가 포함될 수 있기 때문데 거리는 늘어날 수 있다.
5. 계산 비용 같은 경우는 word movers' distance를 참고하세용
참조
https://www.youtube.com/watch?v=NesumaeN1xE
https://chara.cs.illinois.edu/sites/fa16-cs591txt/pdf/Kusner-2015-ICML.pdf
https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html
'Project > 음악 가사 분석' 카테고리의 다른 글
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링(2) - word2vec이란? (0) | 2018.09.14 |
---|---|
[음악 가사 분석2] word2vec을 이용한 음악 가사 클러스터링 (1) (0) | 2018.09.14 |
[음악 가사 분석] kaggle 데이터를 이용해여 (3) - ppt자료를 찾았다. (0) | 2018.09.14 |
[음악 가사 분석] Kaggel 데이터를 이용하여 (2) - 결론 및 정리 (0) | 2018.09.14 |
[음악 가사 분석] kaggle 데이터 bilboard 1945-2015 (1) - 데이터 전처리 (0) | 2018.02.13 |
댓글