欧式距离计算公式_文本相似度度量——词移距离(WMD)

欧式距离计算公式_文本相似度度量——词移距离(WMD)本文是对 2015 年华盛顿大学发表的论文 FromWordEmbe 的学习总结

492d3ee96bd47d4ec751230b60ecce2d.png

本文是对2015年华盛顿大学发表的论文《From Word Embeddings To Document Distances》的学习总结。主要包含以下内容:

  • WMD的定义
  • WMD算法模型
  • WMD算法优化
  • WMD模型的表现/效果

文本相似度的度量在实际工程应用中有深远的意义,已经在互联网中得到广泛的应用。如:文本相似度可以用于新闻分类与聚类中,对新闻文本进行分类时,通过计算文本之间的相似度,将相似的文本分成同一个类别。文本相似还可以应用于文档检索、歌曲识别、多语言文档匹配等领域中。文本之间的相似度通常是用文本之间的距离来表示的,那么文本数据怎么计算距离?

文本表示方式

文本数据和数值型数据有很大的不同,数值型数据可以直接使用距离计算公式来计算两两之间的距离,而文本数据无法直接进行计算,所以要计算文本数据之间的距离首先要做的就是文本数值化,即用数值来表示文本。

  1. 词袋模型(Bag Of Words,BOW)。用一个栗子来说明什么是词袋模型,假设我们的语料库由两个句子组成,句子A为“Obama speaks to the media in Illinois”,句子B为“The President greets the press in Chicago”。则我们的词典为:["Obama","speaks","to","the","media","in","Illinois","President","greets","press","Chicago"]。那么句子A表示为:[1,1,1,1,1,1,1,0,0,0,0],句子B表示为:[0,0,0,2,0,1,0,1,1,1,1].即按照词典顺序,如果句子不包含这个词对应位置则为0,如果包含这个词,则对应位置为这个词在句子中出现的次数。
  2. 词频-逆文档频率(Term Frequency-Inverse Document Frequency ,TF-IDF)。TF-IDF和BOW比较类似,只是在进行句子表示的时候,不再是以句子中词出现的次数作为对应位置的数值,而是词频(TF)和逆文档频率(IDF)的组合做为数值。具体的组合方式为:

式中

表示文本中词
出现的次数,
为文本中词的总数,
表示文档所在类的总文档个数,
表示词
在多少个文档中出现。IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低,比如“的”这样的词在所有文档中都有出现,那么其IDF值为0.

在文本向量化(数值化)之后就可以使用距离度量公式计算文本之间的距离,如使用cosin距离、欧式距离等。但上述两个文本表示方法有明显的缺点,即在两个句子没有相同词语时,这两个句子通过上述方式向量化表示之后,会被认定为完全不相关,但他们可能具有相同的语意,如上面的栗子中句子A和句子B,在去除停用词之后没有相同的词,但语意相同。那这缺点怎么去解决?接下来我们看一下WMD怎么去计算文本的距离,怎么去解决上述的缺点的。

什么是WMD?

WMD是Word Mover's Distance的缩写,翻译为词移距离,是度量两个文本文档之间距离的一种方式(方法),用于判断两个文本之间的相似度,即WMD距离越大相似度越小,WMD距离越小文本相似度越大(ps:距离越大相距越远,相似度肯定小了)。那么它是怎么去计算两个文档之间的距离的?

WMD是通过将一个文档中包含的词语“移动”(travel)到另一个文档中的词语,这个“移动”过程产生的距离总和的最小值作为词移距离。举个栗子,两个短文本“Obama speaks to the media in Illinois”、“The President greets the press in Chicago”,那么从第一句子转移到第二个句子的示意图如下(已去除停用词):

fc48175cd170089556fd110d74c1d17a.png
图一 转移示意图

针对示意图中的词移距离则表示为:distance("Obama"->"President")+distance("speaks"->"greets")+... 。那么词到词之间的距离,即如 distance("Obama"->"President")该怎么计算?很明显要计算两个词之间的距离,我们需要先进行数值化(向量化),为了解决使用BOW、TF-IDF中不同词之间毫无相关性的缺点,WMD模型采用了2013年google提出的词向量工具word2vec来表征词,通过word2vec将词语向量化后,使用欧式距离公式计算两个词语之间的距离。

Word2vec

google提出的word2vec能够将词语进行分布式表示,将词由one-hot的稀疏性编码方式转换为了稠密的编码方式。简单说就是将形如(0,0,0,1,0,0,...)的编码方式转变成了形如(0.23,0.56,0.36,0.86,...)的编码方式。这样表示过后即便是两个不同的词语,也可以计算他们的相似度。word2vec通过大规模的语料训练,通过结合上下文信息能够提取出文本中词语含有的语意特征,表现形式如下:ps:对于word2vec的训练这里不细说,内容太多...

69297b40c3deb2e4e649edba74873a23.png

WMD利用word2vec提取到的词语语意特征来计算两个文本之间的相似度,即以组成文本集合的词语到另一个文本集合词语的欧式距离,来表示文档之间的距离。有了词语距离的计算方式,接下来看一下WMD具体的模型是什么样的。

WMD的模型

在介绍模型之前我们先回过头来看一看图一。图一的示意图中每个词正好两两对应,即没有一对多的情况发生,但是在实际中就不会存在一对多,甚至一个词对应另一个文档全部词的情况吗?如果我们仅仅考虑距离和最小,那么每两个词之间的距离都最小则为最优解,那么肯定会出现一对多,甚至一对全部的情况。举个栗子,文档 1 中每个词都跟“音乐”密切相关;文档 2 中只有一个词跟“音乐”密切相关,其余词都跟“音乐”完全无关;文档 3 中有一个词跟“音乐”密切相关,其他词都跟“音乐”有点关系但关联性不大。那么直觉上文档1和文档3更相似,即

,但如果按照词语距离和最小的方式,最优解应该是文档1所有词转移到文档2中与“音乐”密切相关的词上,文档1同样也所有词转移到文档3中和“音乐”密切相关的词上,即一对所有。那么此时很有可能导致:
。ps:文档2与文档3中与音乐密切相关的词语刚好同一个。这显然是不合理的。那么怎么能够让结果合理呢?即怎么让

为了让结果合理,WMD作者提出让文档1中的词以不同的权重转移到另一个文档的所有词上,即一个词不再全部转移到另一个词,而是部分转移到另一个词,这样让另一个文档的所有词去分配该词的权重。如下图所示:

564b83d15899376602fad9ed2f40d863.png

那么对于“Obama”移动到另一个文档的距离则为:ps:权重是随意假设的...

对于其他词的转移距离也是类似的。那么有一个问题,怎么确定每个转移分配到的权重合理,并且不会出现一对全部的情况(权重为0时)。WMD提出增加两个约束条件来解决这个问题。下面来看模型。

定义

,
表示一个文档
中的词
转移到另一个文档
中的词
所占的权重,
表示词
本身在文档
中所拥有的权重,
表示词
本身在文档
中所拥有的权重,
表示词
与词
的距离。则模型表示如下:

(式1)中

。以上述的栗子文档1和文档2来说明式中两个约束的作用,约束1让文档1中的每个词都部分转移到文档2,但为了求最优解依然可能出现权重为0的情况。第二个约束表明,文档2中所有词收到的权重必须和文档2中词本身的权重相同,即保证了文档2中每个词都会得到转移权重,避免出现一对所有的情况。我们回过头来看(式1)中的
应该怎么得到呢?

标准化BOW表示(nBOW representation)

标准化BOW就是对BOW表示进行标准化,简单的说就是将BOW表示中的每个数值除以数值的总和,如 [2, 3, 2, 0, 0, 0, 0]标准化后得到[

,
,
, 0, 0, 0, 0]。则标准化后的BOW中的数值即表示
。计算公式如下:

词转移代价(Word travel cost)

由于WMD中词语是经过word2vec表示的,而word2vec表示后的词可以直接计算欧式距离,即

,到此前面三个参数的值都可以得到了,那么
怎么获得?获取
的过程其实就是WMD模型求解的过程。那么WMD模型怎么求解?

WMD求解----(Earth Mover's Distance,EMD)

WMD的求解是EMD问题的一个特例,而EMD问题实际上是线性规划中运输问题的最优解。因此可以用同样的求解方式求解。具体的方法这里不再介绍。下面对运输问题做一个描述。(ps:以下关于运输问题的描述来自于https://blog.csdn.net/sinat_/article/details/)

我们假设从多个工厂运输货物到多个仓库。在下图中左侧,P从

代表m座工厂,工厂
有重量为
的货物。右侧,Q从
代表n个仓库,仓库
的最大容量为
。货物之间没有区别,都是同一类东西。每个仓库都希望装尽可能多的货物。如何尽肯呢个高效把货物从P运送到Q,就是运输问题的优化目标。

8cd20006e1d8f37c98ecf79574d276ea.png

定义,货物从工厂

运到仓库
,距离是
,运送货物的重量为
。这样一次运输需要的工作量为
。显然,距离越远,或货物越重,工作量就越大(注:运输可能是多对多的,即一个工厂运输货物到多个仓库,或者一个仓库接受多个工厂的货物。)。货物从工厂运到仓库需要很多次这样的运输,经过优化计算,我们得到工作总量和最小W。

距离

是已知的,所以运输量
是式中唯一的变量,对
做以下4个约束:
  1. 运输过程从工厂P到仓库Q,不能反向。
  2. 从工厂
    运送出去的所有货物重量的和不可能超过该工厂中所有货物的总重量
  3. 仓库Q_{j}接受的所有货物总重量不能超过其容量
  4. 总运输量的上限是共产中货物的总重、仓库总容量总的最小值。

当仓库的总容量和工厂货物总重不一样时,我们才需要上述第4个限制条件。仓库总容量比货物总量大的话就可以全部运输了,所以这时候,运输量的上限就是货物总量。但如果货物总量比仓库总量大的话,就不能全部运输了,这时候,运输量的上限就是仓库的总容量。方便起见,本列中假设仓库的总容量和工厂货物总量一样。

那么WMD的模型基本介绍完了,接下来我们看一下WMD算法的复杂度。WMD算法复杂度为

,其中p是文档中不重复词的个数,对于大的数据集来说这个模型的优化复杂度会非常高。论文作者使用了一句话描述这个复杂度“WMD算法是目前表现的最好的,但也是目前最慢的”(ps:大致意思是这样的)。那么怎么来减小模型的复杂度呢?

词质心距离(Word centroid distance, WCD)

为了加快模型速度(ps:作者论文中对WMD加速方法是基于WMD算法对文本做KNN分类为下做的加速),作者提出下界(lower bound)来排除不必要的运算。基本思路是,当前精确的WMD算法太耗时,那选择一个计算速度快的下界,来排除在做KNN分类时距离太大的文档,以减少运算量。可能这个地方有点疑惑为什么是下界而不是上界。这个地方的理解是当计算两个文本之间的距离时,我们用下界的方式来计算两个文本之间的距离,但实际上的WMD距离是大于这个下界的,如果小于真实值得下界值都已经大了,那么真实距离只会更大。下界WCD的推导方法如下:

WCD算法的距离表示,一个文本中词的质心到另一个文本中词的质心的距离。WCD算法的复杂度为

在做KNN时,通过使用WCD将待分类文档与样本集文档做一个快速的预计算,对计算结果进行从小到大排序,那么可以排除掉排序靠后的文档不做耗时的WMD计算。但WCD有个问题,就是这个下界太宽松,什么意思呢?就是说如6>1这个下界1与WMD为6相差有点远了,可能会造成误判。那么有没有一种紧一点的下界呢?

Relaxed word moving distance(RWMD)

RWMD的思想是将WMD模型中的两个限制条件去除一个,只留下其中一个限制条件,这样因为放松的条件限制那最小距离也会随之减小。假设去掉第二限制条件,优化目标变成了:

(式3)表示只考虑从文档出发转移到另一个文档的权重总和,不考虑另一个文档词语接收到的权重,那么很明显最优解将会是:

关于RWMD小于WMD的推导如下:定义

,即词
与另一个文档中距离最小的词
,记为
,对于单个词
来说距离为:

这样能保证每个词

都能找到一个词使距离最小(相当于回到了最初始的状态)。当去除第一个条件时,与去除第二个限制条件类似,只是他限制的是文档词
接受到的权重。记最终得到的最小文档距离分别是
,那么我们取RWMD得最终距离为
。细想一下可以得到RWMD得到的距离大于WCD的距离。因为WCD计算的是两个文档的质心距离,试想一下,两个物体的质心肯定包含在物体内部,那么两个质心的距离肯定会小于其他所有点的距离和。论文中作者也给出了三个距离的实验对比。

1bc47285a4be49855f2fd03b2ff0c2bb.png

从图中可以看到,WCD与WMD相差较大,而RWMD与WMD相距很紧。现在得到两个下界距离,应该怎么使用呢?

预取和裁剪(Prefetch and prune)

预取和裁剪是利用WCD与RWMD相配合,来缩减对基于WMD做KNN时的计算时间。具体方法如下:

1. 先用 WCD 计算待分类文档与其他文档的距离,取离它最近的

个文档;

2. 计算m个文档中前
个文档的 WMD;

3. 计算剩下文档的 RWMD,如果某个文档的 RWMD 大于 KNN列表中第
个文档的 WMD 就裁剪掉(排除),否则就计算它的 WMD。如果发现在 k-NN 列表中就更新 k-NN 列表,否则裁剪。

这就形成了最终的计算方式。通过使用Prefetch and prune缩减计算量,提高效率。论文作者通过在8个数据集上对其他7种文本表示方式进行KNN分类对比,实验表明取得的效果最好。其他7中方式分别是bag-of-words (BOW)、TFIDF、BM25、LSI (Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)、mSDA(Marginalized Stacked Denoising Autoencoder)、CCG(Componential Counting Grid)。

作者在论文中多m取不同值时在各个实验数据集上对处理速度和错误率进行了对比。

6e3808210f32c0917ec239419e9c7849.png

可以看到m分别取不同的值时,在各个数据集上的错误率以及相对于WMD提升了多少倍的速度(图中类似20X是表示提升了多少倍的速度)。

实验结果

部分对比实验结果展示如下:

b324d5d41c88ec31e3c5b8f8a0b9c54f.png
结果1

结果1展示了在8个数据集上的各种方法的在KNN分类上的错误率,可以看到WMD的表现优于其他方法。

9e3276f8c682a77cf15f83fc51cd10c7.png
结果2

结果2展示了7中方法在8个数据集上相对于BOW的平均错误率,即每种方法的平均错误率除以BOW的平均错误率。

参考资料

论文原文 http://proceedings.mlr.press/v37/kusnerb15.pdf

WMD讲解https://www.zhihu.com/question/

EMDhttps://blog.csdn.net/sinat_/article/details/

今天的文章 欧式距离计算公式_文本相似度度量——词移距离(WMD)分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2024-12-21 22:33
下一篇 2024-12-21 22:30

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/92256.html