本文是对2015年华盛顿大学发表的论文《From Word Embeddings To Document Distances》的学习总结。主要包含以下内容:
- WMD的定义
- WMD算法模型
- WMD算法优化
- WMD模型的表现/效果
文本相似度的度量在实际工程应用中有深远的意义,已经在互联网中得到广泛的应用。如:文本相似度可以用于新闻分类与聚类中,对新闻文本进行分类时,通过计算文本之间的相似度,将相似的文本分成同一个类别。文本相似还可以应用于文档检索、歌曲识别、多语言文档匹配等领域中。文本之间的相似度通常是用文本之间的距离来表示的,那么文本数据怎么计算距离?
文本表示方式
文本数据和数值型数据有很大的不同,数值型数据可以直接使用距离计算公式来计算两两之间的距离,而文本数据无法直接进行计算,所以要计算文本数据之间的距离首先要做的就是文本数值化,即用数值来表示文本。
- 词袋模型(Bag Of Words,BOW)。用一个栗子来说明什么是词袋模型,假设我们的语料库由两个句子组成,句子A为“Obama speaks to the media in Illinois”,句子B为“The President greets the press in Chicago”。则我们的词典为:["Obama","speaks","to","the","media","in","Illinois","President","greets","press","Chicago"]。那么句子A表示为:[1,1,1,1,1,1,1,0,0,0,0],句子B表示为:[0,0,0,2,0,1,0,1,1,1,1].即按照词典顺序,如果句子不包含这个词对应位置则为0,如果包含这个词,则对应位置为这个词在句子中出现的次数。
- 词频-逆文档频率(Term Frequency-Inverse Document Frequency ,TF-IDF)。TF-IDF和BOW比较类似,只是在进行句子表示的时候,不再是以句子中词出现的次数作为对应位置的数值,而是词频(TF)和逆文档频率(IDF)的组合做为数值。具体的组合方式为:
式中
在文本向量化(数值化)之后就可以使用距离度量公式计算文本之间的距离,如使用cosin距离、欧式距离等。但上述两个文本表示方法有明显的缺点,即在两个句子没有相同词语时,这两个句子通过上述方式向量化表示之后,会被认定为完全不相关,但他们可能具有相同的语意,如上面的栗子中句子A和句子B,在去除停用词之后没有相同的词,但语意相同。那这缺点怎么去解决?接下来我们看一下WMD怎么去计算文本的距离,怎么去解决上述的缺点的。
什么是WMD?
WMD是Word Mover's Distance的缩写,翻译为词移距离,是度量两个文本文档之间距离的一种方式(方法),用于判断两个文本之间的相似度,即WMD距离越大相似度越小,WMD距离越小文本相似度越大(ps:距离越大相距越远,相似度肯定小了)。那么它是怎么去计算两个文档之间的距离的?
WMD是通过将一个文档中包含的词语“移动”(travel)到另一个文档中的词语,这个“移动”过程产生的距离总和的最小值作为词移距离。举个栗子,两个短文本“Obama speaks to the media in Illinois”、“The President greets the press in Chicago”,那么从第一句子转移到第二个句子的示意图如下(已去除停用词):
针对示意图中的词移距离则表示为:distance("Obama"->"President")+distance("speaks"->"greets")+... 。那么词到词之间的距离,即如 distance("Obama"->"President")该怎么计算?很明显要计算两个词之间的距离,我们需要先进行数值化(向量化),为了解决使用BOW、TF-IDF中不同词之间毫无相关性的缺点,WMD模型采用了2013年google提出的词向量工具word2vec来表征词,通过word2vec将词语向量化后,使用欧式距离公式计算两个词语之间的距离。
Word2vec
google提出的word2vec能够将词语进行分布式表示,将词由one-hot的稀疏性编码方式转换为了稠密的编码方式。简单说就是将形如(0,0,0,1,0,0,...)的编码方式转变成了形如(0.23,0.56,0.36,0.86,...)的编码方式。这样表示过后即便是两个不同的词语,也可以计算他们的相似度。word2vec通过大规模的语料训练,通过结合上下文信息能够提取出文本中词语含有的语意特征,表现形式如下:ps:对于word2vec的训练这里不细说,内容太多...
WMD利用word2vec提取到的词语语意特征来计算两个文本之间的相似度,即以组成文本集合的词语到另一个文本集合词语的欧式距离,来表示文档之间的距离。有了词语距离的计算方式,接下来看一下WMD具体的模型是什么样的。
WMD的模型
在介绍模型之前我们先回过头来看一看图一。图一的示意图中每个词正好两两对应,即没有一对多的情况发生,但是在实际中就不会存在一对多,甚至一个词对应另一个文档全部词的情况吗?如果我们仅仅考虑距离和最小,那么每两个词之间的距离都最小则为最优解,那么肯定会出现一对多,甚至一对全部的情况。举个栗子,文档 1 中每个词都跟“音乐”密切相关;文档 2 中只有一个词跟“音乐”密切相关,其余词都跟“音乐”完全无关;文档 3 中有一个词跟“音乐”密切相关,其他词都跟“音乐”有点关系但关联性不大。那么直觉上文档1和文档3更相似,即
为了让结果合理,WMD作者提出让文档1中的词以不同的权重转移到另一个文档的所有词上,即一个词不再全部转移到另一个词,而是部分转移到另一个词,这样让另一个文档的所有词去分配该词的权重。如下图所示:
那么对于“Obama”移动到另一个文档的距离则为:ps:权重是随意假设的...
对于其他词的转移距离也是类似的。那么有一个问题,怎么确定每个转移分配到的权重合理,并且不会出现一对全部的情况(权重为0时)。WMD提出增加两个约束条件来解决这个问题。下面来看模型。
定义
(式1)中
标准化BOW表示(nBOW representation)
标准化BOW就是对BOW表示进行标准化,简单的说就是将BOW表示中的每个数值除以数值的总和,如 [2, 3, 2, 0, 0, 0, 0]标准化后得到[
词转移代价(Word travel cost)
由于WMD中词语是经过word2vec表示的,而word2vec表示后的词可以直接计算欧式距离,即
WMD求解----(Earth Mover's Distance,EMD)
WMD的求解是EMD问题的一个特例,而EMD问题实际上是线性规划中运输问题的最优解。因此可以用同样的求解方式求解。具体的方法这里不再介绍。下面对运输问题做一个描述。(ps:以下关于运输问题的描述来自于https://blog.csdn.net/sinat_/article/details/)
我们假设从多个工厂运输货物到多个仓库。在下图中左侧,P从
定义,货物从工厂
距离
- 运输过程从工厂P到仓库Q,不能反向。
- 从工厂
运送出去的所有货物重量的和不可能超过该工厂中所有货物的总重量。
- 仓库Q_{j}接受的所有货物总重量不能超过其容量
。
- 总运输量的上限是共产中货物的总重、仓库总容量总的最小值。
当仓库的总容量和工厂货物总重不一样时,我们才需要上述第4个限制条件。仓库总容量比货物总量大的话就可以全部运输了,所以这时候,运输量的上限就是货物总量。但如果货物总量比仓库总量大的话,就不能全部运输了,这时候,运输量的上限就是仓库的总容量。方便起见,本列中假设仓库的总容量和工厂货物总量一样。
那么WMD的模型基本介绍完了,接下来我们看一下WMD算法的复杂度。WMD算法复杂度为
词质心距离(Word centroid distance, WCD)
为了加快模型速度(ps:作者论文中对WMD加速方法是基于WMD算法对文本做KNN分类为下做的加速),作者提出下界(lower bound)来排除不必要的运算。基本思路是,当前精确的WMD算法太耗时,那选择一个计算速度快的下界,来排除在做KNN分类时距离太大的文档,以减少运算量。可能这个地方有点疑惑为什么是下界而不是上界。这个地方的理解是当计算两个文本之间的距离时,我们用下界的方式来计算两个文本之间的距离,但实际上的WMD距离是大于这个下界的,如果小于真实值得下界值都已经大了,那么真实距离只会更大。下界WCD的推导方法如下:
WCD算法的距离表示,一个文本中词的质心到另一个文本中词的质心的距离。WCD算法的复杂度为
Relaxed word moving distance(RWMD)
RWMD的思想是将WMD模型中的两个限制条件去除一个,只留下其中一个限制条件,这样因为放松的条件限制那最小距离也会随之减小。假设去掉第二限制条件,优化目标变成了:
(式3)表示只考虑从文档出发转移到另一个文档的权重总和,不考虑另一个文档词语接收到的权重,那么很明显最优解将会是:
关于RWMD小于WMD的推导如下:定义
这样能保证每个词
从图中可以看到,WCD与WMD相差较大,而RWMD与WMD相距很紧。现在得到两个下界距离,应该怎么使用呢?
预取和裁剪(Prefetch and prune)
预取和裁剪是利用WCD与RWMD相配合,来缩减对基于WMD做KNN时的计算时间。具体方法如下:
1. 先用 WCD 计算待分类文档与其他文档的距离,取离它最近的
2. 计算m个文档中前
3. 计算剩下文档的 RWMD,如果某个文档的 RWMD 大于 KNN列表中第
这就形成了最终的计算方式。通过使用Prefetch and prune缩减计算量,提高效率。论文作者通过在8个数据集上对其他7种文本表示方式进行KNN分类对比,实验表明取得的效果最好。其他7中方式分别是bag-of-words (BOW)、TFIDF、BM25、LSI (Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)、mSDA(Marginalized Stacked Denoising Autoencoder)、CCG(Componential Counting Grid)。
作者在论文中多m取不同值时在各个实验数据集上对处理速度和错误率进行了对比。
可以看到m分别取不同的值时,在各个数据集上的错误率以及相对于WMD提升了多少倍的速度(图中类似20X是表示提升了多少倍的速度)。
实验结果
部分对比实验结果展示如下:
结果1展示了在8个数据集上的各种方法的在KNN分类上的错误率,可以看到WMD的表现优于其他方法。
结果2展示了7中方法在8个数据集上相对于BOW的平均错误率,即每种方法的平均错误率除以BOW的平均错误率。
参考资料
论文原文 http://proceedings.mlr.press/v37/kusnerb15.pdf
WMD讲解https://www.zhihu.com/question/
EMDhttps://blog.csdn.net/sinat_/article/details/
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/92256.html