什么是语义相关_潜在语义分析

什么是语义相关_潜在语义分析SemanticSimilarity语义相关性先上个栗子编个码开始相似度计算了(SimilarityCalculation)引用先上个栗子有这么一坨文字…andthecutekittenpurredandthen……

先上个栗子

有这么一坨文字
… and the cute kitten purred and then …
… the furry cat purred and miaowed …
… that the small kitten miaowed and she …
… and loud furry dog ran and bit …

上面加粗标记的 咱们先叫它们 中心词

在去除了stop words(如 and, then, that, she 之类没啥用的词)之后,我们得到了对于上面那坨文字的基本单词表 – [bit, cute, furry, loud, miaowed, purred, ran, small]

于是乎那些中心词的 上下文单词(context words) 就相应滴是:
kitten 对应 cute, miaowed, purred, small
cat 对应cute, furry, miaowed
dog 对应load, furry, ran, bit
在这里插入图片描述

编个码

用这个基本单词表结合one-hot编码来表示那些中心词,于是每个中心词就会变成一个8维的向量(因为这个基本单词表一共就8个词)
结合单词表[bit, cute, furry, loud, miaowed, purred, ran, small]
就得到了:
kitten = [0, 1, 0, 0, 1, 1, 0, 1]
(即没有的词为0,有对应的词,为1 [ _, cute, _, _, miaowed, purred, _, small])
同样滴:
cat = [0, 1, 1, 0, 1, 0, 0, 0]
dog = [1, 0, 1, 1, 0, 0, 1, 0]

这种编码就当是词一种表现方法了(Word Representation)

开始相似度计算了(Similarity Calculation)

上面的编码形式不知道对不对,但是好不好咱们可以算一算。
我们希望kitten和cat之间的距离相对小,而cat和dog之间相对大(因为kitten和cat的意思差不多,cat和dog就差大了)
我们用cosine这个函数来衡量(由向量的点乘公式而来,其中u和v都是向量)
在这里插入图片描述
similarity(kitten, cat) = consine(kitten, cat) = 0.58
similarity(kitten, dog) = consine(kitten, cat) = 0
similarity(cat, dog) = consine(kitten, cat) = 0.29

这个consine值越大,说明越有关系。

引用

引用自秦曾昌老师自然语言处理课程第五课。

======== 欢迎大家指正 ========

今天的文章什么是语义相关_潜在语义分析分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:http://bianchenghao.cn/87585.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注