文本挖掘学习笔记(二)—词项词典

文本挖掘学习笔记(二)—词项词典第二次笔记:1.文档单位的选择:例如有一本书,我们可以将一整本书都看做一个文档(即索引单位);也可以将书中的每一篇文章都看做一个文档

第二次笔记:

1.文档单位的选择:例如有一本书,我们可以将一整本书都看做一个文档(即索引单位);也可以将书中的每一篇文章都看做一个文档。

例如,对于一个书库,我们将整本书作为一个索引单位。这时我们搜索“Chinese toys”,那么很可能返回这样一本书,在书的开头提到了Chinese,在书的结尾处提到了toys。很明显,这并不是我们所需要的结果。而我们如果用书中的某篇文章作为索引单位,得到的结果就可以排除这种情况。不止如此,我们还可以用书中的每一段,乃至于每个句子来作为索引单位。此时就存在一个“索引粒度”的问题。如果索引粒度太大,那么得到的结果中就会出现很多不匹配的结果,即正确率低而召回率高;如果索引粒度太小,那么我们就有可能错失很多可能的结果,即正确率高而召唤率低。简而言之,这就是一个在正确率和召唤率之间权衡的问题

2.词项集合的确定

词条化:定义好文档单位之后,就需要进行词条化了。词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列成为一个词条。在这个过程中,会去掉一些特殊的符号,如标段符号等。

例如:

输入:Friends,Romans,Countrymen,lend me your ears;

词条化之后输出:Friends Romans Countrymen lend me your ears

词条化的任务就是确定哪些才是正确的词条。上例只是最简单的词条化,在实际过程中有很多其他的问题,例如英文的上撇号’有几种不同的含义,而中文甚至都没有空格。

去除停用词:某些情况下,一些常见词在文档和用户需求进行匹配时价值并不大,需要彻底从词汇表中去除。这些词就是停用词。

一个常用的生成停用词表的方法是将词项按照文档集频率从高到低排列,然后手工选择那些语义内容与文档主题关系不大的高频词作为停用词。(例如英语里面的of,the,to在多数情况下可以列为停用词)。

词项归一化:词项归一化就是将看起来不完全一致的多个词条归纳成一个等价类,以便在他们之间进行匹配的过程。

词项归一化有两种常用方式是:

一、隐式地建立等价类,每类可以用其中某一个元素来命名。例如:把词条 anti-discriminatory 和 antidiscriminatory 映射成词项 antidiscriminatory。这样对两个词中的任一个进行搜索,都会返回包含任一词的文档。这样做的好处是不需要给出全部的等价元素,只需要预先定义好映射规则,就可以构成等价类集合。当然,这样做的缺点很明显,不能灵活的增加一些规则之外的词条。

二、维持多个非归一化词条之间的关联关系。该方法可以扩展成手工建立同义词词表,例如car和automobile就是同义词,建立等价类明显不适用于这种情况,这时就需要手工建立词表了。

常用的方式是采用非归一化的词条进行索引,并未某个查询项维护一张包含多个词的查询扩展词表。(即两种方式结合使用)。

词干还原和词性归并

词干还原和词性归并的目的都是为了减少词的屈折变化形式,例如:

am,are,is => be

car,cars,car’s,cars’ => car

词干还原指的是一个很粗略的去除单词两端前缀的启发式过程,并且希望大部分时间它都能大道这个正确目的。而词性归并通常指利用词汇表和词性分析来去除屈折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词元。

两者的区别在于词干还原更粗糙,只是简单的去掉前后缀进行还原,而词性归并则是利用词义进行还原。例如saw,词干还原之后的结果可能是s,而词性归并的结果则可能是see或saw(视上下文而定)。

网上有许多词干还原和词性归并的工具,例如porter算法、Lovins等词干还原工具;paice等词性归并工具。

今天的文章文本挖掘学习笔记(二)—词项词典分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/65897.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注