目录
1 简单的定义
基本概念:数据、信息、知识、智慧、信息检索、信息生命周期
(一)广义的信息检索(信息组织+信息检索)
定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合
信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合
(二)狭义的信息检索
定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程
发展历程
- 图书目录和文摘、索引(手工检索)
- 以印刷型文献为主要检索对象
- 以各类文摘、题录和目录型工具书为可利用的主要检索工具
- 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
- 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
- 以各类机读数据库为检索对象
- 各类信息中心、联机服务中心作为信息服务部门
- 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
- 网络化检索
- 以WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
- 以搜索引擎为主要检索工具
- 信息用户多为终端用户
- 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)
2 信息检索技术与方法
(一)文本信息检索
常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等
布尔检索
- 算符含义
逻辑或OR:A OR B
逻辑与AND:A AND B
逻辑非NOT:A NOT B
逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献
- 优先级
- 同级运算自左向右
- AND和NOT先执行,OR后执行
- 检索式中如果包括其他检索技术的算符,布尔运算最后执行
加权检索
- 加权检索的定义和示例
- 加权检索是对布尔逻辑检索的一种扩充
- 加权在标引及检索阶段都可使用
示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)
- 加权检索优缺点
- 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
- 缺点:提问表达式烦琐,权值确定比较困难
截词检索
- 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
- 截词检索有多种类型
按照截断位置分:后截断(主要方式)、前截断和中截断
按照截断的字符数量分:有限截断和无限截断
限制检索
方式:字段检索、二次检索、其他方式的限制
位置检索(区别于字段检索)
针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配
主要方式:邻接检索、同句检索、同字段检索、同记录检索
聚类检索
聚类检索起源于向量空间模型
针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行
其他文本辅助检索技术
信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处 理(排序输出/联机聚类/去重合并)
(二)多媒体信息检索
特性:集成性/交互性/独立性
音频信息
- 关注音频声波的数字化问题;
- 采样、量化、编码和压缩等;
- 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)
图形与图像信息
- 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)
视频信息
- 外部特征+内容特征的标引(简单文本转化)
- 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索
3 信息检索系统结构和功能模块
(一)信息检索系统基本结构
- 系统结构:指系统的组成及各组成部件之间的关系
- 基本结构:集中式与分布式
- 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
- 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
- 逻辑结构
- 信息组织模块:资源采集——信息标引——数据库创建
-
信息检索模块:用户界面——提问处理——检索匹配
-
- 信息组织模块:资源采集——信息标引——数据库创建
(二)信息组织各功能模块
- 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
- 信息描述与标引处理
- 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
- 信息描述规则往往需要先行制定
- 标引分为人工标引和自动标引
- 人工标引多依赖词表和规范工具;
- 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
- 数据库创建与维护
- 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统中
- 常见的数据库有文献型数据库和非文献型数据库
- 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
- 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库
(三)信息检索各功能模块
- 理解用户界面
- 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
- 检索匹配
- 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型
- 经典模型包括布尔检索模型,向量空间模型,概率模型
(四)知识组织工具(作用)
- 表达:信息资源特征,及用户信息需求
- 组织:以达到资源的系统化和有序化
- 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
- 关联:知识之间的相关性得到明确表征并能够被 机器理解处理
(五)信息检索系统结构实例分析
|
图书馆数目检索系统 |
搜索引擎 |
知识图谱 |
信息选择与采集 |
采访部门负责选择,采集以购买为主 |
爬虫为主 |
依据前期设计好的知识建模进行 |
信息描述与标引 |
外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行 |
半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等 |
采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建 |
索引与数据库 |
传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善 |
自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库 |
知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询 |
信息检索模块 |
多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的 |
需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理 |
语义查询方式,并重视知识推理和自动问答等的应用 |
4 信息采集(这里没有具体程序噢~)
信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:
- 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
- 非结构化:所有格式的文本、图片、音频/视频信息
- 半结构化:介于二者之间的,具有一定结构,但语义不够确定
5 信息描述(重点)
(一)理解信息描述
- 信息描述:信息著录、信息编目
- 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
- 结果:一条由多个描述项目构成的关于该信息资源的数据
- 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
- 作用
- 识别:个别化描述,区别其他信息
- 选择:通过特征判断资源利用价值,决定是否选择
- 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
- 定位:传统文献排列位置、数据库位置、网络地址等
(二)传统文献信息描述
- 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
- 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡片
- 目标:标准书目国际交流,实现资源共享(三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式
MARC(机读目录)
- 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
- 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
- 基本格式:每一条记录都由四个部分构成
- Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
- Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
- DataFields(数据字段区):各种描述数据
- 记录分隔符(由计算机给出):记录结束符
- 数据字段
- 数据字段区划分成10个功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
- 标识符号(三类)
- 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
- 指示符:两位数字或者字母组成,提供附加信息
- 分隔符:自动生成
(三)数字化信息描述
元数据
定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据
类型分类
- 描述信息资源领域:书目、档案、政府出版物、地图等
- 描述文献对象分:传统文献资料;数字化信息资源
- 对信息资源作用或功能分(CLC)【使用范围】:
- 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选)
- 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
- 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转)
- 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定)
- 常用元数据标准
- 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
- 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
- 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
- 元数据互操作
- 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
- 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射;
- 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化
(四)信息描述需要注意的问题
- 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
- 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享
6 信息标引(重点)
(一)信息标引的目的
- 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
- 标引类型
- 标引主体:人工标引和自动标引
- 标引标识的不同形式:分类标引和主题标引
- 标识是否规范控制:受控标引和非控标引(自然语言标引)
(二)信息标引的方法
标引分类
- 人工受控标引
- 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
- 自然语言自动标引
- 汉语分词问题——歧义
- 交集型歧义:结合成分子;我研究生期间是研究生物的
- 组合型歧义:请把手拿开
常见的中文分词方法
- 基于规则的分词方法(机械分词方法、基于字典)
- 三个要素:分词词典、文本扫描顺序、匹配原则
- 扫描顺序:正向扫描、逆向扫描和双向扫描
- 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
- 基于统计的分词方法
- 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
- 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
- 基于语义的分词方法
- 对自然语言自身的语言信息进行更多的处理
- 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
- 基于理解的分词方法
- 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象
标引标识
三个要素:分词子系统、句法语义子系统、总控部分。
- 词典分词
- 单汉字标引
- 从分词结果到标引标识
不是所有词都直接转换为标引标识
词频:词在文献中出现的次数(一篇,一类文档)
词性:名词常是有意义的
逆文本档频率:在所有文档中统计词的频率
位置:论文篇名,摘要,正文出现的词
加权:词的权重
- TF-IDF
- TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
- IDF:逆文件频率,公式=log(语料库的文档总数/(包含词条w的文档树+1))
应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO
(三)信息标引和信息检索结果
信息标引标识的数量
信息标引标识是否受控
信息标引标识粒度
不同语种的处理差异
7 信息存储(重点)
(一)理解资源库
概念:关系型数据库
(二)理解索引
索引由来
索引组成的基本单位是索引款目,所有索引款目实现有序化编排
款目一般包括索引词、说明或注释语、出处 3项内容
其本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引
关系型数据库索引
索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构
索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等
索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构
全文索引
创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引
查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)
(三)倒排索引及构建
顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)
倒排索引的创建流程
收集需要索引的文档
将每篇文档转换为一个个词条(token):自然语言分词
进行语言学预处理,产生归一化词条作为词项
对所有文档按照其中出现的词项建立倒排索引
词条问题的解决
词条归一化:隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)
词干还原stemming和词形归并lemmatization
单词词典
- 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
- 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
- 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
- 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。
数据结构
常用的数据结构包含哈希加链表和树形词典结构等
今天的文章信息检索系统的结构_信息检索黄如花答案[通俗易懂]分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/67115.html