【信息检索教程】【01信息检索基础】【背诵】

信息概述

信息(广义狭义)
零次信息(口头)
一次信息(未整理)
二次信息(有序化)
三次信息(分析、加工、综合研究)
信息检索(广义:存储和检索 狭义:检索)信息需求与信息集合的匹配
如何理解信息的分类(加工程度、媒体类型、内容、出版发行特点)
信息检索系统及其分类(手工、计算机)
信息检索方法(直接浏览法、常用法、追溯法、综合法)
信息检索效果评价的指标(查全率、查准率、漏检率、误检率)
影响信息检索效果的因素(著录标引质量、检索语言性能、检索途径数量、检索策略优略、检索人员素质)

信息的含义(广义狭义)

广义信息自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种普遍形式。信息的本质上——信息是事物自身(显示其存在方式或运动状态)的属性,是客观存在的现象。狭义信息——经过搜集、记录、处理和存储的可供检索的文献,数据和事实。它是人类对客观事物的认识,是实践经验的总结,是认识的结果,是检索的对象

信息链(补充 09华师名词)

information chain——由事实facts→数据data→信息information→知识knowledge→智能/情报intelligence五个链环构成的。事实、数据、信息、知识、情报/智能五个链环组成信息链。
在信息链中,信息的下游是面向物理属性的,上游是面向认知属性的。作为中心链环的信息既有物理属性也有认知属性,因此成为信息链的代表称谓
信息>知识>文献

信息的特征 8个

可存储性、 可传递性 、可转换性、可处理性、可共享性、可识别性、依附性、普遍性。信息的两种基本状态:可存储性和可传递性

  1. 可存储性——可以有意识地将流动的息以某种方式存储在物质媒介上,构成稳态结构以供利用
  2. 可传递性——有空间传递和时间传递等不同类型,依赖物质载体,具有动态性和方向性的特征
  3. 可转换性——表现在两个层面。信息在一定条件下可转化成物质,能量,金钱等其他东西,这种转换主要依靠人类对信息的正确利用。信息可以从一种形态转化成为另一种形态,自然信息可以转换为语言,文字和图像,也可以转换为电磁波信号或计算机代码。
  4. 可处理性——分类、整序、分析、综合和压缩、扩充等加工处理
  5. 可共享性——同一信息可以同时被许多人共同享用
  6. 可识别性——直接、比较和间接识别等方式
  7. 依附性——信息无法脱离物质而独立存在。信息与物质载体构成一个整体。信息载体泛指一切载有信息的物质载体。
  8. 普遍性——信息是物质的基本属性,物质的普遍存在导致了信息的普遍性

信息的功能

在这里插入图片描述

信息的类型

在这里插入图片描述
基于广义信息概念的信息分类
信息的产生(社会、自然)社会实践活动、自然界
信息的运动状态(自在、自为、再生)未被把握和反映、已被把握、经过加工向外界输出

基于狭义信息概念的信息分类

  1. 媒体类型(印刷、缩微、视听、机读)
    印刷型信息——以纸张为媒介,如报纸、杂志
    缩微型信息——以感光材料为媒介,如微缩胶卷卡片
    视听型信息——存储在磁带、光盘载体中,由计算机输出提取
    机读型信息——电影、唱片、幻灯、录音带

  2. 按照信息的加工程度分(零次、一次、二次、三次)

【零次信息】人际交流中口头携带和传播的信息,产生于交流过程

特点

  • 选择性和针对性较强,交流速度快,反馈及时
  • 偶然性大,而且未经记录和加工,不便于积累于检验,获取难度大

【一次信息/原始信息】未经过加工或粗加工的原始信息资源,是人们在社会实践活动中直接产生或得到的各种数据、概念、知识、经验及总结

特点

  • 数量庞杂且分散无序
  • 内容比较具体、丰富,具有新颖性、创造性、系统性等特点

【二次信息/检索工具】对一次文献进行加工整理使之有序化形成的信息。
二次信息的主要表现形式有目录、文摘、索引等,有时也称二次信息为检索工具

特点

  • 易于存储检索传递和使用,具有较高的使用价值。具有浓缩性、汇集性、有序性、系统性、工具性等特点。具有传递、报道信息的功能

【目录】指对图书、期刊或其他单独出版文献的特征进行揭示和报道,并按照一定的方法加以编排的二次信息。
【文摘】以单篇或单本文献为报道单位,不仅记录一次信息的外表特征,还要客观地阐明深入的信息内容,是对原始信息的浓缩,有助于我们对原文的了解。
【索引】是将原始信息中的各种知识单元进行抽取,按照一定的原则和方法进行排列的二次资源。这些知识单元可以是篇名、人名、名词术语、关键词、分子式等等。二次信息具有传递信息、报导信息的功能,更重要的是为查找一次信息提供线索。它具有系统性、工具性等特点。

【三次信息】对零次、一次、二次文献进行分析、加工、综合研究后而成的信息

特点

  • 信息量大、综合性、系统性强系统性好、参考性、针对性等特点

综述——将大量分散的有关特定课题的文献、事实和数据进行归纳、分析、综合、筛选。以简练的文字扼要叙述出来,内容十分开过,述而不作是撰写综述的一般要求。综述要客观全面的整理,分析。
述评——针对某一学科或者某一问题,全面系统的总结各种情况、观点和数据,并给予精辟的分析评价。有述有评是述评最为突出的特点。

一次文献:期刊论文、技术报告、学位论文
二次文献:加工整理简化排序(大多数的检索工具)
三次文献:综述、评论、分析或预测发展趋势
期刊文献型(xx综述、现状、进展、述评、评论)
图书文献型(参考工具书:辞典、百科全书、年鉴、手册)

  1. 按信息内容(经济、科技、政务、文化、教育、军事)

  2. 按信息出版发行特点(出版正式、非出版正式)

【出版正式信息】图书、期刊、报纸等
期刊 periodical (杂志 journal、连续出版物 serials)
是一种具有统一名称、固定版式、统一开本、连续编号,汇集多位著者的多篇著述,定期或不定期编辑发行的出版物

期刊的主要检索工具(数据库)
文摘数据库:题录、摘要、语言、作者、关键词
题录:题名、著者、出处等,描述文献外部特征的条目

  • 中文期刊全文数据库——《中文科技期刊全文数据库》(维普)、《中国期刊网全文数据库》(CNKI、知网)、《中国数字化期刊群》(万方)、中国国家科技图书文献中心(NSTL)的期刊数据库、读秀等
  • 外文期刊文摘数据库 SCI(ISI Web of Science)
  • 外文期刊全文数据库 Springer、ProQuest Library

【半/非正式出版信息】——特种文献/灰色文献 不经过公开出版物 流通渠道、不大量发行、为一部分用户使用的内部文献信息资料会议文献、学位论文、政府出版物、研究报告、档案、专利文献、标准文献等

网络环境下的信息变化

在这里插入图片描述

因特网对信息的影响

  • 因特网引发了信息新的出版形式——网络出版,形成了新型的网络信息资源
  • 因特网使人类传统的信息交流方式发生了根本性的变化
  • 因特网推动了信息处理技术发展

网络环境下信息的新特点

  • 信息类型多样化
  • 信息的数量和内容都得到了极大的丰富
  • 信息在分布上呈现出明显的分散性
  • 信息共享程度提高

信息检索的概念

在这里插入图片描述
广义概念:将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,全称信息的存储与检索。从广义上讲,信息检索包括两个过程
一是信息存储(information storage),即信息的标引、加工和存储过程
二是信息检索(information retrieval),即信息用户的查找过程
狭义概念:仅指信息获取。实质上是实现信息需求与信息集合的匹配

通过一定的方法从已存储的信息中检索出与用户提问相关的文献、数据、事实的过程,即根据用户的特定要求找出所需信息的过程。

信息检索的原理

  • 信息检索原理是将特定的信息需求存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出
  • 检索系统对所要存储的信息,按照其外部特征和内容特征进行描述并赋予特征标识,然后存入系统;检索时,将所需信息的特征标识所存信息的特征标识进行比较。凡是两边标识一致的,就将具有这些标识的信息从检索系统中输出。

信息检索方法/特点

直接浏览法:直接阅读原文浏览最新目次(不全面、不系统、局限性大)
常用法:(顺查法、倒查法、抽查法)顺查法(查全率提高、由远及近)倒查法(效率高、由近及远)抽查法(效率高、效果好)
追溯法:(已有所列,参考追溯)(检索工具不全,可达到一批相关文献关系较小较远,参考价值不大)
综合法:常用追溯法,全面准确效果好

信息检索类型

  1. 按存储与检索对象(文献、数据、事实)
  2. 按存储的载体和实现查找的技术手段(手工、机械、计算机)
  3. 检索途径(直接、间接)

类型

  • 文献检索Document Retrieval (相关性检索)
  • 数据检索Data Retrieval (确定性检索)
  • 事实检索fact Retrieval (确定性检索)

信息检索的意义

  • 是有效利用信息资源,实现其最大价值的科学方法
  • 再学习的工具,是获取知识的有效途径
  • 有效提高科研工作效率,节省人力物力时间

信息检索的发展趋势

  • 传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力
  • 信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织能力

信息检索系统

information system
信息检索系统的概念根据特定的信息需求而建立起来的一种有关信息搜集、加工和检索的程序化系统。主要目的是为人们提供信息检索服务。(工具书、数据库或搜索引擎等)
组成要素信息、检索技术设备、检索语言及方法

信息检索系统包括信息的存储和获取,分别对应信息的输入和输出过程。
存储部分的主要功能是通过著录标引,编制检索工具,建立数据库手段使信息有序化;
检索部分的主要功能是通过检索策略实现利用者提问与信息的有效匹配
信息输入:标引是信息的组织和管理过程中最重要的环节。标引即通过对信息的分析,选用确切的检索标示,用以反映该文献内容的过程。标引完成后,信息就进入某种形式的数据库,而标引记录则进入二次信息数据库,在二次信息数据库中,按便于检索的方式,对标引加以组织
信息输出:用户群向信息中心交送提问,中心的工作人员则为其编制检索策略,或者由用户直接对信息检索系统提问,标准检索策略。

检索策略的编制

包括概念分析和转换两个步骤

  • 对用户提问进行分析,确定用户实际上找的什么
  • 把概念分析转换成词汇,转换成系统语言的提问,并将检索提问以系统系统认知的检索式表达出来

检索策略编制完成后,就以某种方式将其事先存储好的数据库进行匹配,再将结果返回给提问者

信息检索系统的物理结构和逻辑结构

物理结构:

  • 硬件:计算机、外围设备、与数据处理/传递的其他设备
  • 软件:计算机程序,控制各部分协调工作。并完成各项功能程序和各种数据
  • 数据库:存放于计算机存储设备中的数据集合

检索系统的构成(02北师)
具有对信息的输入、存储、处理、输出、控制功能。6个主要的子系统
逻辑结构

  • 信息选择子系统(搜集相关信息资源)
  • 信息索引子系统(分析基础上,选择正确的信息标识)
  • 词表管理子系统(管理和维护已有词表,支持用户的各种词汇查询工作)
  • 检索子系统(进行检索)
  • 用户同系统之间交互子系统(与用户交流,明确用户的真实信息需求)
  • 匹配子系统

信息检索系统的分类

手工检索系统(书本式和卡片式)和计算机检索系统(硬件、软件、数据库)
手工检索系统:以印刷型检索工具为基础
书本式:目录、索引、文摘、百科全书、年鉴、手册
卡片式:书名目录、著者目录、分类目录、主题目录
计算机检索系统:硬件、软件、数据库组成
数据库:database,至少一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。分为参考数据库和源数据库两种。
参考数据库:书目数据库(二次信息数据库)/指南数据库
源数据库:数值数据库/文本-数值数据库/全文数据库/术语数据库/图像数据库/多媒体数据库

参考数据库:为用户提供信息检索的数据库,指导用户获得原始信息。包括书目数据库和指南数据库

信息检索效果评价

信息检索系统不断趋于完善的重要依据。获得让客户满意的检索效果是每一个信息检索系统追求的目标,而系统本身又无法完成自我调节需要外在环境的监督和指引。通过检索效果评价,可以准确地掌握系统地各种性能和水平,找出影响检索效果的各种因素,从而有的放矢地改进系统地性能,提高系统地信息检索能力。

信息效果评价主要从三个方面进行(07华师 简答)

检索结果有效性,检索系统实用性、检索费用——效率评价

  • 检索结果有效性评价,主要以查全率和查准率为评价标准;
  • 检索系统实用性的评价,包括系统对用户是否需要,是否实用,有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法;
  • 检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。

信息检索效果评价的意义

信息检索效果是指信息检索系统检索的有效程度,它衡量了检索结果对用户需求的满足程度,是检索系统性能的直接反映。

检索系统评价的作用

  • 明确系统当前性能特征,从而科学实际、最大限度发挥系统的功能
  • 发现系统现存的缺陷及其原因,提出改进意见或其他对策
  • 为设计和建立新的检索系统提供参考

信息检索效果评价的指标(06华南师范比较)

主要有六个:收录范围、查全率、查准率、响应时间、用户负担和输出形式

查全率
反映出信息检索系统检出相关文献信息的能力。
查全率 = [检出相关文献信息量/检索系统中相关文献信息总量]×100% = [ a /(a + c)]×100%

查准率
它反映出信息检索系统的精确度,说明系统排除干扰,减少噪声的能力。
查准率 = [检出相关文献信息量/检出文献信息总量]×100% = [ a /(a + b)]×100%

误检率 = [误检文献信息量/检出文献信息总量]×100% = [ b /(a + b)]×100%

漏检率 = [漏检相关文献信息量/检索系统中相关文献信息总量]×100% = [ c /(a + c)]×100%

响应时间指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间。响应时间越短,查全率和查准率越高,那么信息检索的效果就越好。

影响检索效果的因素

(重点理解各个方面的因素是如何影响检索效果的)

  • 标引的质量
  • 检索语言的性能
  • 检索途径的数量
  • 检索策略的优劣
  • 检索人员的素质

解释

  • 标引准确性关乎信息检索查全率和查准率
  • 性能好的检索系统语言可以提高档案,检索系统的性能和质量。词表结构响应检索,词表影响标引
  • 适当增加检索途径有利于提高系统的查全率,但是检索途径过多,会加重各级系统的负担,降低查准率
  • 检索策略在查找中起决定性的作用
  • 对于检索效率有直接影响。检索人员的基本素质是有一定科学文化知识水平和检索技能两方面
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章