信息检索的发展历史 5分
按照一定方式组织存贮信息,并根据用户需求查找出有关信息的过程。又称信息存贮与检索、情报检索。信息的查找萌芽于图书馆的参考工作。“信息检索”一词出现于20世纪50年代 。信息检索包括3个主要环节 :①信息内容分析与编码,产生信息记录及检索标识。②组织存贮,将全部记录按文件、数据库等形式组成有序的信息集合。③用户提问处理和检索输出。关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。它按对象分为文献检索、数据检索和事实检索;按设备分为手工检索、机械检索和计算机检索。由一定的设备和信息集合构成的服务设施称为信息检索系统,如穿孔卡片系统、联机检索系统、光盘检索系统、多媒体检索系统等。信息检索最初应用于图书馆和科技信息机构,后来逐渐扩大到其他领域,并与各种管理信息系统结合在一起。与信息检索有关的理论、技术和服务构成了一个相对独立的知识领域,是信息学的一个重要分支,并与计算机应用技术相互交叉。
一、计算机信息检索的发展阶段
计算机信息检索的发展过程是与计算机技术及其它现代科学技术的发展过程紧密相关的。计算机用于信息检索始于50年代初,在40多年的发展历史中,计算机信息检索大体经历了三个发展阶段。
(一)脱机检索阶段
此阶段是从50年代中期到60年代中期。自1946年2月世界上第一台电子计算机问世以来,人们一直设想利用计算机查找文献。进入50年代后,在计算机应用领域“穿孔卡片”和“穿孔纸带”数据录入技术及设备相继出现,以它们作为存贮文摘、检索词和查询提问式的媒介,使得计算机开始在文献检索领域中得到了应用。
1954年,美国海军兵器中心首先采用IBM-701型计算机建立了世界上第一个科技文献检索系统,实现了单元词组配检索,检索逻辑只采用“逻辑与”,检索结果只是文献号,1958年,美国通用电器公司将其加以改进,输出结果增加了题名、作者和文献摘要等项目。1964年,美国化学文摘服务社建立了文献处理自动化系统,使编制文摘的大部分工作实现了计算机化,以后又实现了计算机检索。同年,美国国立医学图书馆建立了计算机数据库,即医学文献分析与检索系统,不仅可以进行逻辑“或”、“与”、“非”等种运算,而且还可以从多种途径检索文献。
这一阶段主要以脱机检索的方式开展检索服务,其特点是不对一个检索提问立即作出回答,而是集中大批提问后进行处理,且进行处理的时间较长,人机不能俯话,因此,检索效率往往不够理想。但是,脱机检索中的定题服务对于科技人员却非常有用,定题服务能根据用户的要求,先把用户的提问登记入档,存入计算机中形成一个提问档,每当新的数据进入数据库时,就对这批数据进行处理,将符合用户提问的最新文献提交给用户,可使用户随时了解课题的进展情况。
(二)联机检索阶段
此阶段是从60年代中期到70年代初。由于计算机分时技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可以通过检索终端设备与检索系统中心计算机进行人机对话,从而实现对远距离之外的数据库进行检索的目的,即实现了联机信息检索。
这个时期,由于计算机处理功能的加强,数据存贮容量的扩大和磁盘机的应用,为建立大型的文献数据库创造了条件。例如美国的DIALOG系统(DIALOG对话系统)、ORBIT系统(书目情报分析联机检索系统)、BRS系统(存贮和信息检索系统)、欧洲的ESA-IRS系统(欧洲航天局信息检索系统)等都是在此时期开始研制并逐步发展起来的,并且均在国内或组织范围内得到实际应用。
可......余下全文>>
网络信息检索及其发展趋势
一、智能化
智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近几年来,智能信息检索(intelligent information retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。
二、可视化
可视化(visualization)的历史可以追溯到2400多年前。哲学家柏拉图指出,我们通过看来识别物体。据统计,人获取信息有70%一80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。
三、简单化
未来家用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展;操作系统的用户友好性将不断增强,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任一应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”。使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展、完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。
四、多样化
多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画。目前网络信息检索的主体是文本信息,基于内容的检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。
多样化的第二个表现是检索工具向多国化、多语种化方向发展。网络的迅速发展,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。
多样化的第三个表现是网上检索工具的服务多元化。网上检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,提供站点评论、天气预报、新闻报道、股票点评、各种黄页(如电话号码)、航班和列车时刻表、地图等多种面向大众的信息服务、免费电子信箱,以多种形式满足用户的需要。无论是在国际上还是在国内,检索工具都在朝多元化方向发展,为用户提供全方位服务。
多样化还表现在网络信息检索可以间接地服务于其他行业。例如数据挖掘技
术可用于分析历史数据的变化趋势,预测未来发展方向,发现大量数据中潜在的模式规律,为投资、科研、项目评估等提供有力的依据;还可以系统地、定量地分析目前较为热门的研究发展领域及查询频繁更新的文献资料种类,可使信息中心、图书馆等信息服务机构不断调整文献资料及图书的订阅、收集工作,有的放矢,向以需求为驱动的方向发展,建立一套更为系统、科学的管理方式。
五、个性化
个性化指各网站注重内容的特色化和注重个性化的服务。
网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力。随着互联网的飞速发展,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上,并成为各个搜朋够或网站努力追求的对象。不同的打有消费者个人烙印的产品将成......余下全文>>
信息检索的作用
说明一下,如果只是简答,你只需要选取每个点的标题即可。 信息检索是获取知识、信息的基本手段。如何有效、快速、准确地在信息海洋中找到人们所需要的信息,使之成为重要资源,已是信息时代人们的重要需求,因而,信息检索技术在信息社会中将发挥越来越重要的作用。主要体现在以下几个方面:
1.能够全面地掌握有关的必要信息,增强决策的科学性
掌握一定量的必要信息,是进行研究、搞好工作的首要条件,也是进行正确决策必不可少的前提条件。科学的决策,源于对信息资料的充分了解与认识,信息检索是国家、部门、单位和个人等决策者获取信息的重要途径。因此,信息检索会使国家、部门、单位和个人的决策建立在科学基础之上,大大增加了决策的科学性,减少了决策的盲目性。
2.提高信息利用的效率,缩短获取信息的时间
信息检索可以使用户在短时间内获取有需求紧密相关的信息,使用户有更多的时间去完成更重要的工作,从而大大提高了工作效率。
3.有利于信息用户获取所需的全部信息
信息检索工作往往依存于一个或多个很大的信息库,信息库中存储着很全面的各种信息。通过信息检索工作,一次就可查获信息用户所需要的全部信息。
4.提高信息素质和科研工作的成功率
所谓信息素质,是指获取信息的强烈意识,掌握信息检索的技术和方法,拥有信息的鉴别利用的能力。信息素质的提高,可增强信息意识,熟悉检索技巧,有利于科学研究工作的顺利开展,同时可提高科研工作的成功率。
5.促进社会的进步和经济的发展
社会的进步和经济的发展,推动了信息的产生、流通和使用;反过来,信息的生产:、流通和使用方式的变革,又将促进社会和经济的进一步发展。 参考文献:【参考文献格式】陈惠兰主编. 信息检索与利用. 东华大学出版社, 2004.10. 【参考文献格式】曾民族主编. 信息服务的信息技术应用 下. 国防工业出版社, 2001.
文献信息检索是什么?
文献信息检索具有广义和狭义两种含义。广义的文献信息检索包括文献信息的存贮和查找两个眨递过程。文献信息存贮是对文献信息进行收集、标引及著录,并加以有序化编排,编制成文献信息检索系统的过程。文献信息查找是从大量的文献信息中查找出用户所需的特定信息的过程,也就是把表达用户信息需求的提问特征,与检索系统中的标识进行对比,以便从中查出一致的信息。随着计算机技术的发展,文献信息检索从手工检索进入计算机化阶段,并正向信息处理自动化和检索全文化、智能化、网络化方向发展,其检索内容、应用领域和普及范围也在迅速扩展。由于用户的信息需求多种多样,信息检索技术也在不断发展变化,进而产生了多种类型的信息检索。按检索对象可区分为数据检索、事实检索及文献检索;按检索方式区分为手工信息检索和计算机信息检索; 按检索要求区分为强相关检索和弱相关检索;按检索性质区分为定题检索和回溯检索;按检索的信息形式区分为文本检索和多媒体检索。
文献检索的发展阶段包括哪些?
文献检索随着现代技术的发展,经历了传统意义上的文
献检索(手工检索、脱机检索、联机检索)到网络检索的过程。
随着第一台计算机的出现,文献检索从50年代开始进入计算
机检索(实际上是脱机检索)阶段。到60年代末,大容量计算
机、分时技术诞生,文献检索进入了联机检索阶段。到了90年
龚,互联网络在全世界兴起,文献检索进入了网络检索阶段。
学习信息检索课程的意义是什么?
我国古代思想家、教育家荀子有言:“假舆马者,非利足也,而致千里;假舟楫者,非能水也,而绝江河;君子生非异也,善假于物也”。18世纪英国文豪、词典编撰家塞谬尔.约翰逊也说过:“知识有两类,一类是我们自己知道的;另一类是我们是我们知道在什么地方可以找到”。“工具书使用法”,“文献检索与利用”,“信息检索”之类课程就是一种“找知识”的知识课。
信息检索的作用与意义主要体现在以下三方面。
(一)避免重复研究或走弯路
我们知道,科学技术的发展具有连续性和继承性,闭门造车只会重复别人的劳动或者走弯路。研究人员在选题开始就必须进行信息检索,了解别人在该项目上已经做了哪些工作,哪些工作目前正在做,谁在做,进展情况如何等。这样,用户就可以在他人研究的基础上进行再创造,从而避免重复研究,少走或不走弯路。
(二)节省学习者的时间
科学技术的迅猛发展加速了信息的增长,加重了信息用户搜集信息的负担。许多学者在承接某个课题之后,也意识到应该查找资料,但是他们以为整天泡在图书馆“普查”一次信息就是信息检索,结果浪费了许多时间,而有价值的信息没有查到几篇,查全率非常低。信息检索是研究工作的基础和必要环节,成功的信息检索无疑会节省大量时间,使其能用更多的时间和精力进行科学研究。
(三)是获取新知识的捷径
大学生在校期间,已经掌握了一定的基础知识和专业知识。但是,“授之以鱼”只能让其享用一时。如果掌握了信息检索的方法便可以无师自通,找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,对未知世界进行探索。是谓“教人以渔”,才能终身受用无穷。
德国柏林图书馆门前有这样一段话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都是属于你的。”这里所说的“钥匙”即是指信息检索的方法。
信息检索论文/文献信息检索论文
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agen......余下全文>>
信息检索的热点
智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。知识挖掘主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。异构信息整合检索和全息检索在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。
信息检索类的论文
信息检索技术论文 –
基于网格的面向专业内容的Web信息检索
1 引言
近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针弗专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。
2 基于网格的面向专业内容的Web信息检索体系结构的设计
网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。
为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1
(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。
(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。
(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。
图1
本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。
2.1 集群系统的设计
由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,......余下全文>>