摘要:本文介绍了跨库检索技术产生的原因和相关概念,并对目前跨库检索技术的分类,跨库检索的原理,以及目前存在的问题进行了论述。
关键词:数字图书馆 跨库检索技术 检索原理
1.阮氏的图书馆五定律和跨库检索技术的缘起
早在1931年,印度著名图书馆学家阮冈纳赞就提出了后来广受业界赞誉的图书馆五定律。“五定律”对图书馆工作的基本规律进行了概括,把“以读者为中心”作为图书馆一切工作的出发点和落脚点。“节约读者的时间”就是其中非常重要的一条,对图书馆的服务提出了明确的要求。诚然,网络数据库的出现改变了读者的检索方式和检索习惯,大大提高读者的检索效率,节约了读者的时间。但是,随着数字图书馆建设的不断深入,图书馆自建和外购数据库的数量越来越多,由于下面的一些原因,读者的检索效率正在下降。
1.1数字资源数量的增加,增加了读者选择和熟悉数据库的时间
目前的很多图书馆,尤其是一些大馆,提供给读者使用的网络数据库少则几十种,多则上百种,甚至几百种。读者面对如此众多的数据库资源有一种眼花缭乱的感觉,不知道在哪些数据库中才能找到自己需要的资源。由于各个数据库数字资源描述和表达方式的不同,导致了检索途径和方法的不同,再加上使用不同的检索软件而造成的数据库检索接口不同,风格迥异,同样的查询题目,读者需要频繁登录与退出各个数据库,在不同的数据系统中重复输入检索词,重复查找。在这过程中,读者需要根据自己查找内容的学科方向,选择涵盖该主题的数据库,选择了数据库以后,还要逐个熟悉各个数据库的用户界面和检索规则等。这些无疑都会增加读者检索的时间,降低了其检索效率。读者数量比较多的时候,还可能造成系统端口的堵塞,降低数据库的访问效率。
1.2数据库内容的交叉重复,增加了读者信息鉴别和去重的时间
由于数据库的建设目前缺乏统一的规划,数据库信息内容的收集完全由数据库商自己来决定。各个数据库商为了提高自己的市场占有率,尽力将数据库做大做全,这就造成了不同的数据库产品内容交叉重复的现象还比较严重。比如,清华同方的期刊数据库和维普科技期刊数据库,据笔者2003年的统计,前者收录5300多种期刊,后者收录期刊总数约有8000种,但二者有超过1500多种的期刊是重复收录的。超星数字图书馆、方正电子图书数据库、书生数字图书数据库之间图书重复的数量也为数不少。由于收录范围、回溯年限等方面的限制,各数据库很难将自己侧重领域的文献收录全面,读者要想获得自己需要信息,就必须查找多个数据库,但各数据库之间内容的交叉重复,又使得读者必须花费大量的时间去鉴别和去重,检索效率也因此大大降低。
1.3数据库知识的关联度较低,增加读者知识衔接的负担
人类知识本来是一个联系非常紧密的有机整体,而现有数据库系统内的数据对象大都是孤立存在的,无法体现学科知识的内在联系。比如,书刊目录信息和电子全文之间缺乏必要的联系,论文引用文献和被引文献之间也缺乏有效的关联等,同一主题的内容很难按照知识组织的形式紧密地联系在一起。因此,读者需要通过馆藏书刊目录,了解纸制文献的情况,还要到电子数据库中查找期刊全文或电子图书的全文,看到文后的参考文献,还需要利用其作为检索词,重新检索浏览那些文献。要想将这些知识有效的衔接起来,读者需要在不同的网络环境之间穿梭漫游,在不同的信息空间来回切换,并掌握不同检索软件的使用方法,这无疑增加了读者获取有效信息的时间成本。
综上所述,从某种意义上讲,数据库资源的数量越多,给读者造成的负担也就越重,这和五定律中“节约读者时间”的要求是相悖的,读者这方面的呼声也非常高。跨库检索技术的出现和发展则是解决这个问题非常有效的方法。因此,跨库检索技术引起了国内外图书情报界和图情企业界的广泛关注,多种相关的解决方案和跨库检索系统也应运而生。
2.跨库检索的相关概念
跨库检索(Cross-Database Search)已经成为国内外图书馆、IT企业的研究热点,单从相关名称的提法就可以看出来。在推出其产品的同时,各企业也都会给其冠以不同的名称。比如,联邦检索(Federated Search)、多数据库检索(Multi-DatabaseSearch)、集成检索(Integrated Access)、统一检索(Single Search)、一站式检索(One-Stop searching)等。但是仔细看来,尽管各产品的名称有些差异,实际上要实现的功能却相差无几。因为“跨库检索”在业界使用较多,笔者也沿用这个名称。跨库检索系统是采用跨库检索技术的系统,它向用户提供了统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发的检索本地和互联网上的多个分布式异构数据库,并对检索结果加以整合,在经过去重和排序以后,以统一格式将结果呈现给用户,而且这一过程用户只需要以单一身份、单次登录和单一的检索方式就可以实现。从实现原理上来说,元搜索引擎也是一种典型的跨库检索。但是,李广建和张智雄两位先生在对国外的跨库检索系统的研究项目调查后,认为由于元搜索引擎的“检索对象仅为网页和网站,不包括网络数据库,故国外的通行做法是将其归如搜索引擎,而不属于跨库检索”[1]。
3.跨库检索产品的种类
3.1 从可检索的数据库的类型角度,可以分为目录型跨库检索系统、文摘型跨库检索系统、全文型跨库检索系统以及混合型跨库检索系统。目录型跨库检索则主要是以互联网上不同操作平台、不同自动化系统的图书馆OPAC为检索对象。比如:中国人民大学图书馆的书目整合检索系统[2]、上海交通大学图书馆的多节点数据库检索[3]、我国台湾“国家图书馆”Z39.50联合目录[4]、汇文的一站式检索等。文摘型跨库检索系统则是以ISI Web of Knoledge为代表,主要检索的数据库类型是文摘型数据库。全文型的跨库检索系统则比较多,目前市场出现的决大多数产品都属于此类。国外的产品有WebFeat公司的WebFeat,Fretwell-Downing公司的Zortal,ExLibris公司的Metalib,Copernic公司的Aggregator,Endeabor公司的ENCompass等,国内则有清华同方(USP)、重庆维普、南京优康、浙江天 宇、北京拓尔思(TRS)、Calis、中科院文献情报中心等单位都有相关的产品被使用。混合型则是指检索的对象包括目录、文摘、全文、搜索引擎等在内各种类型的信息。目前,大多数跨库检索系统都在向这种类型过渡。
3.2从应用软件的可否复用角度,可以分为成品型跨库检索系统和构件型跨库检索系统。成品型跨库检索系统一般由软件开发商以成品形式提供,在交付图书馆使用之前,软件开发商已经将该系统能够检索的数据库已经做了配置。图书馆购买后,不需要繁琐的配置就可以直接使用,对于没有被配置的数据库,图书馆不能对其进行扩充,而且系统提供的各项功能,图书馆也不能在其基础上继续开发,也就说不能被复用。目前各软件商开发的跨库检索产品大多数都属于这种。与成品型跨库检索系统不同,构件型跨库检索系统不但提供了比较强大检索功能,更为重要是其支持用户自定义配置网络数据库资源。购买该应用软件以后,图书馆可以在其基础上继续开发,也就是说可以被复用。这种产品的典型代表是上海金鑫公司的研发的跨库检索构件。[5]
3.3从系统开发者的角度,可以分为图书馆自开发型跨库检索系统和引进的商用型跨库检索系统自开发型跨库检索系统是利用本馆的技术力量或者主要依靠本馆的技术力量并采取一定的合作形式,开发出完全符合自己的跨库检索系统,能够将引进的数据库和自建的数据库等集成到系统中。目前自开发型的跨库检索系统有很多,比如上面所提到的基于Z39.50的OPAC的跨库检索系统大多数都是各馆自己开发的,其他类型的则有美国新墨西哥州洛斯阿拉莫斯国家实验室研究图书馆的FlashPoint、美国加利福尼亚大学为其数字图书馆项目开发的SearchLight、美国国立医学图书馆下属的李斯特希尔国立生物医学交流中心研发的NLM Gateway、OCLC Research的OCLC SiteSearch[1]、西安交通大学、华中科技大学的跨库检索系统、中科院文献情报中心的CrossSearch等。但是并不是所有的图书馆有这种技术力量和精力来开发自己的跨库检索系统,而且各馆采购的数据库很大一部分都是相同的,因此这就给商用型跨库检索系统提供了机会。开发商只要在其产品中集成了各馆使用比较普遍的数据库资源,就可以满足绝大多数图书馆的需要。图书馆只要付钱就可以使用这些现成的产品。这类产品非常多,上面提到的Metalib、ENCompass、TRS、USP等都属于这一类。
4.跨库检索系统工作原理
虽然不同的网络数据库检索界面和检索方式等各不相同,但是也存在相似性,如检索途径、显示格式等这些基本功能都具备,大多数系统都支持布尔检索等,如果将这些相似性形成统一的参数数据表,构成统一的检索界面,共享多个网络数据库的索引技术和检索技术是可以实现的,不然,也就不会有跨库检索系统了。跨库检索的实现有许多方法,比如通过数据库接口软件与不同的数据库直接连接、不同数据库间的格式转换等。但最常见的方式是通过中间件的形式来实现的。用中间件实现的异构数据库跨库检索系统一般来讲可以分为三个部分:(1)统一检索界面。它的主要功能为:以账户和密码登录或IP检测的方式实现读者的身份认证;接受读者输入的检索要求;允许读者选择自己需要的数据库或者选择所有的数据库,选择排序方式等;给读者使用该操作系统提供相关的说明、要求和帮助等;将跨库检索系统查询的结果显示给读者;(2)数据处理系统。它的主要作用是:按照检索系统的要求,对读者输入的检索词和构建的检索式进行一定的规范,然后将检索要求(检索指令)提供给中间件进行下一步的处理;接收中间件从各个数据库获取的结果;对接收自各中间件的数据进行相应处理,包括数据合并、去重和排序;可以按照统一检索界面读者选择的其他排序要求进行重新排序等;(3)中间件。中间件是20世纪80年代末90年代初发展起来的基础软件,是一种构建网络分布式应用系统的重要支撑工具,其主要功能是解决网络分布计算机环境中多异构数据资源的互联共享问题,实现多种应用软件的协调工作。它的主要功能是将读者输入的检索词、检索式按照各个数据库的要求转换成其能够接受的检索式和检索指令,提供给各个数据库进行检索;获取各个数据库返回的检索结果,并按照统一检索平台要求的数据格式进行转换;将转换的后的数据提供给数据处理层进一步的处理。中间件要利用ODBC、JDBC等技术实现对各个数据库的进行透明连接,这当然还要配备各种数据库结构和平台相应的驱动程序。跨库检索的具体实现原理如下图。
统一检索界面
数据处理(数据合并、去重、排序)
中间件
(检索指令转换,结果获取等)
CNKI中文期刊数据库
EBSO外文数据库
书目数据库
……
跨库检索系统实现示意图
5. 跨库检索目前存在的问题
跨库检索实现了不同文献资源之间的沟通、最大限度地保持了知识体系的完整性,大大提高读者利用各个数据库的检索效率,也节省了读者的时间。但是目前的跨库检索还存在着很多问题:(1)跨库检索实现的前提是要清楚了解各种数据库的库结构、设计方法等基本情况,然而数据库商出于各自的商业利益和数据安全的需要,几乎都不愿意将这些基本情况公开给其他跨库检索系统的研制者,相反不断想法将检索语句进行加密,或者通过Session进行用户识别,因此跨库检索系统整合的资源是有限的,而且已经整合的数据库也不能保证将来一定能够正常使用。(2)数据库业虽然有很多标准,这些也有助于跨库检索的实现,但是很多数据库并没有采用相关标准。比如,前面所说的基于Z39.50馆藏目录数据库的跨库检索,有的自动化系统还不支持Z39.50协议,有的虽然支持,却增加了各种不必要的限制。所以汇文的一站式检索大多数还是连接的使用汇文自动化系统的图书馆。(3)跨库检索要通过“中间件”将检索请求“翻译”成各个数据库的检索语句,然后再获取各数据库的检索结果,当检索系统兼容的数据库种类和数量非常大的时候,这就必然造成检索效率的低下,用户需要等待较长时间。(4)目前的很多跨库检索系统还不能对获取的数据进行合并、去重等操作,这实际虽然减少了读者查检各数据库的重复登录和查检的时间,但是却把更多地信息进行了 罗列,加重了读者鉴别的负担。
参考文献:
1.李广建,张志雄.国外跨库检索系统研究项目及其特点.情报理论与实践,2004(4):444-447
2.马文峰. 基于知识组织理论之上的数字资源整合. 情报资料工作,2003(1):26-28
3. 刘峥.数字资源整合的现状及其发展。图书情报知识,2003(10):40-41
4. http://nbinet.ncl.edu.tw:211/z39m
5. http://www.sstc.org.cn/AboutComponent
/CompIntro/CompIntro.aspx
6. 马文峰.数字资源整合研究.中国图书馆学报,2002(4):64-67
7. 刘锦山.跨平台神话的破灭http://www.chinalibs.net/quanwen.asp?titleid=2154
8. 叶晓菡. 关于异构数据库互联技术的探讨.计算机时代,2002(8 ):7-9