以下这篇文章是InformationWeek美国的记者兄弟花大力气采访的结果,生动地描述了一些该领域探索者的兴奋心情。看到以后,忍不住做了一些附加采访和解释,加上赵红权的翻译,希望这些文字能够揭示当前搜索技术在商业道路上探索的一些方向,记录这个领域的今天,让它们给未来研究信息检索历史的人提供一些参考,至少证明人们一度在多么愉快地探索这个领域,探索自己的语言文字和计算的关系,让计算工具更好地理解不同的语言和文化的需求。
信息检索不是特别容易被商业化的技术和学术方向,但是它对于满足信息用户好奇心的同时,让人类对它本身产生了更大的好奇心。微软,雅虎,百度和Google有很多研究者在不断地尝试破解一些新的文字检索规律。其中很多人的努力并不是完全为了明天的商业回报,而是为了几年甚至是几十年后更伟大的信息检索领域的发现。
借此文向这些人,以及UPenn、香港两个大学、以及北大等学府中多年来默默无闻地处理着语料,建立这个领域基石的学者们表示感谢。
劢闻
不知搜索向何方,但他们已经上路
文/J. Nicholas Hoover,Zhang Maiwen (章劢闻)
译/赵红权
搜索引擎,也就是那个浏览器里的应用,你在其中输入一个词,并点击回车,之后就满怀希望开始等待,可它返回的往往是数百万个毫不相关的互联网地址。微软公司(Microsoft,下称微软)称,人们平均要花11分钟的时间才能找到所需内容,而且还有一半的人在达成此目标之前即中途放弃搜索。据高德纳公司(Gartner)估计,由于访问者根本无法找到所需内容,有一半的潜在Web销售因此而丧失掉了。
谷歌公司(Google)、微软、雅虎公司(Yahoo)、以及其他数十家专业搜索公司,其中也包括那些专注于商业领域的搜索公司在内,已开始展开新一代搜索技术的开发竞赛,以帮助人们更高效地获取所需信息。有了这些新兴的搜索工具,人们无需再使用混合语言一遍又一遍地简化搜索。他们可以用英语或其他语言查询问题,或者根本不提出任何问题,只是基于其以前的查询或所用的应用软件,就能自动收到查询结果。
专注于中文搜索的百度公司(Baidu,下称百度)虽然没有就下一代搜索的话题表态,但是根据百度现有的一系列产品,从百度贴吧、百度知道、百度百科到百度空间等服务,不难看出这家公司正在利用用户生成内容(UGC)提高自身对于用户兴趣点捕捉的精确度。
除了文字内容之外,用户实际得到的搜索结果还将包括音频和视频文件、PowerPoint幻灯和其他信息图表、以及结构化数据,这些信息全部精选自Web、PC、以及公司数据库,并最终汇成统一的信息流。假以时日,图像搜索甚至能在图像中检测信息,而无需对元数据进行解析。
搜索结果将更加精确,并经过自动归纳总结,按照个人偏好依相关程度进行排序。聚簇、标签云(Tag Cloud)等可根据参数扩大或缩小搜索的新表达方法以及自动分类,可以简化对搜索结果的处理。同时,采用标签服务、社会性书签服务(Social Bookmarking)以及共享搜索等方式,充分发挥人类智慧特别是群体智慧的力量,搜索引擎将得到极大改进。
而且,我们无需翘首以盼,等待这些高速搜索引擎的出现。如下一些高级功能已随处可见。
语义搜索
当今多数搜索引擎都要求使用速记语言,也就是某些人称作Keywordese的语言。“那就像跟一个2岁小孩说话。” Powerset公司首席执行官(CEO)巴尼·佩尔(Barney Pell)形容道。Powerset是一家将自然语言处理技术应用于搜索领域的初创公司。未来10年,佩尔指出,搜索引擎“理解人类语言”的能力会更为强大。
早在2000年,百度就曾经大力协助当时的ChinaRen公司推出了一个名为“孙悟空搜索”的提问式搜索引擎。“我当时使用过孙悟空搜索,感觉它对中文语义的理解已达到了相当的深度,虽然那时的技术可能还比较粗浅。”李鹏在接受《信息周刊》采访时回忆道。李鹏是加拿大英属哥伦比亚大学(University of British Columbia)计算机专业的在读博士,同时也是微软位于美国华盛顿州雷德蒙德园区(Redmond)的实习研究人员,专注于语义网(Semantic Web)的研究。
现在,Powerset公司、Hakia公司、以及其他一些公司已开始开发新的搜索引擎,这些搜索引擎应用语言学解释问题,分析Web内容,并且必要时,还通过与用户的互动来优化搜索结果。Hakia公司CEO里萨·博坎(Riza Berkan)憧憬说,未来搜索引擎会成为“知识渊博的工具,如果我们能教会它们如何讲话、如何理会用户的意思。 ”
语义搜索引擎对语言进行解析,就像学生学英文一样,用字典和辞典来解释字的意思,并依据句法的基本规则将之连起来。比如,“国际商业机器公司(IBM)于1996年斥资7.43亿美元买下了Tivoli公司”这句话,包括了购买、购买的主语、购买的时间、以及买入价等几个概念。
在理解问题之后,基于语义网的搜索引擎将会给出智能的回答。“比如,你表示要预约一个牙医,”李鹏给出了一个例子,“搜索引擎有可能从你的Outlook找出你的时间表,然后从你牙医的网站上找出他或她的时间安排情况,最后归纳出共同的时间点,再给你提出精确的预约建议。”
迄今为止,尽管Hakia公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思,但人们应用语言规则,并对分类进行定义,以缩小搜索范围的做法仍然有助于推进搜索引擎的开发。“如果它能做到完全自动化,我们就能宣告自己创造了新的物种,”博坎调侃道。谷歌和雅虎等在开发Web搜索引擎时也都会雇佣语言学家,尽管他们的搜索引擎还远不能与Hakia或Powerset的语义搜索相提并论。谷歌的搜索引擎能进行拼写检查,并返回所搜索的单词的同义词和变体,但并不能始终准确地解答问题。
联邦保存研究所(Federal Preservation Institute)的历史保存学习门户(Historic Preservation Learning Portal)采用的是企业搜索公司Autonomy公司的技术。该网站存有大量记录保存规则和保存方法的文档,研究所应用语义搜索帮助那些非专家类的用户发现其所需信息。“他们应用这些工具,用普通语言即可提问,而其问题中无需带有关键词可能会含的技术术语。”该研究所总监康斯坦丝·拉米雷(Constance Ramirez)介绍说。比如说,有个网站访问者可能会询问加里福尼亚州红屋顶房屋的保存情况,“看到返问的各类结果都是相关的,那种感觉真是妙不可言。”拉米雷回味道。
IBM也在致力于医疗卫生和政府等领域的专业文本分析研究。客户利用其名为OmniFind Analytics的搜索引擎,甚至可以分辨诸如情绪这样的细枝末节之处,而且不管搜索到的文档对某个主题的记录或分析是积极的还是消极的,客户还可对公司内使用的专业词汇、概念、以及专有名词进行定义。
“但是,基于精确语义的搜索有一个前提,那就是信息来源必须基于资源描述框架(RDF)、Web本体语言(Web Ontology Language,OWL )等信息格式。”李鹏指出,“信息源的格式化需要得到提供者的认可和规范,这本身就需要相当长的时间,是一个渐进的发展过程。”
无关键词搜索
好运难遇。目前仍处于开发阶段的这类搜索引擎无需提示,即会根据你以前的查询替你完成搜索;否则它们可能会在背景中搜索,根据Word文档或Excel电子表中的上下文内容提供相关信息。苹果公司(Apple)的iTunes项目与此类似,如果听者从硬盘中播放了一部音乐作品,iTunes Store即会显示相关的其他音乐。
说着容易,做起来难。“在搜索领域,遭遇意外的好运比登天还难。”国际数据公司(IDC)分析师苏珊·费尔德曼(Susan Feldman)指出。在这种计算密集型的环境中,设计接口着实不易,她补充道。
MediaRiver公司开发了一种可下载的搜索工具,这款名为Watson的产品,无需用户发出查询请求,即可利用Web浏览器或PC应用程序中的信息对Web进行搜索,并返回结果。这是一款出色的产品,可不是一项好生意,MediaRiver的CEO阿尔·瓦塞尔博格(Al Wasserberger)总结说。但是,Watson在MediaRiver的ClickSurge Widget中找到了用武之地,终于可以再现活力,后者负责确定网页上的重要概念,并将相关链接嵌入到网页的其他位置。Blinkx公司有款与此近似的产品Pico,但在该公司的网站上,Pico却居于次要地位,因为这家公司要全情贯注于视频搜索领域。
尽管如此,无关键词搜索的前景依然一片光明。谷歌和雅虎长期以来一直在不断提醒用户,他们可以订阅搜索,当有新结果产生时他们即会收到电子邮件。用户只需轻轻点击一下StumbleUpon和Google Dice等浏览器工具栏按钮,系统即可根据Web历史记录将之带到推荐的站点上。雅虎的Y!Q服务和Mozilla公司的火狐浏览器(Firefox)都具备在网页上突出显示某个字或词的功能,用户只需于其上点击一下,即可执行搜索。
雅虎的这项服务可以增强搜索页上下文的关联性。比如,在有关大学橄榄球的网页上搜索“佛罗里达鳄鱼队(Florida Gators)”,返回的结果肯定不会跟大沼泽国家公园(Everglades)中的那类爬虫有关。
个性化搜索
“内战”这个词,在不同的人心中会激起完全不同的情感,其含义也大相竞庭。在美国历史上,它意味着一个国家的诞生;而在利比亚,它是武装冲突的代名词;它还是枪与玫瑰乐队的一首歌的名字。搜索引擎对搜索者了解得越多,它对搜索者意图的猜测也才会越有根据。
从用户数量来看,谷歌的个性化主页iGoogle是该公司旗下成长最为迅速的产品。谷歌明白用户需要什么,并通过RSS种子和谷歌Gadgets来体现其对用户需求的理解。而且,用户也能在谷歌的首页上创建推荐(Recommendations)标签,谷歌搜索系统可据这些用户以前的搜索提供相关信息,并置入该标签内。
拥有谷歌账户的用户均有机会将其曾进行的搜索保存起来,“疑问因而解除”,谷歌个性化部门技术负责人塞普·卡姆瓦尔(Sep Kamvar)指出。比如,有个女子对计算机感兴趣,而且她会定期搜索“苹果”这个词,这说明与其说她对计算机有兴趣,不如说她对计算机厂商的兴趣更大。利用存档数据,谷歌可通过浏览器工具栏按钮、iGoogle标签或者网络搜索历史(Web History)页面自动为用户推荐所需信息。
大量与搜索相关的信息保存在谷歌的数据库中这一事实,引发了有关隐私的担忧;基于同样的原因,雅虎等谷歌竞争对手也不再无畏地长驱直入个性化搜索领域。谷歌争辩说,它在使用历史搜索数据时所公开的透明度,恰是其为避免引起用户激烈反对而采取的关键措施。“如果我们打算使用你搜索过的某些内容,我们希望你能了解这一点,而且你有权做出决定。”卡姆瓦尔表示。
商业环境中也需要个性化。例如,Vivisimo公司搜索产品的管理程序给招聘人员的人事文档的赋值,比如说,就可以比给销售人员的高。“内部网的一个优势在于,人们无需再以匿名的形式存在。”IBM OmniFind搜索平台部门杰出工程师(Distinguished Engineer)兼产品经理迈克·莫兰(Mike Moran)指出。OmniFind搜索平台有4个版本:企业版、分析版、可在搜索结果中添加原文链接的版本、以及与雅虎共同开发的免费版。出版商锐德商讯集团(Reed Business)搜索部门首席运营官(COO)格雷伊姆·麦克雷肯(Graeme McCracken)强调说,事实表明,经常使用搜索的用户最需要个性化特性,而那些偶尔一用网络的访问者通常也对个性化没什么兴趣。
社会搜索
网络出现伊始,搜索即有其社会性的一面。雅虎创立之初,其网站不过是个链接列表,只是列出了公司创始人认为有趣的网站链接。谷歌的PageRank算法,其原理某种程度上也只是以网站上一个页面通向其他页的链接数量为基础。随着Web 2.0技术的兴起,搜索引擎也开始进一步推动社会搜索与社会性书签服务、标签服务、共享搜索、以及功能随用户数量增加而改善的搜索系统等概念的融合。
雅虎的战略将因其社会特性而显得卓而不群,雅虎搜索副总裁提姆·梅尔(Tim Mayer)指出。Yahoo Answers可针对Web查询提供人性化的解答,最近该服务已开始出现在常规搜索结果中。此外,雅虎收购了社会性书签站点Deli.cio.us,此举也可能会给雅虎带来一些变化,比如将社会性书签服务变为雅虎网站的一个标准特性。
微软已经拥有名为Collections的共享搜索特性,人们可利用该特性共享注释图。目前,微软也在寻求解决办法,以在Web范围内部署可视的、用户生成的“标签云”,该公司搜索和广告部门高级副总裁萨特亚·内德拉(Satya Nadella)介绍说。企业搜索公司Vivisimo公司也在对一项特性进行测试,公司员工利用该项特性,可以给搜索结果打标签、评级、分类、并做评注。而Connectbeam公司则将标签和社会性书签技术作为其他企业搜索产品上的一个层来销售。
标签云和社会性书签服务也有局限性。标签太多会降低搜索的可靠性,太少又有可能导致相关信息的大量堆积,Autonomy公司CEO迈克·林奇(Mike Lynch)分析道。领导着谷歌反垃圾团队的高级工程师马特·卡茨(Matt Cutts)表示,标签和社会性书签服务是垃圾邮件制造者和搜索引擎优化滥用者攻击的主要目标。
无论如何,谷歌已开始推进社会搜索服务。在iGoogle服务中,“魔术标签”可基于其他谷歌用户创建的标签,提供与搜索查询(比如说“旅行”一词)相关的谷歌小工具(Gadgets)和Feeds菜单。“我太喜欢这种算法了,因为它提供的Gadgets并不包括‘旅行’这个词本身在内,但却极为相关。”卡姆瓦尔表示。
Collarity公司则在其Relevance Engine中,运用“协同过滤”将上述概念又推进了一步。福克斯新闻网(FoxNews.com)即使用该个性化搜索引擎。如果某人在该站点上搜索“伊拉克”,这一搜索引擎会根据以前其他人在搜索“伊拉克”这个词之后的行为,列出推荐的链接清单。尽管如此,搜索引擎最终只能将那些在伊拉克新闻上花费大量时间的用户的浏览习惯纳入推荐引擎,因为这些人代表着对伊克拉有高度兴趣,而且应该也具备更多相关知识的一群人。“我们认为,最要紧的是在相关领域内,找到能最好地解答你的问题的人。” Collarity公司市场总监鲍勃·拉斯塔德(Rob Rustad)表示。
结果导向
“谁说一个编辑框外加10个蓝色链接就是搜索引擎了?”微软的内德拉质疑道。这个问题提得好,但在搜索的新世界里,它就显得不那么重要了。现在,人们已发现了用于显示搜索结果的新办法,从自动化聚簇和分类到对问题的实际解答,各种都有。在微软的Live Search中,键入“西雅图交通”几个字,就会有一幅地图弹出来,上面绘有公路,并用色码标示出路面上车辆的行驶速度。与此近似,在谷歌网站上键入“亚伯拉罕·林肯的生日”,第一个搜索结果会显示实际日期——1809年2月12日,后面跟着一系列相关地址链接。
Vivisimo公司同时也运行着一个名为Clusty的消费者搜索引擎,该网站可通读网页的文本内容,并通过语义理解,在搜索返回的前200个文档中,迅速建立分类。
Vivisimo的Clustering Engine可以确定诸如“漂亮”和“华丽”这样的词,其意思之间存在关联性,然后根据这类共性对搜索结果进行分组。“主题可帮助人们根据上下文进一步理解数据的含义,并且大致明白信息是如何被组织到一起的。”该公司市场副总裁丽贝卡·汤姆逊(Rebecca Thompson)介绍道。
在商业环境中,计算机生成的聚簇显得尤为重要。因为在商业环境中,用户不能根据某个站点的流行程度来确定其相关性。与Vivisimo一样,Endeca公司也使用自动分类的办法,并采用“导航”的方式,他们这样做基于如下理论:人们通常不对特定的内容进行搜索,而其期望搜索引擎能帮助发现的内容,往往是他们不知道如何清楚、准确地提问的。
美国最大的家具建材零售商家得宝公司(Home Depot)的网站即采用Endeca技术,从中可管窥Endeca前述想法在实践中的应用。 例如,对“冰箱”一词的搜索会产生大量信息,并依类别、价格、以及品牌等进行分组,而且对于每一组都能进一步进行搜索。分类通常以每个搜索条目的元数据为基础。“未来的设想是,对信息进行归纳总结,整理成用户期望看到的形式。” Endeca公司战略拓展与市场副总裁马特·艾什纳(Matt Eichner)介绍说。
Factiva公司的搜索工具采用Fast Search & Transfer公司的技术,用于发现发表在网络日志、媒体站点上有关某个品牌的任何内容,并将这些内容分为喜欢的和不喜欢的,还对之进行相应的量化,辅以线图,以显示人们的认识随时间而改变的过程。
另外一个较早利用搜索引擎收集新知识的例子是谷歌Trends。它是谷歌实验室(Google Labs)的一个项目,可以几乎同时满足搜索者完全不同的兴趣[比如太浩湖(Lake Tahoe)和雪橇]。“如果计算机能进一步理解这个世界,那又会是怎样的情形?”卡茨自问自答地说,“如果你能解决这个问题,你就能真正理解人们在搜索些什么。”
多样化搜索
今天的Web搜索引擎可以对基于超文本链接标记语言(HTML)的文件、PDF格式文件、Office文件、以及音频、视频和图像元数据进行筛选。而未来的搜索引擎不仅可摆脱对元数据的依赖,可对图像、音频、以及视频直接进行搜索,还能在其他搜索结果中纳入这些形式的内容。“你不会看到分别面向音频、视频、以及文本的不同系统。” Autonomy公司CEO林奇简捷地总结道。
尽管并非总能面向不同数据类型建立恰当的关联模型,谷歌的通用搜索仍可谓这一领域的开先河者;其他进展还包括:Autonomy技术可察觉情景的变化,并将视频分配到可搜索的内容中。而且,Autonomy公司、Sonic Foundry公司、以及Nexidia公司的搜索引擎都具备对视频或音频的音轨进行搜索的能力。
衣服和服饰销售站点like.com,算得上说明图像搜索技术发展方向的一个典型例子。利用该网站提供的类似搜索(Likeness Search),用户可依各自的尺寸,从颜色、外形、以及款式等方面提供个人的设计参考意见。目前,微软和谷歌都已开发出了针对人的面孔的搜索技术。
尽管如此,图像搜索还远不能与文本搜索相提并论,IBM的莫兰指出。在搜索引擎习惯观看图片并能用语言对之进行描述之前,在相当长一段时间内,人们还得继续给图像和视频添加文本标签。
无论如何,在需求的推动下,搜索创新仍不断涌现。随着网络上和公司数据库中信息成PB(Petabyte,1Peta=1015)的增加,用于帮助人们发现所需的工具也必须得随之改变。