《大规模元搜索引擎技》——2.2 为什么使用元搜索引擎技术

本节书摘来自华章出版社《大规模元搜索引擎技》一书中的第2章,第2.2节,作者 [美]孟卫一(Weiyi Meng), 纽约州立大学, 宾汉姆顿分校於德(Clement T.Yu),伊利诺伊大学芝加哥分校,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 为什么使用元搜索引擎技术

本节试图全面分析元搜索引擎相对搜索引擎的潜在优势。我们主要关注通用元搜索引擎和通用搜索引擎的比较。

1.扩大搜索范围

元搜索引擎可以通过能够统一访问所有成员搜索引擎的功能搜索到被至少一个成员搜索引擎索引到的任何文档。因此,元搜索引擎的搜索范围是其成员搜索引擎搜索范围的并集。这个益处是早期元搜索引擎背后的主要动因,目前仍然是最公认的益处。
2.1节描述了两种可能的方法来实现通用元搜索引擎,即主流搜索引擎方法和大规模元搜索引擎方法。术语“扩大搜索范围”对这两种方法有不同的含义。对于前者,可以从两个方面来看。首先,被广泛接受并被强烈支持的证据表明:不同主流搜索引擎索引不同的Web页面集合,尽管它们都试图索引整个Web。这意味着拥有多个主流成员搜索引擎的元搜索引擎将比任何一个成员搜索引擎有更大的覆盖范围。其次,不同的搜索引擎往往使用不同的文档表示和结果排序技术,因此,对于相同的用户查询往往会返回不同的前排结果(top result)集。一项基于19 332个用户查询的研究显示:4大搜索引擎Google、Yahoo!、MSN和Ask对每个查询的第一页搜索结果的重叠率 在这项研究中,若一个结果被所有的4个搜索引擎检索,则它被认为是重叠的。平均仅为0.6%[Dogpile.Com,2007]。因此,通过多个主流搜索引擎进行检索,元搜索引擎可能会为每个用户查询返回更多不同而又高质量的结果。
针对大规模元搜索引擎方法,由于使用专用成员搜索引擎,所以不同成员搜索引擎之间重叠的可能性较小。因此,这类元搜索引擎的综合覆盖范围将比任何单个搜索引擎的覆盖范围大很多倍。事实上,如果能将所有专用文档驱动的搜索引擎,包括那些深网搜索引擎,包含在一个大规模元搜索引擎中,那么这个元搜索引擎可能比任何主流搜索引擎或基于主流搜索引擎方法建立的元搜索引擎有更大的覆盖范围,原因是主流搜索引擎缺乏足够的深网覆盖。本书将这个尚未建立的元搜索引擎称为WebScales元搜索引擎,WebScales是一个项目的名称,这个项目系统地研究建立大规模元搜索引擎的相关问题(http://www.cs.binghamton.edu/~meng/metasearch.html 访问日期为2010年11月3日。)。

2.更容易访问深网

如第1章所述,Web包括两个部分:表层网(Surface Web)和深网(Deep Web),深网的资源远远大于表层网。主流搜索引擎获得内容在很大程度上依赖传统的Web爬虫追踪URL链接并获取Web页面。这些爬虫只能访问到表层网的内容,这意味着主流搜索引擎主要覆盖
表层网。近年来,可以获得深网内容的深网爬虫正在被开发并取得了一些成功[Madhavan et al.,2008]。实现深网爬取的基本过程是:提交查询给深网搜索引擎,从返回的结果中收集信息[Raghavan and Garcia-Molina,2001;Madhavan et al.,2008]。这种技术的主要局限是:很难从深网搜索引擎获得完整的内容,因为使用适当数目的查询来检索深网搜索引擎的所有内容几乎是不可能的。
类似于深网爬虫,元搜索引擎通过查询接口(包括API)与搜索引擎(包括深网搜索引擎)进行交互。然而与深网爬虫不同的是,元搜索引擎将每个用户查询直接传递给搜索引擎来检索查询相关的内容,而不需要提前获得任何搜索引擎的全部内容。因为跟表层网搜索引擎的查询接口进行交互与跟深网搜索引擎的查询接口进行交互基本相同,所以元搜索引擎访问深网是很自然的。总之,元搜索引擎比主流搜索引擎更容易访问到深网的内容。
很明显,使用主流搜索引擎构建通用元搜索引擎的方法,同样会面临主流搜索引擎访问
深网的困难,而元搜索引擎方法直接通过查询接口访问搜索引擎内容,使元搜索引擎更容易访问深网。

3.内容质量更好

搜索引擎的内容质量可以由搜索引擎索引的文档质量来度量。可从多方面度量文档的质量,例如内容的丰富性和可靠性。正式讨论内容质量并非本书的目标,我们仅在此提供一些分析来支持如下论点:以专用搜索引擎作为成员搜索引擎的元搜索引擎可能比主流搜索引擎更容易获取更高质量的内容。这些分析基于主流搜索引擎收集网页的方法和元搜索引擎访问搜索引擎内容的方法。
主流搜索引擎爬取开放Web得到的文档既有高质量的文档(包含有用内容的严肃文档)也有低质量的文档,因为每个人(通常匿名)都可以在网上发布东西。由于爬取的Web文档数目巨大(Google约350亿),所以要求这些搜索引擎保证爬取文档的质量是极端困难的。因此,主流搜索引擎可能会返回质量差的结果。相比之下,专用搜索引擎更有可能包含质量更高的文档,因为这些搜索引擎通常对其内容有更多的控制。例如,许多专用搜索引擎只使用自己的文档或来自可信资源的文档。比如由报纸和出版商操作的搜索引擎,内容通常来自专业作家或有编辑控制权的签约作者。由于大规模元搜索引擎仅使用专用搜索引擎作为其成员搜索引擎,所以它们搜索的内容应该也会有更好的质量。
主流搜索引擎依赖它们的爬虫从众多Web服务器收集文档。然而,由于存在大量的Web页面和Web服务器,以及Web不断变化的本性,所以这些爬虫无法跟上快速变化的Web内容。通常需要花费几天到几周的时间爬取或重新爬取最近更新或新增的内容。因此,主流搜索引擎索引的内容通常平均延时几天。相比之下,专用搜索引擎更容易维护内容的更新,因为它们使用较小的文档集,同时它们的内容通常存储在本地服务器上。因此,使用大规模元搜索引擎方法实现的通用元搜索引擎,相对于主流搜索引擎和使用主流搜索引擎构建的元搜索引擎有更好的机会获取更新的信息。

4.获取更好检索效果的巨大潜力

如前所述,有两种方法创建通用元搜索引擎。相对于主流搜索引擎,每种类型的元搜索引擎都具有独特的潜力获得更好的检索效果。
用主流搜索引擎方法建立的元搜索引擎优于主流搜索引擎,有两个主要原因:
1)有可能获取更多独特的结果,即使在那些排序高的结果中[Dogpile.com,2007],因为不同的主流搜索引擎有不同的覆盖范围和不同的文档排序算法。
2)主流搜索引擎的文档集合有众多重叠,元搜索引擎的结果合并部件可以利用这个事实产生更好的结果。对于任意给定的查询,这意味着许多共享文档有机会由不同的搜索引擎进行排序。如果多个搜索引擎检索到相同的文档,那么该文档与查询相关的可能性会大大提高,因为有更多的证据来支持其相关性。一般而言,如果一个文档被更多的搜索引擎检索到,那么该文档更可能是相关的。该结论基于以下重要的观察[Lee,J.,1997]:不同的搜索系统往往检索到相同的相关文档集,但不相关文档集却是不同的。尽管上述观察是基于对相同文档集使用不同排序算法得出的,但当不同搜索引擎的文档集有高度重叠时,该观察结论仍然适用。在文本检索中,从不同搜索系统组合多个证据的有效性已被很好建立,[Croft,W.,2000]是关于该主题的一篇优秀综述文献。
使用大规模元搜索引擎方法构建的元搜索引擎,由于使用了专用成员搜索引擎,所以针对任意特定的查询,选择的成员搜索引擎的文档集合的重叠度可能会非常低。因此,不能使用上述组合方法。然而,还有许多其他原因可以说明元搜索引擎可能比主流搜索引擎获得更好的效果。下面讨论这些原因。
1)如上所述,专用搜索引擎的文档集合可能比主流搜索引擎具有更好的质量,这些专用搜索引擎的覆盖范围合并之后大于任何主流搜索引擎。这为元搜索引擎的性能优于任何主流搜索引擎提供了基础。
2)一些专用搜索引擎利用领域知识(例如,特定领域本体和语义词典)提高检索效果。通过使用这些搜索引擎进行搜索,元搜索引擎可以利用它们的特有功能,然而主流搜索引擎却无法使用。
3)对于每个查询,典型的大规模元搜索引擎通过一个三步过程聚焦最佳结果。第一,对于给定查询,搜索引擎选择器识别最有可能返回相关结果的成员搜索引擎,并且只调用这些搜索引擎。第二,每个被选择的搜索引擎根据其排序算法得到最佳结果,并将这些结果返回给元搜索引擎。第三,对于给定的用户查询,从来自最佳匹配的搜索引擎返回的最佳本地结果中,元搜索引擎的结果合并器识别出最佳整体结果。对于任何用户查询,运用高质量搜索引擎选择算法、高质量成员搜索引擎和高质量结果合并方法,这三步处理过程具备产生非常高质量结果的潜力。

5.更好地利用资源

元搜索引擎使用成员搜索引擎进行基本搜索。它们可以利用这些搜索引擎的存储和计算资源,因此,避免了运行搜索引擎所需的以下开销:1)爬取和存储文档集合;2)索引收集的文档;3)搜索索引数据库。对于大型搜索引擎来说,仅是采购所需计算机、存放计算机和维护计算机运行(包括软/硬件维护和功耗)三项,就会有很高的成本。虽然元搜索引擎也需要自己的基础设施来执行其功能,如搜索引擎选择、表记(representative)生成和结果合并,但它们对基础设施的要求远远低于同等规模的搜索引擎。

相对于主流搜索引擎,大规模元搜索引擎有以上优点,但也有一些固有的缺点。第一,元搜索引擎给用户返回结果会比主流搜索引擎花费更长时间,因为元搜索引擎必须把每个查询传送给所选的成员搜索引擎,等待它们处理查询,并等待它们返回的查询结果。主流搜索引擎处理查询的时间不到1秒,而元搜索引擎往往需要2~5秒才能返回结果。使用元搜索引擎处理查询时,这一差别的大部分可以归因于元搜索引擎与成员搜索引擎之间所增加的网络通信。搜索引擎和元搜索引擎之间响应时间的差别,在未来可能会随着因特网速度的加快而降低。第二,主流搜索引擎对自己的文档排序算法有充分控制,并有更好的机会利用Web页面之间的链接信息。相比之下,元搜索引擎对成员搜索引擎没有控制权,反而受制于这些搜索引擎。这些搜索引擎的响应时间、结果的质量以及结果概览的质量,都显著影响元搜索引擎的性能。此外,专用搜索引擎没有全局链接图,因此在它们的排序函数中不能利用该图。研究[Wang and DeWitt,2004]表明,针对一个成员搜索引擎的一个页面,估计该页面的全局PageRank是可能的,具体如下:先计算出各个搜索引擎的PageRank(称为ServerRank)和每个页面在其成员搜索引擎内的本地PageRank,然后再通过用搜索引擎的PageRank调整该搜索引擎内页面的本地PageRank来估计页面的全局PageRank。ServerRank可以用搜索引擎的托管站点之间的链接来计算。不过,为了准确计算ServerRank,搜索引擎的网页内出现的服务器间链接信息需要提供给元搜索引擎。
元搜索引擎的另一个潜在问题是,一些搜索引擎可能不想成为元搜索引擎的成员搜索引擎,原因有两个。第一,从元搜索引擎传递过来的查询会消耗搜索引擎的资源;第二,元搜索引擎或许会减少用户访问这些搜索引擎的次数,进而可能会降低这些搜索引擎的广告收入。这些原因仅对拥有稳定广告收入的流行搜索引擎是重要的。Google是这种搜索引擎的一个例子,除非提前与Google签订协议,否则Google禁止元搜索引擎查询。相比之下,专用搜索引擎几乎没有阻止元搜索引擎查询的动因,由于它们通常都是不太知名的,所以查询流量有限,不靠广告赚钱。许多专用搜索引擎只卖内容和服务,还有许多专用搜索引擎的主要目的是传播信息。事实上,这些搜索引擎有参与元搜索引擎的强大动力,因为元搜索引擎可以帮助这些搜索引擎获得更多的用户、更多的认可(元搜索引擎通常会标出检索到每个结果的搜索引擎)。
上面的讨论表明,对Web搜索引擎来说,搜索引擎和元搜索引擎是互补的方法。一个能够把这两种方法的优点都利用起来的搜索系统可能最终成为最好的解决方案。在这样的系统中,每个用户的查询同时通过主流搜索引擎和大规模元搜索引擎处理。前者可以快速地从表层网返回结果;在用户浏览这些结果的同时,后者可以潜在地为用户检索更多、更好的结果。
正如我们之前讨论过的,建设超大规模元搜索引擎(例如WebScales)存在重大的技术挑战。虽然仍需要进行大量研究,但是目前已经取得了很大进展。在接下来的3章中将报告一些进展。

上一篇:DotNET企业架构应用实践-基于接口开发介绍以及应用场景和案例


下一篇:Windows 10搜索框无法使用怎么办?