[Google API](3)创建搜索

需要的类

  要通过 Java 使用 Google API,请确保适当的类都能找到。Google 为方便起见已经将这些类捆绑到了 googleapi.jar 文件中,这个文件作为分发包的一部分被包含。这个文件包括:

  • 用于 SOAP 类的 Java 包装器类,在 package com.google.soap.search 中。
  • Java Activation Framework 1.0.1,通常您可以在 activation.jar 中找到。
  • JavaMail TM API,通常您可以在 mailapi.jar 中找到。
  • Apache SOAP 2.2 工具箱,通常您可以在 apache-soap-22.jar 中找到。
  • Apache Crimson 1.1.3,通常您可以在 crimson.jar 中找到。(请注意,这是 Crimson,而“不是”Xerces。这两者处理 XML 的方式相似,但不完全相同。)

  请注意在 googleapi.jar 中不包括 Java API for XML Messaging(JAXM),但使用 Google API 不一定需要。


  创建搜索

  您将从此处开始实际创建一个简单的搜索,执行它,然后研究结果。示例中会展示一些简单的应用程序,它们的结果会输出到命令行;您怎么处理最终数据是您的事。


  在这个示例中主要的对象是 GoogleSearch。使用的时候,你要设置参数,然后实际执行搜索,就会有结果返回。

  请注意,setKey() 让您将个人的授权码发到应用程序。请用您注册 Google 帐户时收到的授权码替换这些零。

  除此之外,执行搜索所需要的就只有搜索项本身了。我会在构造搜索中更多的说到构建搜索,但目前就认为您可以搜索任何词或词组。

  您一设置好授权码和搜索项,就为实际执行搜索做好了准备。


  执行搜索

  实际上,执行搜索相当方便:



  doSearch() 方法依据前一屏中设定的查询条件进行搜索,返回对象 GoogleSearchResult,可以使用它携带的方法来访问数据。特别有用的一点信息是结果的个数以及该数字是否准确。

  例如,如果编译和运行这个应用程序时使用了命令行参数:"science fiction"(包括引号),它将返回如下文本:

  Estimated number of results: 1790000

  在向 Web 服务请求信息时,任何事情都可能出错,Google API 包括了 GoogleSearchFault 类,它充当可能出现的任何异常的包装器。


  检索结果

  检索结果本身并不难。GoogleSearchResult 对象就提供了一种查找结果本身的简单方式:


  被覆盖掉的 toString() 方法提供了一种很方便的方法来查看结果。例如,同样搜索 "science fiction" 将返回如下的结果:


  以上这个不完整的清单中展示了每个结果的一些可用信息。虽然我想从检索结果集开始提取(以及控制)一些信息,但首先要看一下影响 Google 搜索本身的一些因素。


  构造搜索

  找什么都能找到的关键是知道问些什么。这对于 Google 同样正确。API 搜索使用的算法和 Web 搜索的一模一样,因此这将有助于理解。

当您要找的词不止一个时,Google 将只返回那些包含所有搜索项的页面,但不一定是按所请求的顺序。例如,搜索项

  science fiction

  将返回包含“science”和“fiction”这两个词的所有页面,只要它们在文中某处出现过,不管是在正文、标题还是 URL 中,也不管它们是不是作为整体出现。硬要它们作为整体出现,则搜索项必须是

  "science fiction"

  引号使 Google 只去搜索作为词组的搜索项。要搜索包含其中一个词的页面,请使用

  science OR fiction

  注意,OR 必须大写,否则它将会被当作停止词。


  停止词和其它搜索修饰词

  停止词是指从查询中略去的常见词。它们包括 the、and、a、or 以及 how,等等。硬要在查询中包括停止词,请在前面冠以加号(+),如

  "+the science +of fiction"

  注意,只是用引号把词组括住还不足以总能使常见词被包括在内。

  同样,您可以使用减号(-)排除一些项,如

  science -fiction

  它将只返回有关科学方面的结果。

  Google 还查询将确定在哪里寻找搜索项的许多不同修饰词。这些修饰词包括:

  intitle:
  allintitle:
  inurl:
  allinurl:
  allintext:
  allinlinks:
  filetype:
  link:
  daterange:

  这些修饰词可以与其它搜索词结合起来以筛选结果集。例如,查询

  "science fiction" daterange:2452365-2452395

  在索引中找到时间在 2002 年 4 月 1 日到 2002 年 4 月 30 日之间的所有包含词组 "science fiction" 的页面。(请注意,可以在索引中搜索更老的信息。) 

上一篇:Power Designer (PD) 由物理数据模型PDM生成数据库脚本时带双引号的问题


下一篇:adb 命令