需要的类
要通过 Java 使用 Google API,请确保适当的类都能找到。Google 为方便起见已经将这些类捆绑到了 googleapi.jar 文件中,这个文件作为分发包的一部分被包含。这个文件包括:
- 用于 SOAP 类的 Java 包装器类,在 package com.google.soap.search 中。
- Java Activation Framework 1.0.1,通常您可以在 activation.jar 中找到。
- JavaMail TM API,通常您可以在 mailapi.jar 中找到。
- Apache SOAP 2.2 工具箱,通常您可以在 apache-soap-22.jar 中找到。
- Apache Crimson 1.1.3,通常您可以在 crimson.jar 中找到。(请注意,这是 Crimson,而“不是”Xerces。这两者处理 XML 的方式相似,但不完全相同。)
请注意在 googleapi.jar 中不包括 Java API for XML Messaging(JAXM),但使用 Google API 不一定需要。
您将从此处开始实际创建一个简单的搜索,执行它,然后研究结果。示例中会展示一些简单的应用程序,它们的结果会输出到命令行;您怎么处理最终数据是您的事。
在这个示例中主要的对象是 GoogleSearch。使用的时候,你要设置参数,然后实际执行搜索,就会有结果返回。
请注意,setKey() 让您将个人的授权码发到应用程序。请用您注册 Google 帐户时收到的授权码替换这些零。
除此之外,执行搜索所需要的就只有搜索项本身了。我会在构造搜索中更多的说到构建搜索,但目前就认为您可以搜索任何词或词组。
您一设置好授权码和搜索项,就为实际执行搜索做好了准备。
实际上,执行搜索相当方便:
doSearch() 方法依据前一屏中设定的查询条件进行搜索,返回对象 GoogleSearchResult,可以使用它携带的方法来访问数据。特别有用的一点信息是结果的个数以及该数字是否准确。
例如,如果编译和运行这个应用程序时使用了命令行参数:"science fiction"(包括引号),它将返回如下文本:
Estimated number of results: 1790000
在向 Web 服务请求信息时,任何事情都可能出错,Google API 包括了 GoogleSearchFault 类,它充当可能出现的任何异常的包装器。
检索结果本身并不难。GoogleSearchResult 对象就提供了一种查找结果本身的简单方式:
被覆盖掉的 toString() 方法提供了一种很方便的方法来查看结果。例如,同样搜索 "science fiction" 将返回如下的结果:
以上这个不完整的清单中展示了每个结果的一些可用信息。虽然我想从检索结果集开始提取(以及控制)一些信息,但首先要看一下影响 Google 搜索本身的一些因素。
找什么都能找到的关键是知道问些什么。这对于 Google 同样正确。API 搜索使用的算法和 Web 搜索的一模一样,因此这将有助于理解。
当您要找的词不止一个时,Google 将只返回那些包含所有搜索项的页面,但不一定是按所请求的顺序。例如,搜索项
science fiction
将返回包含“science”和“fiction”这两个词的所有页面,只要它们在文中某处出现过,不管是在正文、标题还是 URL 中,也不管它们是不是作为整体出现。硬要它们作为整体出现,则搜索项必须是
"science fiction"
引号使 Google 只去搜索作为词组的搜索项。要搜索包含其中一个词的页面,请使用
science OR fiction
注意,OR 必须大写,否则它将会被当作停止词。
停止词是指从查询中略去的常见词。它们包括 the、and、a、or 以及 how,等等。硬要在查询中包括停止词,请在前面冠以加号(+),如
"+the science +of fiction"
注意,只是用引号把词组括住还不足以总能使常见词被包括在内。
同样,您可以使用减号(-)排除一些项,如
science -fiction
它将只返回有关科学方面的结果。
Google 还查询将确定在哪里寻找搜索项的许多不同修饰词。这些修饰词包括:
intitle:
allintitle:
inurl:
allinurl:
allintext:
allinlinks:
filetype:
link:
daterange:
这些修饰词可以与其它搜索词结合起来以筛选结果集。例如,查询
"science fiction" daterange:2452365-2452395
在索引中找到时间在 2002 年 4 月 1 日到 2002 年 4 月 30 日之间的所有包含词组 "science fiction" 的页面。(请注意,可以在索引中搜索更老的信息。)