武汉大学-黄如花-信息检索课程学习笔记二
一、信息检索基本方法
1.布尔逻辑检索
①逻辑与:AND, *
②逻辑或:OR, +
③逻辑非:NOT, AND NOT, -
从上图可以看出,三种检索方式中只有第二种是使检索结果变多,其他两种方法均使检索结果变少。
举例1
比如你要搜索移动学习相关的内容,如果你只输入移动学习检索结果不是很多,从上文我们已经知道,OR可以使检索结果变多,这个时候我们可以添加一些跟移动学习相关的词,比如我们的检索式可以这样写
移动学习OR数字学习OR…
举例2
比如你要查找美国信息资源管理政策有关的文献,那它的检索式是什么呢?
美国AND信息资源管理AND政策
或者:American AND “information resource management” AND policy
注意:中间的词组是用双引号连接起来的,为什么要用双引号后面会做解释。
举例3
比如你要查找信息素养有关的信息资源,你会输入什么检索式?仅仅输入信息素养是不够的,我们需要把它的同义词用OR连接起来。
信息素养OR信息素质OR咨询素养
举例4
假如你是个店员,有位顾客需要购买含有草莓或香草但不含巧克力口味的冰淇淋,那你需要怎么做呢?换句话说,你需要用怎样的检索式呢?
(strawberry OR vanilla)NOT chocoloate
注意:为什么要加括号呢?因为布尔逻辑是有顺序的,先后顺序为NOT、AND、OR
总结
AND、NOT是使检索结果减少的布尔逻辑词,OR是使检索结果增加的布尔逻辑词。当你需要使检索结果增多的时候选择OR,当你需要减少搜索结果的时候选择AND或者NOT。
2.临近检索
①PRE/0、P/0
两个要求:
(1)顺序不能颠倒
(2)不能插入任何单词
比如 Wuhan P/0 University,也就是说Wuhan和University之间是不允许有单词插入且顺序不允许颠倒,但是可以插入空格、标点符号,像下面这样
Wuhan University
Wuhan-University
Wuhan,University
…
②PRE/#、P/#
两个要求:
(1)顺序不能颠倒
(2)允许插入一定数量的单词。(一定数量指的是多少呢?#这里的数字指的是几,就能插入多少个单词。#是指插入单词的上限,也就是说不能超过)
比如 Wuhan P/1 University,也就是说Wuhan和University顺序不允许颠倒且最多允许有1个单词插入,像下面这样。
Wuhan Medical University
Wuhan Agricultural University
Wuhan Technology University
…
③NEAR/0、N/0
两个要求:
(1)顺序可以颠倒
(2)不能插入任何单词
比如Wuhan N/0 University,也就是说Wuhan和University顺序不允许颠倒但不允许有任何单词插入,像下面这样。
Wuhan University
Wuhan-University
Wuhan,University
University,Wuhan
University-Wuhan
University Wuhan
…
④NEAR/#、N/#
(1)顺序可以颠倒
(2)允许插入一定数量的单词。(一定数量指的是多少呢?#这里的数字指的是几,就能插入多少个单词。#是指插入单词的上限,也就是说不能超过)
比如 Wuhan N/1 University,也就是说Wuhan和University顺序可以颠倒且最多允许有1个单词插入,像下面这样。
Wuhan Medical University
Wuhan Agricultural University
Wuhan Technology University
University of Wuhan
University in Wuhan
University at Wuhan
…
3.短语检索(精确检索)
加双引号。那么什么情况下用短语检索呢?这里总结为以下几种。
①机构名称
比如"Wuhan University"、“The World Intellectual Property Organization”
②人名
比如"George W. Washington"
③地名
比如"Washington D.C."
④专有名称
比如"information retrieval"
电影名称、书名、论文名、歌名等等
4.截词检索
首先举个例子,像Biology,geology,sociology,psychology,archaeology,…等等这些词都含有ology后缀,那能不能检索ology呢?检索词是怎样的呢?也就是检索式为:*ology。
但是我们直接把 *ology输入浏览器后,检索结果并不是我们想要的,那我们去哪里检索呢?去在线词典检索。
截词检索可以帮助我们检索一些具有共同拼写的单词。
我们把截词检索分为三种情况
(1)前截词。*ology、*ism
(2)中间截词。wom?n(一个问号通常代表一个字符的位置)
(3)后截词。econom *
小结
一般情况下,*代表0-多个字符,?代表一个字符,但是不同数据库是不一样的,如下图所示。
5.字段限制检索
①title(ti):Wuhan University
解释:title(ti)限制后面的检索词必须出现在题名当中。
②py>=2010
解释:找2010年以来发表的著作或论文。
③la = English
解释:只限定找英文的文献。
④link: whitehose.gov
解释:link用来查找连接到某个网站的所有网页。
⑤admission AND site: www.harvard.edu
解释:site的意思是检索结果要限制在后面这个网址当中,也就是说,只能从这个网站去找资料。这个字段的意思是在哈佛大学的官网中去找入学的资料。
⑥au=Wang li AND (CS = wuhan Univ)
解释:CS代表机构来源。这个字段的意思是找到武汉大学的王利写的著作或论文。
⑥Harvard Univ. SAME bus.
解释:这个字段的意思是哈佛大学商学院。
以下关于SAME的解释来源于博客
SAME:在“地址”检索中使用,使用SAME将检索限制为出现在“全记录”同一地址中的检索词,你需要使用括号来分组地址检索词。
例如 Mineral Resources SAME Beijing 查找记录的“地址”字段中某作者的地址同时包含检索词 Mineral Resources 和 Beijing 的记录。
当在其他字段(如“主题”和“标题”)中使用时,如果检索词出现在同一记录中,SAME 与 AND 的作用就完全相同。检索包含布尔运算符(AND、NOT、NEAR 和 SAME)的组织名称时,应始终使用引号 ( " " ) 将单词引起。
举个例子练习一下
南京理工大学计算机学院的检索式
Nanjing University Of Science And Technology SAME computer
6.区分大小写的检索
Apple - apple
Apple代表苹果公司
apple代表吃的评估
China - china
China 中国
china 瓷器
二、多种检索方法的综合运用
1.积木型检索式
举例1
举例2
2.更为复杂的形式
举例
三、搜索引擎的类型
1.按信息采集方式划分
(1)机器人搜索引擎
(2)人工采集搜索引擎
2.按内容组织方式划分
(1)关键字搜索引擎
(2)目录式搜索引擎
3.按范围划分
(1)综合性搜索引擎
(2)专业搜索引擎
4.按搜索引擎功能划分
(1)独立搜索引擎
(2)元搜索引擎
5.按适用对象划分
四、WOS检索
1.高级检索
高级检索界面如下图所示。
举例1
检索结果
举例2
查找2009年发表的关于信息组织的文献
检索结果
两次的高级检索结果在如下所示的位置显示,你可以保存历史或者创建跟踪,方便之后查看或追踪。