信息检索:
信息检索原理是,将书写不规范的原始数据先存储,再通过归纳化or标准化手段进行拆分,便于用户搜索。
信息检索类型可依据数据内容进行分类,文献检索是通过输入关键字进入搜索引擎,搜索仅找到含有关键字符的文字,最后选择哪些文献由学者本身确定。数据检索是在相应数据库中直接找到准确数据,该检索的结果是数值。事实检索是在百科全书数据库中进行找寻事实记录,eg历史依据。
检索工具主要是网络数据库eg:yandex.com
检索方法的选择基于研究者自身需要。基于时间序列,需要了解某学科的发展历史,可以使用顺查法。因为新兴学科(eg区块链)前期的记录非常少,所以采用倒查法。了解某时期内学科发展,可使用抽查法抽取某一时段。追溯法是由文章主要内容到文章参考文献A,再由A找到A的参考文献B,现在文献数据库可以找到2层。循环法是综合以上方法。
检索途径分为外部途径和内部途径。
外部途径就是基于字面意思表达,单纯进行字符串匹配得到的结果。其中,题名限制是找title中含有关键字的文献,特别的是Title限制与topic限制不同,基于topic限制时,字符串搜索区域是title+abstract+keyword。责任者途径是基于学者相关信息找文献。号码途径较准,因为搜索是基于编码,不会重复或者错乱。常见的编码有DOI,ISSN和ISDN等。
内部途径是与搜索字符含义有关的。基于科研论文的情况,通常分类途径是按学科分类,但是新交叉学科存在分类上的争议,不好使用该途径。主题途径是基于用户关键词搜索,为了保证高效,不用作者关键词需要规范化关键词。分类主题途径综合了以上2种内部途径方法。
检索技术是使用搜索框时需要掌握的规则。使用布尔逻辑检索,用(与*;或+;非)将关键词串联起来,此时涉及一个查全查准此消彼长的问题,此问题应先保证查全,再考虑查准,因为先查准会丢掉一些未知的信息。使用高级检索规定运算顺序,即加括号。使用位置检索规定检索字段之间的绝对位置和相对位置:
其中F是feature,P是paragraph,S是sentence,W是with且不可颠倒,N是next且可颠倒,n是中间相隔词的数目。截词检索主要用于只知道部分信息时,写入部分信息同时使用*代表所有字符。限制检索是限制基本信息进行筛选检索。
对于修改检索范围有以下检索技巧。对于扩大检索范围,可以关键词降低专有度,选择关键词的上位词,使用或连接关键词,删除不重要词(eg:adj,XXX意义),采用截词检索,扩大基本信息限制(eg标题到全文),调整位置运算符主要是调n(将n变大),换其他数据库检索。对于缩小检索范围,可采用专业词,关键词的下位词,用非or与连接关键词,缩小可检字段,搜索范围缩小到标题。
需要注意检索技巧。不使用意义不明的词(eg:XXX意义),因为此时所有含有意义字符串的结果会出现,降低效率。注意化学名词有多种形式。不使用自创词。缩写找全称。
检索流程是先课题分析,此时可从主题,学科,信息类型(article 或者 review),年代来考虑。获取基本需求后,再选择数据库,此时应注意web of science不一定全,因为收入该网站的文献有质量门槛。再确定检索词,按照数据库规则写出检索表达式,此过程中的流程是将需求切分到词,删去大词,细化关键词(即选择合适关键词)最后布尔逻辑组合。得到结果后调整得到最佳结果。