这里写目录标题
- 一、Zotero translators|中文内容题录抓取
- 二、Jasminum|中文文献题录抓取
一、Zotero translators|中文内容题录抓取
1.1 Zotero translators功能介绍及下载
Zotero translators是一款Zotero的中文网页抓取插件,用于维护各种中文翻译器,涵盖目标范围包括:
- 知网或知网海外—— CNKI.js下载
- 万方数据——WanFang Data.js下载
- 维普——WeiPu.js下载
- 谷粉学术——GFSOSO.js下载
- 百度学术——Baidu Scholar.js下载
- 国外学位论文中国集团全文检索平台ProQuest ——ProQuestCN Thesis.js
- SooPAT专利搜索——Soopat.js下载
- 专利之星——PatentStar.js
- 国家图书馆文津搜索——Wenjin.js下载
- 微信公众号——Weixin.js
- 知乎——Zhihu.js
- 读秀——Duxiu.js
- 豆瓣——Douban.js
-
道格学社的翻译器
–哔哩哔哩
–当当
–京东
–国家哲学社会科学文献中心
–国家图书馆 - 中国标准在线服务网
–中国标准在线服务网
Zotero translators github下载及使用说明主页。在github主页按图1所示下载压缩包。
图1 Zotero translators下载主页
1.2 Zotero translators安装、网页更新及示例
1.2.1 Zotero translators安装
解压压缩包,可以看到图2所示的translators目录,将该目录中所需的文件复制到 Zotero 的 translators 目录(若忘记自己的Zotero—translators路径,可按图3在编辑——首选项中查看)。Zotero—translators路径下的目录内容如图4所示。
图2 Zotero translators目录
图3 Zotero数据存储位置
图4 Zotero—translators路径下的目录内容
笔者全部进行了复制,并且提示有5个内容重复,选择了替代。
然后检查是否可用,以知网为例,打开网页,任意检索之后,发现Zotero Connector显示为文件夹形式,表示可用。
图5 Zotero—translators知网的测试
图6 Zotero—translators知网测试不可用时的状态
1.2.2 Zotero translators网页更新
在Zotero Connector插件上右键,点击选项,可打开其参数界面查看首选项设置。Zotero Connector Preferences。在Advanced界面点击“Update Translators”,可多点击几次保证更新完成。
注:更新过程中也可以勾选“Enable Logging ”及“Show in Console”,则会在“0 lines logged”位置更新日志记录,以查看更新。
若不可用,也可在添加翻译器后重启软件,更新后重启浏览器再次尝试。
图7 Zotero Connector网页更新Translators
1.2.3 Zotero translators示例
1.2.3.1 知网
在1.2.1节中(图5)以知网作为示例演示了CNKI.js的使用。
1.2.3.2 知乎
- 获取快照
此节以知乎为例进行演示,安装方式与1.2.1节所述方式相同,先将下载的Zhihu.js文件拷贝到Zotero——translators文件夹下,并在浏览器Zotero Connector插件中更新。
在任意打开的网页中,点击Zotero Connector插件,显示已抓取到此篇文章(图8)。
注:知网:此页面显示文件夹;知乎:则不显示文件夹。
图8 Zotero Connector+zhihu.js抓取知乎文章
如图8所示,获取内容格式为快照,双击可自动打开网页,但在Zotero中未显示正文内容。
通过查阅Zotero Connector的首选项设置可知(引用自己的链接),其默认附件内容为保存快照(automatchSnapshots)(图9)。
图9 Zotero Connector Preference设置
- 获取正文
打开Zotero软件,按照“编辑——首选项——常规”顺序,取消勾选文件处理下的“从Web页面创建条目时自动生成快照”即可(图10)。
图10 Zotero取消Web界面自动生成快照
设置上述操作后,重新在知乎界面点击Zotero Connector,可以看到已经显示正文的文件夹内容(图11)。
图11 Zotero Connector+zhihu.js抓取知乎文章(含有正文)
在Zotero界面查看正文内容,以笔记形式存在,格式与知乎页面排版几乎一样(图12);
而且点击该文章,在右侧“其他”会显示这篇文章的赞数(图13)。
图12 Zotero Connector+zhihu.js抓取知乎文章(附件)
图13 Zotero Connector+zhihu.js抓取知乎文章(点赞)
- 获取问答
在知乎问答界面,可以看到Zotero Connector是呈文件夹形式的,表明含有多个回答的内容可以保存(图14)。
图14 Zotero Connector+zhihu.js抓取知乎问答内容
作为演示,笔者全部选择点击Ok后,浏览器显示已全部保存并且包含正文回答内容(图15)。
图15 Zotero Connector+zhihu.js抓取知乎问答内容(浏览器显示)
打开Zotero软件,依次点击条目及附件可看到对应内容(图16)。
图16 Zotero Connector+zhihu.js抓取知乎问答内容(Zotera)
如1.1节介绍,还有很多不同的中文翻译器,可以自己摸索尝试。后续随缘更新使用情况吧!
二、Jasminum|中文文献题录抓取
2.1 Jasminum功能介绍及下载
上文提到的知网等中文翻译器允许从不同的搜索引擎界面,利用Zotero Connector直接获取题录及对应PDF等附件内容。但是不能满足从Zotero软件直接导入中文PDF文件的元数据读取需求。
Jasminum就是为了解决这一问题而出现的,具Jasminum github官网主页介绍,含有功能包括:
- 拆分或合并 Zotero 中条目作者姓和名
- 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
- 添加中文PDF/CAJ时,自动拉取知网数据,该功能默认关闭。需要到设置中开启,注意添加的文件名需要含有中文,全英文没有效果(还是根据文件名)
- 为知网的学位论文 PDF 添加书签
- 更新中文 translators
- 拉取文献引用次数,是否核心期刊
- 拉取知网元数据后调用Zotfile重命名附件(需安装Zotfile)
从Jasminum github官网主页下载Jasminum.xpi文件(图17)。
图17 Jasminum下载
2.2 Jasminum+PDFtk server安装
2.2.1 Jasminum安装
打开Zotero主页,按照“工具——插件——Install Add-on From File”选择刚才下载的Jasminum.xpi文件进行安装。安装后重启软件即可。
图18 Jasminum安装
2.2.2 PDFtk server下载安装
若想使用Jasminum的书签添加功能,需要提前安装好PDFtk server,该书签工具有多个版本(Windows, Linux, Mac),笔者下载的是Windows 10版本,PDFtk server下载链接(图19)。
图19 PDFtk server下载
下载之后,双击进行安装,步骤如图20所示。
图20 PDFtk server安装
2.2.2.1 PDFtk server环境变量设置
接下来,验证该命令行程序是否安装成功可用,通过“windows+R”快捷键打开命令提示符并输入“cmd”,点击确定在弹出窗口输入“pdftk”,“pdftk --version”均提示错误,错误内容如图21。
图21 PDFtk server测试
这是因为没有找到pdftk.exe。笔者是安装在"D: Program Files (×86)\PDFtk Server\bin"目录下的。(每个人安装的目录都不一样)
图22 PDFtk安装路径
需要将上述目录添加到系统变量中。
按照“桌面——右键“我的电脑”——属性——高级系统设置——环境变量”顺序,打开环境变量设置界面(图23)。
图23 环境变量打开路径
复制上面所述路径,并添加到系统变量“Path”下,点击确定(图24)。
图24 系统变量设置
添加路径到系统变量之后,重启电脑,再次打开命令提示符窗口,输入“pdftk”即可发现可以运行,并出现对应内容。表示环境变量设置正确,软件安装成功(图25)。
图25 PDFtk server测试成功
2.3 Jasminum使用
2.3.1 Jasminum参数设置
2.3.1.1 Jasminum中文插件设置
如图26,可根据需要选择勾选四项知网参数;此外,还可以设置抓取文件(PDF或者CAJ)名称的识别格式,默认格式为{%t}_{%g},即标题_作者。
在安装Jasminum与PDFtk server之后,在Zotero软件编辑——首选项界面,可以看到多了茉莉花选项(图26)。可以看到未识别默认路径下的PDFtk server,将路径选择为笔者安装的“D:\Program Files (x86)\PDFtk Server\bin”,图26中显示的红色感叹号便会变为绿色对号✅。
图26 茉莉花——中文插件设置
2.3.1.2 Jasminum中文翻译器更新
在1.2.1节安装中文翻译器+Jasminum插件后,打开“非官方维护中文翻译器”并未看到安装的中文翻译器(图27),点击下方的“刷新”,即可看到已经安装的中文翻译器内容,并可以看到右侧的Update状态,需要更新的翻译器后面会显示蓝色图标(图28)。
图27 Jasminum插件非官方维护中文翻译器的原始界面
图28 Jasminum插件非官方维护中文翻译器的更新界面
从上图中可以看到,涵盖了维普、万方、知网、微信公众号、知乎等多个中文网站,非常便利。
点击“更新全部”即可自动更新中文翻译器,由图28可知,还需在浏览器Zotero Connector更新翻译器的信息,更新步骤可参考:
- github官网主页教程
- 本文1.2.2节所述内容
以上两种更新方法完全一样,任意选择即可。
2.3.1.3 Jasminum交流群
最后一页展示了一些可供交流的方式。
图29 Jasminum交流联系方式
2.3.2 Jasminum使用示例
2.3.2.1 Jasminum根据中文名获取下载中文文献的元数据
Jasminum插件是依据文件名来获取中文文献的标题与作者,“DOI”获取英文文献的元数据。
常见的满足需求的文件名格式如图30所示,或参看github不同历史版本Jasminum的介绍。获取的元数据用于参考文献排版。
图30 Jasminum文件名格式
举例来说,从知网随意下载一篇文章,其默认文件命名格式如图31,标题_作者。
图31 知网下载的中文文献格式
将该文献直接拖入到Zotero,显示内容如图32。在此拖动过程中即已自动完成了元数据的识别。
图32 知网文献拖入到Zotero后的显示内容
对于未识别的可以右键PDF文献,选中菜单中的“抓取知网元数据”。
注意:对于不符合命名规则的论文,则不能获取原数据。
图33 知网文献元数据的获取
2.3.2.2 Jasminum拆分或合并 Zotero 中条目作者姓和名
以2.3.2.1节中的文献为例,选中PDF文件所在条目,“右键——合并/拆分姓名”即可(图34)。拆分之后,由图35可知,作者的姓和名在两个表格中,可以进行分别编辑。
图34 Zotero作者姓名的拆分合并操作
图35 Zotero作者姓名的拆分示例
从知网另外下载的一篇中文文献,拖入Zotero中,可以看到,此时作者的姓与名是拆分状态,PDF命名也只显示了姓,未显示名(图36),有两种方式展示完整的姓名:
- 按照上方描述的利用Lasminum合并姓名(图37)
- 参考笔者的Zotfile重命名文件
图36 Zotero作者姓名的拆分示例(3个字的姓名)
图37 Zotero作者姓名的合并示例
另外,如何在Zotero Connector 中添加中文姓名处理以及保留知网CAJ格式文件的设置。笔者添加了“translators.zhnamesplit”,并将参数设为“false”。使得默认姓名是合并状态。
图38 设置Zotero Connector导出文献名字为默认合并状态
2.3.2.3 Jasminum为知网的学位论文 PDF 添加书签
按照本文2.2.1与2.2.2节描述的方式安装Jasminum与PDFtk server,具体的介绍可参考PDFtk Server Manual。
对于Zotero的书签自动添加功能,按照本文2.2.2节安装设置PDFtk server并验证可用后,在导入文献后会自动识别标签并添加,如图39,前文拖动导入的文献已自动添加了标签。
图39 Jasminum为论文 PDF 添加书签功能展示
此外,还可以自动为知网硕博论文添加目录,具体描述参考:超重要!如何为知网PDF硕博论文生成目录?
笔者在最开始的尝试过程中均未成功,并且提示PDF路径错误,后来将导入的文献删除,重新导入后,目录便自动生成了,显示如图40。(奇奇怪怪…)
图40 Jasminum为知网硕博论文添加目录
2.3.2.4 Jasminum更新中文翻译器
参考本文2.3.1.2节。