一直想把自己这段时间做的东西整理下,确迟迟没有动手,现在信息抽取工作已经做的差不多,把自己感觉很好用的两个工具介绍给大家吧!
Firefox真是一个好东西,它许多插件。本人是很讨厌插件的,每次电脑里都会安装一大堆无用的插件,看着心里不爽。由于项目需要,要看网页的代码,并且找到有用信息,如果下载一个html页面,用记事本打开看,那无异于是一场灾难,幸好同事给我推荐了firebug这个看代码的工具,后来把html文件转化成xml,要提取信息,需要用到xpath。由于不知道xpath是否正确,这个工具就可以验证,呵呵。说了好多废话,开始介绍下我的使用历程吧。
从firefox的官方网站上下载firebug和xpathchecker这两个插件,安装步骤安装就可以了。
Firebug:
安装好之后,可以在屏幕的下方看到一个小虫的标志,是暗色的,说明该插件没有开启,点小虫图标屏幕下方会出现一栏。
在这一栏可以看到小虫变亮了,旁边还有查看,编辑的功能。
点查看,然后移动鼠标到你想的内容,这时发现你鼠标在的地方在下面一栏的代码就出现了。
简单吧,但对你要看代码,知道代码的具体位子可是很重要的。
在代码处 点右键, 出现菜单栏, 选中复制XPath
将XPath 复制到文件就可以看到选中内容的xpath了。
它还有很多有用的功能,因为不需要,也没有研究,呵呵。
XPath Checker:
在网上看了使用方法,开始没看明白,后来才知道是在页面上点鼠标右键,出现菜单,点击view xpath。
将刚才的XPath复制到XPath checker中刚才的内容就显示出来。
还可以把xml用firefox打开,然后点view xpath,在xpath checker里的xpath输入你要查找的xpath,结果就出来了,很有用的哦!