javascript – 如何使用Perl的LWP提取网站的XML并保存在文件中?

如何从网站(http://tv.yahoo.com/listings)中提取信息,然后从中创建XML文件?我想保存它以便稍后解析并使用JavaScript显示信息?

我是Perl的新手,我不知道如何做到这一点.

解决方法:

当然.最简单的方法是Web::Scraper模块.它的作用是让你定义包含的刮刀对象

>哈希键名称,
>定位感兴趣元素的XPath表达式,
>和代码从中提取数据位.

Scraper对象获取URL并返回提取数据的哈希值.如果需要,每个键的提取器代码本身可以是另一个scraper对象,这样您就可以定义如何刮擦重复的复合页面元素:提供XPath以在外部刮刀中找到复合元素,然后提供更多的XPath来拉动在内部刮刀中分出它的各个位.然后结果自动成为嵌套数据结构.

简而言之,您可以非常优雅地将来自整个页面的数据吸收到Perl数据结构中.这样,XPath Perl的全部功能可用于任何页面.由于页面是使用HTML :: TreeBuilder进行解析的,因此它的标签是多么令人讨厌.生成的scraper脚本比基于正则表达式的scraper更容易维护,并且更容忍轻微的标记变化.

坏消息:到目前为止,它的文档几乎不存在,所以你必须通过谷歌搜索来找到像[miyagawa web::scraper]这样的东西来找到模块​​作者发布的示例脚本.

上一篇:处理概括关系(读书摘要——重构改善既有代码的设计)


下一篇:Subsetting (子集)