python-RSS屏幕抓取器

谁能指出我想要的现成的RSS屏幕抓取工具,最好使用Python,以获得全文RSS feed?

解决方法:

抱歉,尽管在php中存在,但它在python中并不存在.然后,欢迎您使用和改进我命名为scraped的产品.尽管它不能覆盖所有站点,但它是一个基于配方的系统,目前仅处理NYT,《华尔街日报》和《经济学人》.我正在研究一种全包式算法,但这是一项重大任务.它包括对不同类型的html和xml的大量分析.即使是上面提到的3个站点,在如何刮除它们的站点方面也有很大不同的算法WSJ是迄今为止最复杂的.他们用太多无用的废话来破坏HTML,主要是为了阻止您.

这是我正在谈论的程序,它需要lxml,但是它解释了自述文件中的所有内容.它读取配置文件,解析部分rss feed,获取链接,然后抓取这些链接,最后形成RSS 2.0 xml文件.我主要将其转换为电子书.我利用lxml,BeautifulSoup和feedparser.

http://tinyurl.com/yh3s9pa

您还可以查看口径项目,该项目在食谱上使用与我执行此操作类似的方法.

上一篇:c# – 覆盖syndicationfeed中的根元素,将名称空间添加到根元素


下一篇:php – 如何正确创建Zend Feed?