我想为我的网站构建一个RSS Feed Crawler.虽然我不太确定,如何开始这个.我的Crawler如何识别RSS提要?有什么东西我可以抓取,每个RSS阅读器都有?
我不需要任何代码,只需要帮助我的大脑了解我必须创建的内容.
谢谢之前!
问候
Xatenev
解决方法:
我认为如果您的抓取工具扫描所有链接并打开每个页面至少一次以查找文本< rss version =“2.0”>.根据我的理解,每个RSS提要都应包含此行.
<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title>RSS Title</title>
<description>This is an example of an RSS feed</description>
<link>http://www.someexamplerssdomain.com/main.html</link>
<lastBuildDate>Mon, 06 Sep 2010 00:01:00 +0000 </lastBuildDate>
<pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate>
<ttl>1800</ttl>
<item>
<title>Example entry</title>
<description>Here is some text containing an interesting description.</description>
<link>http://www.wikipedia.org/</link>
<guid>unique string per item</guid>
<pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate>
</item>
</channel>
</rss>
如果您打算使用PHP,我对使用PHP构建的SimpleXML有非常积极的体验.
附: Xatenev你是受欢迎的;)