Python 2.6:使用urllib2并行解析

我目前正在使用urllib2从网站检索和解析页面.但是,它们很多(超过1000个),并且顺序地处理它们非常缓慢.

我希望有一种以并行方式检索和解析页面的方法.如果这是个好主意,那有可能吗,我该怎么做?

此外,并行处理的页面数的“合理”值是什么(我不想因为对服务器使用过多的连接而对服务器造成太大的压力或被禁止)?

谢谢!

解决方法:

您始终可以使用线程(即在单独的线程中运行每次下载).对于大量数据,这可能会占用太多资源,在这种情况下,我建议您查看gevent,尤其是this example,这可能正是您所需要的.

(来自gevent.org:“gevent是一个基于协程的Python网络库,它使用greenlet在libevent事件循环的顶部提供高级同步API”)

上一篇:浅谈Python网络爬虫


下一篇:python爬虫2 opener