关于python抓包的指导

我仍然是python的新手,所以我希望这个问题不是真的.

我越是谷歌网络抓取解决方案,我变得越困惑(无法看到森林,尽管调查了很多树..)

我一直在阅读许多项目的文档,包括(但不限于)
scrapy
机械化
spynner

但我无法弄清楚我应该尝试使用哪种锤子..

我正试图抓取一个特定页面(www.schooldigger.com)
它使用asp,并且我需要能够模拟一些java脚本.

我知道这种问题不容易处理,所以我喜欢任何指导.

除了对可用选项的一般性讨论(以及不同项目之间的关系,如果可能的话),我还有几个具体的问题

>使用scrapy时,有没有办法避免定义要解析的“项目”,只需下载前几百页左右?我实际上并不想下载整个网站,但是,我希望能够在开发刮刀时看到正在下载哪些页面.
>机械化,asp和javascript,请看我发布的问题,但没有看到任何答案,
https://*.com/questions/4249513/emulating-js-in-mechanize
>为什么不构建某种实用程序(turbogears应用程序或浏览器插件),允许用户选择要跟随的链接和要以图形方式解析的项目?我所建议的只是坐在解析API上的某种gui.我不知道我是否具备创建这样一个项目的技术知识,但我不明白为什么它不可能,事实上,考虑到我对python的了解,它似乎相当可行.关于这类项目将面临哪些问题,可能会有一些反馈?
>最重要的是,所有网络抓取工具都是“特定于网站”的吗?在我看来,我在我的代码中重新发明*..(但那可能是因为我不擅长编程)
>任何人都有全功能刮刀的例子吗?文档中有很多例子(我们一直在研究),但它们似乎都只关注简单性,仅仅是为了说明软件包的使用,也许我会从一个更详细/更复杂的例子中受益.

谢谢你的想法.

解决方法:

对于完整的浏览器交互,最好使用Selenium-RC

这有一个python驱动程序,您可以编写浏览器脚本来“测试”互联网上的任何网站

上一篇:差分与前缀和


下一篇:开源监控系统Prometheus介绍