最近业务需要,大体就是从一些相关的微信公共号来抓取每日推送的内容来。
想来想去没有什么思路,好在前几天看到搜狗可以搜索微信公共号,一看果然有戏。
这样一来就能看到该微信号完整的历史信息了。哈哈,然后果断用jsoup抓之
但是高兴的好像早了点,发现网页的渲染用的是jsonp,貌似jsoup不能执行js,然后分析了一下来源。
发现数据来自这样一个链接
http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid=oIWsFtz7I769OeSHNhnxcWbsas8s&page=1&t=1421556435543
返回的格式如下
然后剩下的事情就简单啦,直接从里面拿到第一个文章的链接就行啦。
为了方便大家,我把我写的程序打成了一个jar包,方便大家调用。
由于本人不是写java的,可能有更好的实现方式,稍等把源码上传到OSchina上,欢迎大家指正
jar包下载地址 点此,可以获文章的标题,内容,图片的url以及时间等等。
使用方法非常简单
//openId WechatSpider spider = new WechatSpider("oIWsFt1cKphwPhDydMD0b_fi7n80"); System.out.println(spider.getTitle());
欢迎大家指证。