PHP微信墙制作
微信墙
PHP
注意:由于微信官网不定时会更新,其中模拟登陆以及爬取数据的方式可能会失效,最近这12个月里,就有两次更新导致此功能需要重写。
思路
其实实现思路就是通过模拟登陆的方式登录到微信平台,然后通过正则表达式获取指定的内容放到数据库里面,同时这个操作要在一个定时任务里面定时运行一次,当然避免麻烦,cookie应该放到缓存中以免单位时间内多次登陆微信需要输入二维码验证的问题
关于项目中使用的工具问题
这种工程类博文中不会太涉及工具的使用以及库的介绍,我会在最后给出各种库的github地址或者官网地址方便大家预览,如果有必要,我会在另起一些工具类&库类的使用教程博客,这里就假定大家能熟练掌握编程语言,相关的IDE与常用三方库
步骤
1,创建工程
这里我们使用PHPStorm,创建一个composer project项目,并选择安装Laravel,PHP请开启Curl功能。
【注:composer是一个依赖管理工具,类似.NET里面的 nuget,java的maven一样,上面三个是我做项目的时候最喜欢用的,其中composer还有一些拓展比如 Composer Checker,Satis等,不过我看国内好像用的不多。
Curl是用于抓取网页 模拟HTTP请求使用,还可以使用第三方的库比如Buzz和Requests,其中Requests相当轻量.】
2,文件操作
创建一个Util文件夹存放工具类,根目录创建一个index.php 用作入口,模拟微信平台的请求除了cookie以外,还需要一个一个token值,为了方便下次使用,我们将他放到一个token.txt的文件里面,cookie存放在cookie.txt的文件里面,这里我们创建了FileUtil类来封装读写文件操作
3,模拟HTTP操作
为了方便我们模拟登陆,先把Http请求抽象出来,作为一个类单独存放在HttpUtil里面,网上有很多Curl的例子,这里我们依据此项目着重分析两点
1,http 头文件里面的Host,Referer,Origin都需要填写,不填写会返回-32这类的默认错误码,具体的值可以通过google开发者工具查看如下图
2,微信平台页面经过zip压缩,所以我们要在文件中加入下面的代码,防止乱码,同时注意微信平台页面编码为UTF-8,注意解析时候编码设置
curl_setopt($curl, CURLOPT_ENCODING ,‘gzip‘);
详细代码请直接在github上面查看即可,没有复杂的逻辑
4,数据库操作
通过HTTP获取到数据后,我们需要和数据库中的数据进行比对,如果有重复的就不需要再加进去了,这里我们使用WeiXinUtil类进行封装操作
关于数据库,这里我使用了mongodb,因为我在实验室有完善的mongo环境,连接即可使用,为了方便大家替换成mysql等 我把数据操作封装在了一个MongoUtil类里面,一个demo就没有用接口什么的进行抽象,替换掉就可以了,至于mongo的安装,配置,使用呢,可以去PHP官网里面的mongoDB的手册中查看--->传送门,你会喜欢上nosql的
下面是从微信爬来的数据
5,定时任务
作为演示,我在index.php里面使用的是一个死循环+sleep(5);函数这种简单粗暴的方式,让线程停止5秒在继续爬取数据,不过最后部署在*nix上的话,还是用cron命令执行php脚本吧,windows 推荐用计划任务执行脚本,至于各种云平台比如azure,阿里云都是有计划任务的,扔进去更方便
下面是azure
下面是阿里ACE
下一篇
下一篇将我会用laravel撸一个管理平台出来,当然为了保证并发性我曾经还用的是py的tornado,也用过SignalR2做过比较,写着玩吗,不过这个教程就用PHP到底算了,其实这也是我为什么用mongodb的原因之一,py,C#下操作它也相当easy的,so各位老爷们对这个感兴趣的话还可以先看看composer,那么砸个赞吧~~~明天见