2014年做一个微信公众平台——平院小助手(pdsuhelp),想做一款产品,推广平台,于是便做了这个平院微信图书馆,托管于BAE(项目地址:pdsuhelp.duapp.com/lt),目前只能提供查询功能,至于续借等功能,以后看情况添加!
项目工作流程:
1、获取图书馆查询图书地址,通过get传参,替换word的参数
2、抓取图书列表页内容,并显示,抓取每本图书详情页面超链接,并加上a 标签 ,目前只能抓取第一页
3:点击进入图书详情页面,抓取主要信息,书名,书放的位置。
主要技术:
1:;前端框架采用jquery mobile
2:参数传递(post传参,主要传递“搜索关键词,用于php抓取目录页处理脚本”,和传递每本书的详情页url地址,用于抓取书籍详细信息页处理脚本)
3:页面抓取技术:
主要用了PHP采集库-Snoopy.class.php
简介:
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。
Snoopy的特点:
1、抓取网页的内容 fetch
2、抓取网页的文本内容 (去除HTML标签) fetchtext
3、抓取网页的链接,表单 fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码验证
6、支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7、支持浏览器重定向,并能控制重定向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、提交数据并且获取返回值
10、支持跟踪HTML框架
11、支持重定向的时候传递cookies
要求php4以上就可以了,由于本身是php一个类,无需扩支持,服务器不支持curl时候的最好选择。
版权声明:本文为博主原创文章,未经博主允许不得转载。