package com.letv.cloud.spider;
import java.util.HashSet;
import java.util.List;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class MoviePaperPageProcessor implements PageProcessor {
private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);
public Site getSite() {
return page;http://www.huiyi8.com/moban/
public void process(Page page) {网页模板
List<String> links = page.getHtml().links().regex(
"http://posters.imdb.cn/poster/\\d+").all();
links = removeDuplicate(links);
page.addTargetRequests(links);
page.putField("title", page.getHtml().xpath(
"//div[@id=‘imdbleftsecc‘]/center/h1/text()").toString());
page.putField("imgurl", page.getHtml().xpath(
"//div[@id=‘imdbleftsecc‘]/center/img/@src").toString());
public static void main(String[] args) { for (int i = 1; i <= 3; i++) {
Spider.create(new MoviePaperPageProcessor()).addUrl(
"http://posters.imdb.cn/poster_page/" + i).thread(5).run();
public static List removeDuplicate(List list) {
HashSet hs = new HashSet(list);
list.clear();
list.addAll(hs);
return list;
相关文章
- 10-09Arduino R3 红外接收控制小坦克程序
- 10-09【Python爬虫实战】Scrapy框架的安装 搬运工亲测有效
- 10-09用CefSharp做万能爬虫,批量下载抖音用户发布的作品以及点赞视频
- 10-09165_初识Java_程序-进程-线程_学习
- 10-09如果我在Flask应用程序中使用SimpleCache,会出现什么问题
- 10-09在AWS EC2上部署django应用程序时,无法在端口80上运行gunicorn
- 10-09python-manage.py是组织/编写Flask应用程序的正确方法吗?
- 10-09python – 在Gunicorn / Flask应用程序中的进程之间共享静态全局数据
- 10-09python – 使用gunicorn运行应用程序错误
- 10-09网页爬虫入门