node 爬虫

node 爬虫

1:安装 request cheerio

2:cheerio 与jquery 使用基本上一样

// 爬虫
// 1:先有结构  ---> 获取html 解耦股 request 
// 2: 获取结构中内容  ---> cheeio ---> 与jq 一致
// 3:将内容进行数据重组  

var request = require('request');
var cheeio = require('cheerio');

request('https://www.jianshu.com/c/baff8cd74f8f',function(err,respose,body){
   var arr = [];// 重组的数据
   var $ = cheeio.load(body); 
   $('.note-list li').each(function(){
       
      var title =  $(this).find('.title').text();
      var abstract = $(this).find('.abstract').text();
      var imgSrc = $(this).find('.wrap-img img').attr('src')
      if(imgSrc===undefined){
          imgSrc = ''
      }
      arr.push({
          title:title,
          abstract:abstract,
          imgSrc:imgSrc
      })
   })

   console.log(arr);

})

// 重组数据解耦股:
// 1:相同结构放在数组中;
// 2:不同属性;用对象方式。

// 这里爬虫获取的是;初始化的数据;同步数据;不能获取异步的数据

// 爬虫数据后;在进一步处理;增删改查。等操作
上一篇:java设计模式---templateMethod模式


下一篇:接口使用的注意事项及重要特点