Python Day08习题

爬取20个网页

01

import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
url = 'https://news.baidu.com/guonei'
response = requests.get(url,headers=headers)
response.encoding = 'utf8'
html = response.text 
#print(html)    
title = re.findall('<li>.+>(\S+)</a></li>',html)
print(title)
""" 
运行结果:
['网页', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '驻联合国大使陈旭:香港需要止暴制乱恢复秩序', '台风又要来了?周末雨水来“报道”义乌高温依旧“', '这就
是乱港分子要带给香港的“*”?', '村里有了保洁志愿队伍,嘉祥贫困户更干净、心更亮', '印宇鹰主持召开全县*工作现场办公会', '安徽一保时捷女司机当街质问:交警就是这样
干事的?结..', '福建200年网红古村,游客来了大呼“照骗”,你怎么..', '安徽霍邱一辅警执勤时被大货车碾压身亡,案件侦办中', '安徽最没有“存在感”的城市,游客只知九华山,
却很少..', '判了!安徽男子电动车充电引发火灾,致3人死亡']
 """

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

上一篇:day08整理(周总结\列表\字典内置方法)


下一篇:Java并发编程学习第一部分day08——定制并发类