Python Day08习题

2022-11-10 18:49:40

爬取20个网页

01

import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
url = 'https://news.baidu.com/guonei'
response = requests.get(url,headers=headers)
response.encoding = 'utf8'
html = response.text 
#print(html)    
title = re.findall('<li>.+>(\S+)</a></li>',html)
print(title)
""" 
运行结果：
['网页', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '驻联合国大使陈旭：香港需要止暴制乱恢复秩序', '台风又要来了？周末雨水来“报道”义乌高温依旧“', '这就
是乱港分子要带给香港的“*”？', '村里有了保洁志愿队伍，嘉祥贫困户更干净、心更亮', '印宇鹰主持召开全县*工作现场办公会', '安徽一保时捷女司机当街质问：交警就是这样
干事的？结..', '福建200年网红古村，游客来了大呼“照骗”，你怎么..', '安徽霍邱一辅警执勤时被大货车碾压身亡，案件侦办中', '安徽最没有“存在感”的城市，游客只知九华山，
却很少..', '判了！安徽男子电动车充电引发火灾，致3人死亡']
 """

码农公寓

Python Day08习题

爬取20个网页

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

码农公寓

爬取20个网页

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

相关文章