本段代码首先打开了CSDN网站,再点击Python模块,读取与python有关的博文信息
根据不同的页面结构可以改变代码
# 可以编程的web浏览方式(环境python3.8)
# 非标准库 用于解析页面
from bs4 import BeautifulSoup, SoupStrainer
# 非标准库 用于模拟浏览器
from mechanize import Browser
br = Browser()
br.addheaders = [('User-Agent', 'Mozilla/5.0')]
# 主页
rsp = br.open('https://www.csdn.net/')
print('\n***', rsp.geturl())
print("检查页面中是否有Python,然后点击")
page = rsp.read()
# print(page.decode())
assert 'Python' in page.decode(), 'Python不存在'
rsp = br.follow_link(text_regex='Python')
list_info = [x.string for x in BeautifulSoup(rsp.read().decode(), 'html5lib').findAll('a')]
for i in list_info:
if i:
print(i.strip())