###
安装
pip install requests
pip install -i https://pypi.douban.com/simple beautifulsoup4
####
引入和使用 import requests from bs4 import BeautifulSoup # 第一步:打开百度 headers = { "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/78.0.3904.108 Safari/537.36' } re = requests.get("https://www.baidu.com",headers=headers) html = re.content.decode("utf-8") bs = BeautifulSoup(html,"html.parser") print(bs)
#####
requests的一些用法 各种请求方式: import requests requests.get('http://httpbin.org/get') requests.post('http://httpbin.org/post') requests.put('http://httpbin.org/put') requests.delete('http://httpbin.org/delete') requests.head('http://httpbin.org/get') requests.options('http://httpbin.org/get')
get之后的处理: import requests response = requests.get('http://www.baidu.com') print(response.status_code) # 打印状态码 print(response.url) # 打印请求url print(response.headers) # 打印头信息 print(response.cookies) # 打印cookie信息 print(response.text) #以文本形式打印网页源码 print(response.content) #以字节流形式打印
#####
beautifulsoup的一些用法print(bs.prettify()) # 格式化html结构 print(bs.title) # 获取title标签的名称 print(bs.title.name) # 获取title的name print(bs.title.string) # 获取head标签的所有内容 print(bs.head) print(bs.div) # 获取第一个div标签中的所有内容 print(bs.div["id"]) # 获取第一个div标签的id的值 print(bs.a) print(bs.find_all("a")) # 获取所有的a标签 print(bs.find(id="u1")) # 获取id="u1"
for item in bs.find_all("a"): print(item.get("href")) # 获取所有的a标签,并遍历打印a标签中的href的值 for item in bs.find_all("a"): print(item.get_text())
#####
openpyxl的用法
pip install openpyxl
主要操作的就是读写,
操作表book,sheet,单元格cell
#####
有了这三个模块,加上python内置的邮件模块,就可以发邮件了, 如果可以部署到Linux,就可以每天发邮件了,
###