request + beautifulsoup + openpyxl + 使用

###

安装
pip install requests
pip install -i https://pypi.douban.com/simple beautifulsoup4

 

####

引入和使用
import requests
from bs4 import BeautifulSoup

# 第一步:打开百度
headers = {
    "User-Agent":
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
    'Chrome/78.0.3904.108 Safari/537.36'
}
re = requests.get("https://www.baidu.com",headers=headers)
html = re.content.decode("utf-8")
bs = BeautifulSoup(html,"html.parser")
print(bs)

 

#####

requests的一些用法
各种请求方式:
import requests
requests.get('http://httpbin.org/get')
requests.post('http://httpbin.org/post')
requests.put('http://httpbin.org/put')
requests.delete('http://httpbin.org/delete')
requests.head('http://httpbin.org/get')
requests.options('http://httpbin.org/get')

get之后的处理: import requests response = requests.get('http://www.baidu.com') print(response.status_code) # 打印状态码 print(response.url) # 打印请求url print(response.headers) # 打印头信息 print(response.cookies) # 打印cookie信息 print(response.text) #以文本形式打印网页源码 print(response.content) #以字节流形式打印

 

#####

beautifulsoup的一些用法print(bs.prettify()) # 格式化html结构
print(bs.title) # 获取title标签的名称
print(bs.title.name) # 获取title的name
print(bs.title.string) # 获取head标签的所有内容
print(bs.head) 
print(bs.div)  # 获取第一个div标签中的所有内容
print(bs.div["id"]) # 获取第一个div标签的id的值
print(bs.a) 
print(bs.find_all("a")) # 获取所有的a标签
print(bs.find(id="u1")) # 获取id="u1"

for item in bs.find_all("a"): print(item.get("href")) # 获取所有的a标签,并遍历打印a标签中的href的值 for item in bs.find_all("a"): print(item.get_text())

 

#####

openpyxl的用法
pip install openpyxl
主要操作的就是读写,
操作表book,sheet,单元格cell

 

#####

有了这三个模块,加上python内置的邮件模块,就可以发邮件了,


如果可以部署到Linux,就可以每天发邮件了,

 

 

 

 

 

 

 

###

上一篇:Python第十四次知识点学习---爬网页


下一篇:11.bs4简单的使用