1.import re #正则模块
import requests
import re #正则模块
#1、对梨视频详情页发送请求,获取相应数据
response = requests.get('https://www.pearvideo.com/')
print(response.status_code)
print(response.text)
# re.findall("正则匹配规则",“解析文本”,“正则模式”)
#re.S:是指全局模式(对整个文本进行匹配)
#如果不写, 则逐行匹配;
#res = re.findall('video_(.*?)',response.text,re.S)
#video_(.*?) 其中,.是指当前位置,*表示贪婪匹配,查找所有;;()表示提取,不加表示直接匹配,?表示逐行
#发现提取不出来,说明匹配规则出了问题。
#修改提取规则:开发者模式打开——找到element-》找到<a href .... ——》然后右击copy,复制想要的部分,如<a href="video_
#2、获取主页视频详情页ID
res = re.findall('<a href="video_(.*?)',response.text,re.S)
for m_id in res:
#拼接详情页URL
detail_url='https://peavideo.com/video_'+m_id
print(detail_url)
具体代码如下:
import requests import re #正则模块 #对梨视频详情页发送请求,获取相应数据 response = requests.get('https://www.pearvideo.com/') print(response.status_code) print(response.text) res = re.findall('<a href="video_(.*?)',response.text,re.S) for m_id in res: detail_url='https://peavideo.com/video_'+m_id print(detail_url)