根据正则规则爬取一个页面视频的方法

1.import re #正则模块

 

import  requests
import re #正则模块

#1、对梨视频详情页发送请求,获取相应数据
response = requests.get('https://www.pearvideo.com/')
print(response.status_code)
print(response.text)

# re.findall("正则匹配规则",“解析文本”,“正则模式”)
#re.S:是指全局模式(对整个文本进行匹配)
#如果不写, 则逐行匹配;

#res = re.findall('video_(.*?)',response.text,re.S)

#video_(.*?) 其中,.是指当前位置,*表示贪婪匹配,查找所有;;()表示提取,不加表示直接匹配,?表示逐行
#发现提取不出来,说明匹配规则出了问题。
#修改提取规则:开发者模式打开——找到element-》找到<a href .... ——》然后右击copy,复制想要的部分,如<a href="video_


#2、获取主页视频详情页ID
res = re.findall('<a href="video_(.*?)',response.text,re.S)

for m_id in res:
  #拼接详情页URL
detail_url='https://peavideo.com/video_'+m_id
print(detail_url)


具体代码如下:
import  requests
import  re   #正则模块

#对梨视频详情页发送请求,获取相应数据
response = requests.get('https://www.pearvideo.com/')
print(response.status_code)
print(response.text)

res = re.findall('<a href="video_(.*?)',response.text,re.S)

for m_id in res:
    detail_url='https://peavideo.com/video_'+m_id
    print(detail_url)

  

 

上一篇:re正则表达式


下一篇:Python – 使用findall查找最长的序列