# 每次请求一次,然后写文件,这样可以规避多次请求触发反爬虫
r = requests.get('https://www.pearvideo.com/video_1522192')
html = r.content.decode("utf-8")
print(html)
with open("./test.html","w") as f:
f.write(html.encode("gbk","ignore").decode("gbk","ignore")) #再次编码,解码 #读取文件
with open('test.html', encoding='gbk') as file_obj:
contents = file_obj.read()
#正则匹配视频地址
regex = re.compile('srcUrl="(.+?)"')
print(regex.findall(contents))
相关文章
- 01-25使用VSCode添加头文件时遇到"检测到 #include 错误。请更新 includePath"的问题
- 01-25如何解决dos窗口编译时出现乱码,“编码GBK的不可映射字符”的错误
- 01-25python2升级到python3时遇到的编码问题汇总
- 01-25SourceTree推送分支时遇到ArgumentException encountered错误的解决办法
- 01-25当enumerate时出现“_pickle.UnpicklingError: pickle data was truncated”错误的解决方案
- 01-25当 Windows 10 应用商店更新游戏/应用遇到 0x80070032 错误时的一种解决方案
- 01-25在用Scrapy进行爬虫时碰到的错误
- 01-25接口自动化设计用例时遇到的问题1 (要传的data的一个参数多个一个空格,导致返回结果错误,接口是正常的)
- 01-25错误:启动AutoCAD时出现“致命错误:未处理的访问冲突读取0x0000例外...”解决方案
- 01-25错误: 编码GBK的不可映射字符