python爬虫真的很方便,自己不能忽视的问题就是字符编码的问题,一直想腾出时间来看,一直没有时间。明天开始看吧。
今天是学习python爬虫的第一天,从B站上搜到的,可惜可惜。
import requests def getHtmlText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常" url="http://baidu.com"
print(getHtmlText(url))
一开始的代码很简单,就是爬取百度的内容。百度做了反爬虫的处理,哈哈哈哈。
import requests
kv={'user-agent':"Mozilla/5.0"}
r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)
print(r.status_code)
print(r.text)
爬亚马逊,亚马逊对爬虫做了限制处理,直接爬取会出错,令爬虫模拟浏览器。
r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)
import requests
kv={"wd":'python'}
r=requests.get("https://www.baidu.com/s",params=kv)
print(r.status_code)
print(r.request.url)
爬取百度关键字的搜素内容,难度不大,使用params参数就行了。