01-第一个爬虫程序

from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))

print("over!")

之后会把百度的源代码爬下来,放到一个mybaidu.html文件中。

注意:
01-第一个爬虫程序
open这个函数,默认使用的编码解码方式,是我们平台默认的编码方式,windows是gbk。但是百度默认编码方式是utf-8,因此如果不使用encoding="utf-8"进行转换的话,会出现乱码

上一篇:文件操作模式


下一篇:文件操作理论升级