在玩爬虫的时候,针对https ,需要单独处理。不然就会报错:
解决办法:引入 ssl 模块即可
核心代码
imort ssl
ssl._create_default_https_context = ssl._create_unverified_context
完整代码如下:
# coding=utf-8
import re
import urllib.request
import ssl # 获取html内容
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('utf-8')
return html # 获取title
def get_title(html):
reg = r'<title>(.*)</title>'
content_title = re.compile(reg)
result = re.findall(content_title, html)
return result # 创建ssl证书
ssl._create_default_https_context = ssl._create_unverified_context
url = "https://www.cnblogs.com"
html = getHtml(url)
title = get_title(html) print(title)
结果: