在进行爬虫之前要进行第三方库的安装。python爬虫需要的一部分第三方库如下:
- BeautifulSoup4 – 网页解析,获取数据
- re – 正则表达式,进行文字匹配
- urllib.request,urllib.error – 制定URL,获取网页数据
- xlwt – 进行Excel操作
- sqlite3 – 进行SQLite数据库操作
bs4很容易安装,直接pip install bs4就可以安装成功。
在安装re库和urllib库时开始报错:
【报错代码】
ERROR: Could not find a version that satisfies the requirement re
ERROR: No matching distribution found for re
试了论坛中的很多方法,依旧还是这个错误。后来百度发现re库和urllib库是嵌入式数据库,在安装python时就有,检测如下:
>>> import re
>>> import urllib
>>> import urllib.request
>>> urllib.request.urlopen('http://www.baidu.com')
<http.client.HTTPResponse object at 0x000001FD5B0EBE80>
导入re、urllib、urllib.request,再打开’http://www.baidu.com’,不报错。
>>> import re
>>> import sqlite3
再输入上面代码,不报错就说明这几种库全部安装成功。