一、虚拟环境
mkvirtualenv --python=/usr/local/bin/python3 scrapy workon scrapy二、安装Scrapy
pip install scrapy三、Scrapy终端
pip install ipython Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。 一旦熟悉了Scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用。 调试问题 scrapy shell 503错误,可以加参数修改agent scrapy shell -s USER_AGENT='Mozilla/5.0' "http://www.data5u.com/"四、Scrapy操作mysql数据库
pip install pymysql pip install sqlalchemy五、安装Selenium
pip install selenium六、安装chromedriver
chromedriver获取地址:http://npm.taobao.org/mirrors/chromedriver/
根据平台选择安装chromedriver并移动至系统目录下,如/usr/local/bin
运行"chromedriver"检测是否安装成功。七、Centos7安装Chrome
参考文章 https://solicomo.com/linux/headless-chrome-on-centos7.html1、下载
https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm2、安装
yum install ./google-chrome-stable_current_x86_64.rpm 或者 yum install google-chrome-stable 查看版本 google-chrome-stable --no-sandbox —version3、安装chromedriver
http://npm.taobao.org/mirrors/chromedriver/ 放到/opt/google/chrome下 $ ln -s /opt/google/chrome/chromedriver /usr/bin/4、安装字体库
yum install libXfont xorg-x11-fonts* -y