ubuntu云服务器配置爬虫库

安装anacondas

是从清华大学的镜像源里找到自己喜欢的版本

https://repo.anaconda.com/archive

使用wget来直接安装指定版本的anacondas

wget https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh

运行安装包的脚本文件

bash Anaconda3-5.3.1-Linux-x86_64.sh

按提示完成安装~

配置anacondas环境变量

打开配置文件

sudo vim ~/.bashrc

在最后一行中加入自己安装的anaconda下bin的路径

#set Anaconda3 environment
export PATH="/home/ubuntu/anaconda3/bin:$PATH"

使文件立即生效

source ~/.bashrc

配置jupyter

生成一个sha1加密的密文

vim generateSha.py

在里边写入

from notebook.auth import passwd
print(passwd(‘google‘))

运行py文件得到一串sha1加密的密文,记下来

sha1:eb9b3623beca:60166d5389186cff356195341f2b92c77735caf8

python generateSha.py

查看jupyter配置文件的路径

jupyter notebook --generate-config

打开jupyter配置文件

vim /home/ubuntu/.jupyter/jupyter_notebook_config.py

加入以下内容

c.NotebookApp.ip = ‘*‘
c.NotebookApp.port = 8888
c.NotebookApp.open_browser = False
c.NotebookApp.password = u‘sha1:175857feb4bc:81edf72d2ad0f8f634dc8aa3ca8f195f2580219a‘

意外:通常Xshell如果断开连接后需要重新使文件立即生效

source ~/.bashrc

创建一个jupyter-workplace的工作空间,用存放咋们的工程

mkdir jupyter-workplace

进入jupyter-workplace文件夹

cd jupyter-workplace

启动jupyter,让其在后台运行并输出日志到jupyter.log中

nohup jupyter notebook --allow-root > jupyter.log 2>&1 &

修改jupyter权限,否则会出现创建ipynb被拒绝的情况

sudo chmod 777 ~/.local/share/jupyter/

安装请求库

requests安装

(anacandas已有)

pip安装

pip install -i https://pypi.doubanio.com/simple/ requests

Selenium安装

pip install -i https://pypi.doubanio.com/simple/ Selenium

ChromeDriver安装

(嘤嘤嘤装不上,go die了)


假如你是国外的云服务器:下载指令,卧槽我忘了国内服务器访问不了谷歌平台。。嗨呀这条指令只适用海外的服务器

wget -O gdrive https://sites.google.com/site/wun913/Home/gdrive-linux-x64

假如你是国内的云服务器:

搭个*到这里下载以后,再用Xtfp啥的文件传输工具传到服务器吧。。

https://sites.google.com/site/wun913/Home/gdrive-linux-x64


root权限下:移动 gdrive 到 /usr/bin

mv gdrive-linux-x64 /usr/bin/gdrive

添加执行权限

chmod +x /usr/bin/gdrive

aiohttp安装

pip install -i https://pypi.doubanio.com/simple/ aiohttp

安装解析库

lxml安装

(忘了看anacondas有没有装了就报错了,好像是自带了0 0)

先安装必要的库

sudo apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

再pip安装

pip install -i https://pypi.doubanio.com/simple/ lxml

Beautiful Soup安装

(anacondas自带了)

pip install -i https://pypi.doubanio.com/simple/ beautifulsoup4

pyquery安装

pip install -i https://pypi.doubanio.com/simple/ pyquery

tesserocr安装

安装各种版本的依赖

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

安装完以后可以用命令运行一下查看语言

tesseract --list-langs

他只支持几种语言,想要安装其他语言的话就得去为https://github.com/tesseract-ocr/tessdata下载

克隆到服务器上

git clone https://github.com/tesseract-ocr/tessdata.git

迁移到tesseract中

sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

再用pip安装

pip install -i https://pypi.doubanio.com/simple/ tesserocr

安装数据库

mysql安装

apt安装

sudo apt-get update 
sudo apt-get install -y mysql-server mysql-client

MongoDB安装

apt安装

sudo apt install -y mongodb

使mongoDB在端口27017上运行,数据文件保存到/data/db路径下

mongod --port 27017 --dbpath /data/db 

进入mongo数据库创建一个角色信息用于远程访问

进入mongo数据库

mongo --port 27017

创建一个数据库角色,名为moon,密码为123,权限为root,使用的数据库为admin

db.createUser({user:‘moon‘,pwd:‘123‘,roles:[{role:‘root‘,db:‘admin‘}]})

查看mongo配置文件路径

ps -ax | grep mongod

修改mongo配置文件使得能够远程访问

sudo vi /etc/mongod.conf

net部分和security修改如下:

net: 
	port: 27017 
	bindip: 0.0.0.0
security:
	authorization:enabled

重启mongoDB服务

sudo systemctl restart mongodb

其他相关指令


更新用户密码

use admin
db.changeUserPassword(‘tank2‘,‘test‘);  

查看服务当前状态

sudo systemctl status mongodb

停止服务

sudo systemctl stop mongodb

启动服务

sudo systemctl restart mongodb

禁用自启动

sudo systemctl disable mongodb

开启自启动

sudo systemctl enable mongodb

Redis安装

apt安装

sudo apt-get -y install redis-server

进入Redis命令行验证是否安装成功

进入Redis命令行

redis-cli

输入两条指令

set ‘name‘ ‘Germey‘
get ‘name‘

这样就成功了,但是还没有办法远程连接,于是接着。。

ubuntu云服务器配置爬虫库

打开本地文件

vim /etc/redis/redis.conf

注释掉这一行

bind 127.0.0.1

ubuntu云服务器配置爬虫库ubuntu云服务器配置爬虫库

取消注释这一行

requirepass foobared

可以在vim搜索来找到这一行,foobared为当前密码,自行修改成自己想要的密码

ubuntu云服务器配置爬虫库ubuntu云服务器配置爬虫库

之后重启Redis服务

sudo /etc/init.d/redis-server restart

ubuntu云服务器配置爬虫库

其他指令


关闭Redis服务

sudo /etc/init.d/redis-server stop

开启Redis服务

sudo /etc/init.d/redis-server start

安装存储库

PyMySQL安装

pip install -i https://pypi.doubanio.com/simple/ pymysql

PyMongo安装

pip install -i https://pypi.doubanio.com/simple/ pymongo

Redis-py安装

pip install -i https://pypi.doubanio.com/simple/ redis

RedisDump安装

如果没有Ruby,先apt安装

sudo apt-get install ruby-full

再使用gem来安装RedisDump

gem install redis-dump

安装Web库

Flask安装

(已自带)

pip install -i https://pypi.doubanio.com/simple/ flask

Tornado安装

(已自带)

pip install -i https://pypi.doubanio.com/simple/ tornado

安装App爬取相关库

Charles安装

这个好像没必要装在服务器上,因为是图形化界面的

mitmproxy安装

到https://github.com/mitmproxy/mitmproxy/releases/下载二进制包

用Xftp传到服务器后解压,移动到/usr/bin

tar -zxvf mitmproxy-2 .0.2-linux.tar.gz 
sudo mv mitmproxy mitmdump mitmweb /usr/bin

Appium安装

ubuntu就是舒服。。只需要三条指令

先安装nodejs

sudo apt-get install nodejs

再安装npm

sudo apt-get install npm

最后用npm安装appium

npm install -g appium

npm --registry http://registry.cnpmjs.org install -g appium

安装爬虫框架

pyspider安装

pip install -i https://pypi.doubanio.com/simple/ pyspider

拓展:杀死后台进程和

查看进程号

ps -aux

根据Pid杀死某个进程

kill pid

拓展:vim查找关键字

比如想找requirepass,先按一下ESC再输入/requirepass/,然后回车!

ubuntu云服务器配置爬虫库

上一篇:随堂练习 shell脚本(四)


下一篇:mac电脑的使用