在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

一:ubuntu下安装python集成环境pycharm以及免费激活

安装

首先去下载最新的pycharm 2016.2.3,进行安装。可以直接在官网下载。选择自己所对应的版本

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

PyCharm 的激活方式:

1,推荐购买正版。

2,可以选择试用,免费试用30天。

3,网上找激活码:

(下面的激活码来自蓝宇激活,现在激活有效期到2017年2月)

user name: EMBRACE

key:
14203-12042010
0000107Iq75C621P7X1SFnpJDivKnX
6zcwYOYaGK3euO3ehd1MiTT"2!Jny8
bff9VcTSJk7sRDLqKRVz1XGKbMqw3G、

然后傻瓜式默认下一步--下一步:

在ubuntu下添加快捷式命令如下图

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

然后命令行打开:如下图

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

软件打开后如下图:

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

安装一些必要的第三方库:

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

安装完库后,(建议使用pip进行安装) ,然后使用姚老板爬虫系统进行暴力撞库,匹配学生学号,然后正则匹配学生个人信息,抓取信息到本地文件夹进行保存,等待抓取者二次数据处理以及利用(时间有点久,抓取一个年级基本需要1个半小时)

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

抓取后的结果如下:

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

为了本人的生命安全以及学校的数据安全(本次爬虫均为技术分享,不涉及商业利益)下面以我的个人信息为例(01代表计算机学院)

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

年级的学号就不一一展示了,只展示一下我的就行了!

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

-------------------------------------我是分割线---------------------------------------------------

二:python求解最大子数组算法(分治策略)

使用分治策略,将数组划分为两个规模尽量相等的子数组。也就是找到数组的*位置mid。然后考虑求解A[low..mid],A[mid+1,high]。

最大子数组必然为下列三种情况之一:

1.位于A[low..mid],完全位于左数组

2.位于A[mid+1..high],完全位于右数组

3.位于A[i..mid..j],即跨越了中点,且 low<=i<=mid<=j<=high

话不多说,直接上图

在linux下写一只优雅的爬虫---优雅的获取沈航所有学生的个人信息

代码如下:

# -*- coding:utf8 -*-
def max_subArray_inMid(ary,low,mid,high):
max_sum = -100000
left_index=right_index = mid
sum = 0 i = mid
while low<=i:
sum+=ary[i]
if sum > max_sum:
max_sum = sum
left_index = i
i-=1 i = mid + 1
sum = max_sum
while i <= high:
sum+=ary[i]
if sum > max_sum:
max_sum = sum
right_index = i
i+=1 return (max_sum,left_index,right_index) #没有跨越中点的最大数组
def max_subArray(ary,low,high):
if(low == high):
return (ary[low],low,high) mid = int((low+high)/2)
(left_max,left_left,left_right) = max_subArray(ary,low,mid)
(right_max,right_left,right_right) = max_subArray(ary,mid+1,high) (mid_max,mid_left,mid_right) = max_subArray_inMid(ary,low,mid,high)
if left_max > right_max and left_max > mid_max:
return (left_max,left_left,left_right)
elif right_max > left_max and right_max > mid_max:
return (right_max,right_left,right_right)
else:
return(mid_max,mid_left,mid_right) ary = [13,-3,-25,20,-3,-16,-23,18,20,-7,12,-5,-22,15,-4,7]
print(max_subArray(ary,0,len(ary)-1))

本代码在coding.net地址为:https://coding.net/u/woshicq2012/p/python/git/blob/master/zAdzszh.txt

上一篇:【HANA系列】SAP HANA Studio代码提示设置方法


下一篇:通俗地理解面向服务的架构(SOA)以及微服务之间的关系