pandas复习

import pandas as pd
import requests
from urllib.parse import urlencode
from bs4 import BeautifulSoup
import pandas as pd


for i in range(2,20):  # 爬取全部177页数据
	url = 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s' % (str(i))
	tb2 = pd.read_html(url)[3] #经观察发现所需表格是网页中第4个表格,故为[3]
	tb2.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0)
	print('第'+str(i)+'页抓取完成')
---------------------------------------------------------------------------
# 网页提取函数
def get_one_page(i):
	try:
		headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
        }
		paras = {
		'reportTime': '2017-12-31',   
		#可以改报告日期,比如2018-6-30获得的就是该季度的信息
		'pageNum': i   #页码
		}
		url = 'http://s.askci.com/stock/a/?' + urlencode(paras)
		response = requests.get(url,headers = headers)
		if response.status_code == 200:
			return response.text
		return None
	except RequestException:
		print('爬取失败')

# beatutiful soup解析然后提取表格
def parse_one_page(html):
	soup = BeautifulSoup(html,'lxml')
	content = soup.select('#myTable04')[0] #[0]将返回的list改为bs4类型
	tbl = pd.read_html(content.prettify(),header = 0)[0]
	print("success")    
	return tbl
	# rename将表格15列的中文名改为英文名,便于存储到mysql及后期进行数据分析
	# tbl = pd.DataFrame(tbl,dtype = 'object') #dtype可统一修改列格式为文本

# 主函数

for i in range(1,10):   # page表示提取页数
    html = get_one_page(i)
    tb2= parse_one_page(html)
    print(f"当前i值为{i}")
    
    tb2.to_csv('2.csv', mode='a', encoding='utf_8_sig', header=1, index=None)
#     print(tb2)
    print("success")
# 单进程
  #共提取n页
success
当前i值为1
success
success
当前i值为2
success
success
当前i值为3
success
success
当前i值为4
success
success
当前i值为5
success
success
当前i值为6
success
success
当前i值为7
success
success
当前i值为8
success
success
当前i值为9
success
data=pd.read_csv("2.csv")
data.shape
(797, 15)
#   tbl.rename(columns = {'序号':'serial_number', '股票代码':'stock_code', '股票简称':'stock_abbre', '公司名称':'company_name', '省份':'province', '城市':'city', '主营业务收入(201712)':'main_bussiness_income', '净利润(201712)':'net_profit', '员工人数':'employees', '上市日期':'listing_date', '招股书':'zhaogushu', '公司财报':'financial_report', '行业分类':'industry_classification', '产品类型':'industry_type', '主营业务':'main_business'},inplace = True)tbl = pd.DataFrame(tb1)

data=tb
# 查看数据信息
data.head(1)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
data.tail(2)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
18 19 25 特力A 深圳市特力(集团)股份有限公司 广东 深圳市 3.47亿 6578.16万 302 1993-06-21 -- NaN 汽车销售 汽车销售、汽车维修及检测、珠宝批发及零售、物业租赁及服务 汽车销售、汽车检测、维修及配件销售;资源性资产管理;珠宝服务业务。
19 20 26 飞亚达 飞亚达精密科技股份有限公司 广东 深圳市 33.46亿 1.43亿 4901 1993-06-03 -- NaN 珠宝首饰 手表品牌业务、手表零售服务业务、精密科技业务、租赁业务 主要从事钟表及其零配件的设计、开发、制造、销售和维修业务,包括"飞亚达"表的产品经营和世界名...
data.shape
(20, 15)
# 查看索引
data.index
RangeIndex(start=0, stop=20, step=1)
test=data.apply(pd.Series.value_counts)
test.shape
(206, 15)
test
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
1 1.0 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 1.0 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 1.0 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 1.0 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
银行 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN
飞亚达 NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
飞亚达精密科技股份有限公司 NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
食品和饮料及茶加工、粮油贸易及加工、粮油仓储物流及服务 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN
高新技术产业、生物医药、房地产 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN

206 rows × 15 columns

data.describe()
序号 股票代码 员工人数 公司财报
count 20.00000 20.000000 20.000000 0.0
mean 10.50000 12.800000 13285.300000 NaN
std 5.91608 7.736448 31580.703199 NaN
min 1.00000 1.000000 65.000000 NaN
25% 5.75000 6.750000 296.000000 NaN
50% 10.50000 11.500000 1189.000000 NaN
75% 15.25000 19.250000 11254.750000 NaN
max 20.00000 26.000000 140565.000000 NaN
# 数据的选取和过滤
data
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
1 2 2 万科A 万科企业股份有限公司 广东 深圳市 2428.97亿 372.08亿 140565 1991-01-29 -- NaN 房地产开发 房地产、物业管理、投资咨询 房地产开发和物业服务。
2 3 4 国华网安 深圳国华网安科技股份有限公司 广东 深圳市 1.39亿 589.22万 264 1991-01-14 -- NaN 生物医药 移动应用安全服务、移动互联网游戏 移动应用安全服务业务。
3 4 5 ST星源 深圳世纪星源股份有限公司 广东 深圳市 5.31亿 2293.60万 629 1990-12-10 -- NaN 环保工程、物业管理 酒店经营、物业管理、环保业务 绿色低碳城市社区建设相关的服务业务
4 5 6 深振业A 深圳市振业(集团)股份有限公司 广东 深圳市 29.59亿 8.20亿 397 1992-04-27 -- NaN 房地产开发 房地产 从事房地产开发与销售。
5 6 7 *ST全新 深圳市全新好股份有限公司 广东 深圳市 3964.40万 79.51万 76 1992-04-13 -- NaN 物业经营 物业管理及停车费、房屋租赁、一次性口罩、纳米胶囊、杀菌纸巾 物业管理和房屋租赁业等
6 7 8 神州高铁 神州高铁技术股份有限公司 北京 北京市 23.31亿 8.90亿 2394 1992-05-07 -- NaN 轨道交通设备 轨道交通 专业致力于提供轨道交通运营检修装备与数据、线路运营、维保服务。
7 8 9 中国宝安 中国宝安集团股份有限公司 广东 深圳市 70.71亿 3.23亿 13345 1991-06-25 -- NaN 综合 高新技术产业、生物医药、房地产 新能源、新材料及其它高新技术产业、生物医药业、房地产业以及其他行业
8 9 10 美丽生态 深圳美丽生态股份有限公司 广东 深圳市 7.58亿 -10.50亿 278 1995-10-27 -- NaN 园林工程 燃气销售服务、园林建设、园林设计、苗木销售 从事苗木种植、园林绿化工程施工和养护为一体的综合性园林服务。
9 10 11 深物业A 深圳市物业发展(集团)股份有限公司 广东 深圳市 29.05亿 6.23亿 8035 1992-03-30 -- NaN 房地产开发 产城空间开发、物业管理服务、产业生态运营、餐饮业务、工程监理业务 从事房地产开发经营,兼营物业管理、房屋租赁、出租车客运、餐饮服务等。
10 11 12 南玻A 中国南玻集团股份有限公司 广东 深圳市 108.79亿 8.29亿 10558 1992-02-28 -- NaN 玻璃 玻璃业务、电子玻璃及显示器件业务、太阳能及其他业务 研发、生产制造和销售优质浮法玻璃和工程玻璃、太阳能玻璃和硅材料、光伏电池和组件等可再生能源产...
11 12 14 沙河股份 沙河实业股份有限公司 广东 深圳市 5.13亿 1098.82万 153 1992-06-02 -- NaN 房地产开发 房地产销售 从事房地产开发与经营、现代服务型产业用房运营与管理。
12 13 16 深康佳A 康佳集团股份有限公司 广东 深圳市 312.28亿 50.87亿 17216 1992-03-27 -- NaN 电视机 工贸业务、彩电业务、环保业务、白电业务、半导体业务 消费类电子业务、工贸业务、环保业务、半导体业务。
13 14 17 深中华A 深圳中华自行车(集团)股份有限公司 广东 深圳市 1.37亿 157.92万 65 1992-03-31 -- NaN 自行车 自行车及零配件销售、锂电池材料、珠宝黄金 自行车及锂电池材料业务、珠宝黄金业务。
14 15 19 深粮控股 深圳市深粮控股股份有限公司 广东 深圳市 107.94亿 3.51亿 1246 1992-10-12 -- NaN 软饮料 食品和饮料及茶加工、粮油贸易及加工、粮油仓储物流及服务 批发零售业务、食品加工制造业务、租赁及商务服务业务。
15 16 20 深华发A 深圳中恒华发股份有限公司 广东 深圳市 8.58亿 97.44万 1132 1992-04-28 -- NaN 电子零部件 显示器、注塑件、EPS产品、物业租赁、废料收入、水电费及其他 精密注塑件的加工、销售;液晶显示器的加工、销售;轻型包装材料的加工、销售以及物业租赁业务。
16 17 21 深科技 深圳长城开发科技股份有限公司 广东 深圳市 142.10亿 5.74亿 27051 1994-02-02 -- NaN PC、服务器及硬件 存储半导体业务、自有产品、高端制造 计算机硬件、通讯设备等。
17 18 23 深天地A 深圳市天地(集团)股份有限公司 广东 深圳市 12.29亿 2868.88万 984 1993-04-29 -- NaN 商品混凝土 房地产、工业、租赁 商品混凝土的生产和销售、房地产的开发及物业管理等。
18 19 25 特力A 深圳市特力(集团)股份有限公司 广东 深圳市 3.47亿 6578.16万 302 1993-06-21 -- NaN 汽车销售 汽车销售、汽车维修及检测、珠宝批发及零售、物业租赁及服务 汽车销售、汽车检测、维修及配件销售;资源性资产管理;珠宝服务业务。
19 20 26 飞亚达 飞亚达精密科技股份有限公司 广东 深圳市 33.46亿 1.43亿 4901 1993-06-03 -- NaN 珠宝首饰 手表品牌业务、手表零售服务业务、精密科技业务、租赁业务 主要从事钟表及其零配件的设计、开发、制造、销售和维修业务,包括"飞亚达"表的产品经营和世界名...
data[["序号","股票代码"]].head()
序号 股票代码
0 1 1
1 2 2
2 3 4
3 4 5
4 5 6
#按照行列进行选择使用loc
data.loc[[3,4],["序号","股票代码"]]
序号 股票代码
3 4 5
4 5 6
#按照行列进行选择使用iloc
data.iloc[1:3,1:3]
股票代码 股票简称
1 2 万科A
2 4 国华网安
# 单独列为基础选择符合条件的数据
data[data.员工人数>10000].head(1)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
data[(data.员工人数>10000) & (data.城市=='深圳市')].head(2)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
1 2 2 万科A 万科企业股份有限公司 广东 深圳市 2428.97亿 372.08亿 140565 1991-01-29 -- NaN 房地产开发 房地产、物业管理、投资咨询 房地产开发和物业服务。
data[(data.员工人数>10000) & (data.城市=='深圳市') | (data.行业分类=='银行')].head(2)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
1 2 2 万科A 万科企业股份有限公司 广东 深圳市 2428.97亿 372.08亿 140565 1991-01-29 -- NaN 房地产开发 房地产、物业管理、投资咨询 房地产开发和物业服务。
data[(data.员工人数>10000) & (data.城市.isin(["深圳市"]))].head(1)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
# 数据的处理
# 转置
data.T
# 全部列重命名
data.columns=['a','b','c']
# 单个替换
data.replace(1,'one')
# 多个替换
data.replace([1,2,3],['one','two','three'])
# 批量列重命名
data.rename(columns=lambda x:x+'1')
序号1 股票代码1 股票简称1 公司名称1 省份1 城市1 主营业务收入(201712)1 净利润(201712)1 员工人数1 上市日期1 招股书1 公司财报1 行业分类1 产品类型1 主营业务1
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
1 2 2 万科A 万科企业股份有限公司 广东 深圳市 2428.97亿 372.08亿 140565 1991-01-29 -- NaN 房地产开发 房地产、物业管理、投资咨询 房地产开发和物业服务。
2 3 4 国华网安 深圳国华网安科技股份有限公司 广东 深圳市 1.39亿 589.22万 264 1991-01-14 -- NaN 生物医药 移动应用安全服务、移动互联网游戏 移动应用安全服务业务。
3 4 5 ST星源 深圳世纪星源股份有限公司 广东 深圳市 5.31亿 2293.60万 629 1990-12-10 -- NaN 环保工程、物业管理 酒店经营、物业管理、环保业务 绿色低碳城市社区建设相关的服务业务
4 5 6 深振业A 深圳市振业(集团)股份有限公司 广东 深圳市 29.59亿 8.20亿 397 1992-04-27 -- NaN 房地产开发 房地产 从事房地产开发与销售。
5 6 7 *ST全新 深圳市全新好股份有限公司 广东 深圳市 3964.40万 79.51万 76 1992-04-13 -- NaN 物业经营 物业管理及停车费、房屋租赁、一次性口罩、纳米胶囊、杀菌纸巾 物业管理和房屋租赁业等
6 7 8 神州高铁 神州高铁技术股份有限公司 北京 北京市 23.31亿 8.90亿 2394 1992-05-07 -- NaN 轨道交通设备 轨道交通 专业致力于提供轨道交通运营检修装备与数据、线路运营、维保服务。
7 8 9 中国宝安 中国宝安集团股份有限公司 广东 深圳市 70.71亿 3.23亿 13345 1991-06-25 -- NaN 综合 高新技术产业、生物医药、房地产 新能源、新材料及其它高新技术产业、生物医药业、房地产业以及其他行业
8 9 10 美丽生态 深圳美丽生态股份有限公司 广东 深圳市 7.58亿 -10.50亿 278 1995-10-27 -- NaN 园林工程 燃气销售服务、园林建设、园林设计、苗木销售 从事苗木种植、园林绿化工程施工和养护为一体的综合性园林服务。
9 10 11 深物业A 深圳市物业发展(集团)股份有限公司 广东 深圳市 29.05亿 6.23亿 8035 1992-03-30 -- NaN 房地产开发 产城空间开发、物业管理服务、产业生态运营、餐饮业务、工程监理业务 从事房地产开发经营,兼营物业管理、房屋租赁、出租车客运、餐饮服务等。
10 11 12 南玻A 中国南玻集团股份有限公司 广东 深圳市 108.79亿 8.29亿 10558 1992-02-28 -- NaN 玻璃 玻璃业务、电子玻璃及显示器件业务、太阳能及其他业务 研发、生产制造和销售优质浮法玻璃和工程玻璃、太阳能玻璃和硅材料、光伏电池和组件等可再生能源产...
11 12 14 沙河股份 沙河实业股份有限公司 广东 深圳市 5.13亿 1098.82万 153 1992-06-02 -- NaN 房地产开发 房地产销售 从事房地产开发与经营、现代服务型产业用房运营与管理。
12 13 16 深康佳A 康佳集团股份有限公司 广东 深圳市 312.28亿 50.87亿 17216 1992-03-27 -- NaN 电视机 工贸业务、彩电业务、环保业务、白电业务、半导体业务 消费类电子业务、工贸业务、环保业务、半导体业务。
13 14 17 深中华A 深圳中华自行车(集团)股份有限公司 广东 深圳市 1.37亿 157.92万 65 1992-03-31 -- NaN 自行车 自行车及零配件销售、锂电池材料、珠宝黄金 自行车及锂电池材料业务、珠宝黄金业务。
14 15 19 深粮控股 深圳市深粮控股股份有限公司 广东 深圳市 107.94亿 3.51亿 1246 1992-10-12 -- NaN 软饮料 食品和饮料及茶加工、粮油贸易及加工、粮油仓储物流及服务 批发零售业务、食品加工制造业务、租赁及商务服务业务。
15 16 20 深华发A 深圳中恒华发股份有限公司 广东 深圳市 8.58亿 97.44万 1132 1992-04-28 -- NaN 电子零部件 显示器、注塑件、EPS产品、物业租赁、废料收入、水电费及其他 精密注塑件的加工、销售;液晶显示器的加工、销售;轻型包装材料的加工、销售以及物业租赁业务。
16 17 21 深科技 深圳长城开发科技股份有限公司 广东 深圳市 142.10亿 5.74亿 27051 1994-02-02 -- NaN PC、服务器及硬件 存储半导体业务、自有产品、高端制造 计算机硬件、通讯设备等。
17 18 23 深天地A 深圳市天地(集团)股份有限公司 广东 深圳市 12.29亿 2868.88万 984 1993-04-29 -- NaN 商品混凝土 房地产、工业、租赁 商品混凝土的生产和销售、房地产的开发及物业管理等。
18 19 25 特力A 深圳市特力(集团)股份有限公司 广东 深圳市 3.47亿 6578.16万 302 1993-06-21 -- NaN 汽车销售 汽车销售、汽车维修及检测、珠宝批发及零售、物业租赁及服务 汽车销售、汽车检测、维修及配件销售;资源性资产管理;珠宝服务业务。
19 20 26 飞亚达 飞亚达精密科技股份有限公司 广东 深圳市 33.46亿 1.43亿 4901 1993-06-03 -- NaN 珠宝首饰 手表品牌业务、手表零售服务业务、精密科技业务、租赁业务 主要从事钟表及其零配件的设计、开发、制造、销售和维修业务,包括"飞亚达"表的产品经营和世界名...
# 排序
data.sort_index(ascending=False)
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
19 20 26 飞亚达 飞亚达精密科技股份有限公司 广东 深圳市 33.46亿 1.43亿 4901 1993-06-03 -- NaN 珠宝首饰 手表品牌业务、手表零售服务业务、精密科技业务、租赁业务 主要从事钟表及其零配件的设计、开发、制造、销售和维修业务,包括"飞亚达"表的产品经营和世界名...
18 19 25 特力A 深圳市特力(集团)股份有限公司 广东 深圳市 3.47亿 6578.16万 302 1993-06-21 -- NaN 汽车销售 汽车销售、汽车维修及检测、珠宝批发及零售、物业租赁及服务 汽车销售、汽车检测、维修及配件销售;资源性资产管理;珠宝服务业务。
17 18 23 深天地A 深圳市天地(集团)股份有限公司 广东 深圳市 12.29亿 2868.88万 984 1993-04-29 -- NaN 商品混凝土 房地产、工业、租赁 商品混凝土的生产和销售、房地产的开发及物业管理等。
16 17 21 深科技 深圳长城开发科技股份有限公司 广东 深圳市 142.10亿 5.74亿 27051 1994-02-02 -- NaN PC、服务器及硬件 存储半导体业务、自有产品、高端制造 计算机硬件、通讯设备等。
15 16 20 深华发A 深圳中恒华发股份有限公司 广东 深圳市 8.58亿 97.44万 1132 1992-04-28 -- NaN 电子零部件 显示器、注塑件、EPS产品、物业租赁、废料收入、水电费及其他 精密注塑件的加工、销售;液晶显示器的加工、销售;轻型包装材料的加工、销售以及物业租赁业务。
14 15 19 深粮控股 深圳市深粮控股股份有限公司 广东 深圳市 107.94亿 3.51亿 1246 1992-10-12 -- NaN 软饮料 食品和饮料及茶加工、粮油贸易及加工、粮油仓储物流及服务 批发零售业务、食品加工制造业务、租赁及商务服务业务。
13 14 17 深中华A 深圳中华自行车(集团)股份有限公司 广东 深圳市 1.37亿 157.92万 65 1992-03-31 -- NaN 自行车 自行车及零配件销售、锂电池材料、珠宝黄金 自行车及锂电池材料业务、珠宝黄金业务。
12 13 16 深康佳A 康佳集团股份有限公司 广东 深圳市 312.28亿 50.87亿 17216 1992-03-27 -- NaN 电视机 工贸业务、彩电业务、环保业务、白电业务、半导体业务 消费类电子业务、工贸业务、环保业务、半导体业务。
11 12 14 沙河股份 沙河实业股份有限公司 广东 深圳市 5.13亿 1098.82万 153 1992-06-02 -- NaN 房地产开发 房地产销售 从事房地产开发与经营、现代服务型产业用房运营与管理。
10 11 12 南玻A 中国南玻集团股份有限公司 广东 深圳市 108.79亿 8.29亿 10558 1992-02-28 -- NaN 玻璃 玻璃业务、电子玻璃及显示器件业务、太阳能及其他业务 研发、生产制造和销售优质浮法玻璃和工程玻璃、太阳能玻璃和硅材料、光伏电池和组件等可再生能源产...
9 10 11 深物业A 深圳市物业发展(集团)股份有限公司 广东 深圳市 29.05亿 6.23亿 8035 1992-03-30 -- NaN 房地产开发 产城空间开发、物业管理服务、产业生态运营、餐饮业务、工程监理业务 从事房地产开发经营,兼营物业管理、房屋租赁、出租车客运、餐饮服务等。
8 9 10 美丽生态 深圳美丽生态股份有限公司 广东 深圳市 7.58亿 -10.50亿 278 1995-10-27 -- NaN 园林工程 燃气销售服务、园林建设、园林设计、苗木销售 从事苗木种植、园林绿化工程施工和养护为一体的综合性园林服务。
7 8 9 中国宝安 中国宝安集团股份有限公司 广东 深圳市 70.71亿 3.23亿 13345 1991-06-25 -- NaN 综合 高新技术产业、生物医药、房地产 新能源、新材料及其它高新技术产业、生物医药业、房地产业以及其他行业
6 7 8 神州高铁 神州高铁技术股份有限公司 北京 北京市 23.31亿 8.90亿 2394 1992-05-07 -- NaN 轨道交通设备 轨道交通 专业致力于提供轨道交通运营检修装备与数据、线路运营、维保服务。
5 6 7 *ST全新 深圳市全新好股份有限公司 广东 深圳市 3964.40万 79.51万 76 1992-04-13 -- NaN 物业经营 物业管理及停车费、房屋租赁、一次性口罩、纳米胶囊、杀菌纸巾 物业管理和房屋租赁业等
4 5 6 深振业A 深圳市振业(集团)股份有限公司 广东 深圳市 29.59亿 8.20亿 397 1992-04-27 -- NaN 房地产开发 房地产 从事房地产开发与销售。
3 4 5 ST星源 深圳世纪星源股份有限公司 广东 深圳市 5.31亿 2293.60万 629 1990-12-10 -- NaN 环保工程、物业管理 酒店经营、物业管理、环保业务 绿色低碳城市社区建设相关的服务业务
2 3 4 国华网安 深圳国华网安科技股份有限公司 广东 深圳市 1.39亿 589.22万 264 1991-01-14 -- NaN 生物医药 移动应用安全服务、移动互联网游戏 移动应用安全服务业务。
1 2 2 万科A 万科企业股份有限公司 广东 深圳市 2428.97亿 372.08亿 140565 1991-01-29 -- NaN 房地产开发 房地产、物业管理、投资咨询 房地产开发和物业服务。
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
# df.drop_duplicates(['col']):去重重复项,通过指定列设置去重的参照
test=data.merge(data,on=data["序号"])
test.shape
(20, 31)
# 数据的合并和匹配
test=data.merge(data,on=data["序号"],how='inner')
test.shape
(20, 31)
test2=data.append(data)
# 按行合并
test2.shape

(40, 15)
test3=pd.concat([data, data],axis=1)
# :将df2中的列添加到df1的尾部
test3.shape
(20, 30)
data.head()
序号 股票代码 股票简称 公司名称 省份 城市 主营业务收入(201712) 净利润(201712) 员工人数 上市日期 招股书 公司财报 行业分类 产品类型 主营业务
0 1 1 平安银行 平安银行股份有限公司 广东 深圳市 1057.86亿 231.89亿 36115 1991-04-03 -- NaN 银行 商业银行业务 经有关监管机构批准的各项商业银行业务
1 2 2 万科A 万科企业股份有限公司 广东 深圳市 2428.97亿 372.08亿 140565 1991-01-29 -- NaN 房地产开发 房地产、物业管理、投资咨询 房地产开发和物业服务。
2 3 4 国华网安 深圳国华网安科技股份有限公司 广东 深圳市 1.39亿 589.22万 264 1991-01-14 -- NaN 生物医药 移动应用安全服务、移动互联网游戏 移动应用安全服务业务。
3 4 5 ST星源 深圳世纪星源股份有限公司 广东 深圳市 5.31亿 2293.60万 629 1990-12-10 -- NaN 环保工程、物业管理 酒店经营、物业管理、环保业务 绿色低碳城市社区建设相关的服务业务
4 5 6 深振业A 深圳市振业(集团)股份有限公司 广东 深圳市 29.59亿 8.20亿 397 1992-04-27 -- NaN 房地产开发 房地产 从事房地产开发与销售。
# 切分数据
b=data.groupby('省份')["城市"].value_counts()
b
省份   城市        
云南   昆明市            4
内蒙古  赤峰市            2
北京   北京市           35
吉林   长春市           10
     吉林市            4
                   ..
陕西   西安市            6
     宝鸡市            2
青海   海西蒙古族藏族自治州     3
     西宁市            2
黑龙江  伊春市            2
Name: 城市, Length: 68, dtype: int64
pd.DataFrame(b)
城市
省份 城市
云南 昆明市 4
内蒙古 赤峰市 2
北京 北京市 35
吉林 长春市 10
吉林市 4
... ... ...
陕西 西安市 6
宝鸡市 2
青海 海西蒙古族藏族自治州 3
西宁市 2
黑龙江 伊春市 2

68 rows × 1 columns


上一篇:tensorflow 训练过程,使用tf.data迭代数据


下一篇:禁止在文本输入中键入或粘贴空格,并保持文本和插入符号的位置相同