Pandas学习（一）——数据的导入

2022-07-18 07:32:50

欢迎加入python学习交流群 667279387

学习笔记汇总

Pandas学习（一）–数据的导入

 pandas学习（二）–双色球数据分析

 pandas学习（三）–NAB球员薪资分析

 pandas学习（四）–数据的归一化

 pandas学习（五）–pandas学习视频

本文所有的环境：python ：3.5 pandas：0.19.2 numpy：1.12.1，sqlalchemy 1.1.9 如果你的环境和这样不一样可能会有细微差别。

pandas支持的数据格式

pandas作为一个强大的数据处理包，支持比较多的数据处理格式，下面是一些常见格式数据的读取方法，更多请参考：链接

函数	描述
read_table(filepath_or_buffer[, sep, …])	读取普通分隔的数据
read_csv(filepath_or_buffer[, sep, …])	读取csv格式的数据
read_excel(io[, sheetname, header, …])	读取excel格式的数据
read_json([path_or_buf, orient, typ, dtype, …])	读取json格式的数据
read_html(io[, match, flavor, header, …])	读取html格式的数据
read_sql(sql, con[, index_col, …])	读取数据库中的数据

前面两个一般用的比较多。

常见格式读取示例

read_table举例

example.csv是一个用逗号隔开的数据格式。所以可以用read_table读取，需要指定间隔符为逗号。

import pandas as pd

data_csv = pd.read_table('example.csv',sep=',')

print("data_csv:")

print(data_csv)

   a   b   c   d message

0  1   2   3   4   hello

1  5   6   7   8   world

2  9  10  11  12     foo

但是有时隔符是不定个数的空格，这时可以用正则表达式。

import pandas as pd

data_txt = pd.read_table('example.txt',sep='\s+')

print("data_txt:")

print(data_txt)

此处由于数据中列名比数据列少1，read_table会推断第一行为列名。

 A         B         C

aaa -0.264438 -1.026059 -0.619500

bbb  0.927272  0.302904 -0.032399

ccc -0.264273 -0.386314 -0.217601

ddd -0.871858 -0.348382  1.100491

read_csv举例

import pandas as pd

data_csv2 = pd.read_csv('example.csv')

print("data_csv2:")

print(data_csv2)

   a   b   c   d message

0  1   2   3   4   hello

1  5   6   7   8   world

2  9  10  11  12     foo

read_exel示例

import pandas as pd

data_xlsx = pd.read_excel('example.xlsx')

print("data_xlsx:")

print(data_xlsx)

默认是读取第一个 sheet表格的，如果要制定读取sheet表格则需要指定 sheetname参数

data_xlsx2 = pd.read_excel('example.xlsx',sheetname="Sheet2")

print("data_xlsx2:")

print(data_xlsx2)

    a   b   c   d message

0  11  12  13   4   hello

1  15  16  17  18   world

2  19  20  21  12     foo

更多参数可以参考官方手册

read_json示例

data_json = pd.read_json('example.json')

print(data_json)

直接打开json文件的内容如下：

[{"a": 1, "b": 2, "c": 3},

 {"a": 4, "b": 5, "c": 6},

 {"a": 7, "b": 8, "c": 9}]

读取后输出的格式如下

read_sql、read_sql_table和read_sql_query示例

import pymysql

import pandas as pd

con = pymysql.connect(host="127.0.0.1",user="root",password="password",db="world")

data_sql=pd.read_sql("select * from city limit 10",con)

print(data_sql)

数据库用的是mysql，数据是里面自带的测试数据。

   ID            Name CountryCode       District  Population

0   1           Kabul         AFG          Kabol     1780000

1   2        Qandahar         AFG       Qandahar      237500

2   3           Herat         AFG          Herat      186800

3   4  Mazar-e-Sharif         AFG          Balkh      127800

4   5       Amsterdam         NLD  Noord-Holland      731200

在使用read_sql_table和read_sql_query时需要使用sqlalchemy对数据库进行连接。这里仍然使用mysql为例，其他数据库的链接方式有细微差别。

import pandas as pd

import pymysql

from sqlalchemy import create_engine

con = create_engine('mysql+pymysql://root:password@localhost:3306/world')

data_sql2 = pd.read_sql_table("city", con)

print(data_sql2)

data_sql3 = pd.read_sql_query("select * from city limit 5", con)

print(data_sql3)

read_html示例

能够读取带有table标签的网页中的表格。

import pandas as pd

data = pd.DataFrame()

url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']

for i in range(2, 13):

    url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i

    url_list.append(url)

for url in url_list:

    data = data.append(pd.read_html(url), ignore_index=True)

data = data[[x.startswith('$') for x in data[3]]]

data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)

获取的数据详情请见pandas学习（三）–NAB球员薪资分析

本文示例代码和文件下载地址：链接

提取密码：l5wo

欢迎python爱好者加入：学习交流群 667279387

码农公寓