文章目录
前言
这同样是我根据b站大佬莫烦的pandas库学习视频而整理的笔记,有时间可以前去观看 https://www.bilibili.com/video/BV1Ex411L7oT一、基本操作
1.导入库
import numpy as np
import pandas as pd
2.Series()数字序列
s = pd.Series([1, 3, 6, np.nan, 44, 1])
# 默认index从0开始
print(s)
结果显示:默认类型为float64
3.date_range()连续日期序列
dates = pd.date_range("20210124", periods=6)
# dates = pd.date_range('20210124','20210129') 等价
print(dates)
结果显示:
二、DataFrame运用
1.引入库
import numpy as np
import pandas as pd
2.DataFrame()建表
1)
"""
numpy.random.randn()是从标准正态分布中返回样本值。
随机样本位于[0, 1)中。
(6,4)表示6行4列数据
索引值为今日日期开始
列标签设置为a,b,c,d
"""
df = pd.DataFrame(np.random.randn(6, 4), index = dates, columns=["a", "b", "c", "d"])
print(df)
结果显示:
2)
# 未指定行、列标签
df1 = pd.DataFrame(np.arange(12).reshape((3, 4)))
print(df1)
结果显示:
3.另一种建表
1)建表
df2 = pd.DataFrame({
'A': 1.,
'B': pd.Timestamp("20130102"), # Timestamp() 时间戳函数 将字符转成时间格式
'C': pd.Series(1, index=list(range(4)), dtype='float32'),
'D': np.array([3] * 4, dtype='int32'),
'E': pd.Categorical(["test", "train", "test", "train"]), # Categorical()分类变量
'F': "foo"})
print(df2)
结果显示:
2)输出出类型
print(df2.dtypes)
结果显示:
3)输出行列索引
print(df2.index) # 行索引名
print("")
print(df2.columns) # 列索引名
结果显示:
4)输出值
print(df2.values) # 每行的值
结果显示:
5)输出数据总结
print(df2.describe()) # 只运算数字形式的值
结果显示:
6)输出转置(翻转)数据
print(df2.T) # 转置
# print(np.transpose(df2))等价
结果显示:
7)sort_index() 按索引排序
'''
axis=1表示行
axis=0表示列
默认ascending为True
ascending=True表示升序,ascending=False表示降序
'''
print(df2.sort_index(axis=1, ascending=False)) #列索引进行倒着排序
结果显示:
print(df2.sort_index(axis=0, ascending=False))
8)sort_values() 按值排序
print(df2.sort_values(by='E')) # 对E列的值进行排序
结果显示:
下一节介绍pandas中如何选择数据和设置值