超级攻略！Pandas\NumPy\Matrix用于金融数据准备

2024-04-10 07:54:53

数据准备是一项必须具备的技术，是一个迭代且灵活的过程，可以用于查找、组合、清理、转换和共享数据集，包括用于分析/商业智能（BI）、数据科学/机器学习（ML）和自主数据集成中。具体来说，数据准备是在处理和分析之前对原始数据进行清洗和转换的过程，通常包括重新格式化数据、更正数据和组合数据集来丰富数据等。

本次数据分析实战系列运用股市金融数据，并对其进行一些列分析处理。处理金融数据是量化分析的基础，当然方法都是通用的，换做其他数据也同样适用。本文回顾数据分析常用模块Pandas和NumPy，回顾DataFrame、array、matrix 基本操作。

股市数据获取的几个模块

Tushare

Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁、和多样的便于分析的数据，为他们在数据获取方面极大地减轻工作量，使他们更加专注于策略和模型的研究与实现上。

首先使用pip安装第三方依赖库 tushare 下载股市数据。（国内）

pip install tushare -i https://pypi.douban.com/simple/

然后在tushare.pro注册用户，注意获取你自己的token。使用daily函数获取日线数据。

# 导入tushare库
import tushare as ts
# 设置token
ts.set_token('your token here')
# 初始化pro接口
pro = ts.pro_api()
# 获取日线数据
df = pro.daily(ts_code='000001.SZ', start_date='20180701', end_date='20180718'

Baostock

证券宝(http://www.baostock.com)是一个免费、开源的证券数据平台（无需注册）。提供大量准确、完整的证券历史行情数据、上市公司财务数据等。通过python API获取证券数据信息，满足量化交易投资者、数量金融爱好者、计量经济从业者数据需求。

首先使用pip安装第三方依赖库 baostock 下载股市数据。（国内）

pip install baostock -i https://pypi.douban.com/simple/

然后使用query_history_k_data_plus函数获取日线数据

import baostock as bs
import pandas as pd

# 登陆系统
lg = bs.login()
# 获取沪深A股历史K线数据
rs_result = bs.query_history_k_data_plus("sh.600000",
                                         fields="date,open,high, low, close,preclose,volume,amount,adjustflag",
                                         start_date='2017-07-01', 
                                         end_date='2017-12-31', 
                                         frequency="d", 
                                         adjustflag="3")
df_result = rs_result.get_data()
# 登出系统
bs.logout()

Yfinance

yfinance的老版本是fix_yahoo_finance，二者都可以使用，推荐使用新版本。

首先使用pip安装第三方依赖库 fix_yahoo_finance 下载yahoo股市数据。（国外）

pip install fix_yahoo_finance -i https://pypi.douban.com/simple/

如果发生报错：ModuleNotFoundError: No module named 'yfinance'，则需要事先安装'yfinance'，最新版本已经将fix_yahoo_finance调整'yfinance'为

pip install yfinance -i https://pypi.douban.com/simple/

然后使用pdr_override函数获取日线数据

import yfinance as yf
# 输入
symbol = 'AMD'
start = '2014-01-01'
end = '2018-08-27'

dataset=yf.pdr_override(symbol,start,end)
dataset.head()

下面开始本节主要内容，运用数据处理最常用的第三方模块Pandas和NumPy获取数据，为后续数据分析、机器学习做数据准备。

pandas

pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

# Pandas Library
>>> import pandas as pd
>>> import warnings
>>> warnings.filterwarnings("ignore")

获取中国平安股票数据

>>> import baostock as bs
# 登陆系统
>>> lg = bs.login()
# 获取沪深A股历史K线数据
>>> rs_result = bs.query_history_k_data_plus("sh.601318",  
                        fields="date,open,high,low,close,volume",   
                        start_date='2018-01-01',   
                        end_date='2021-03-31',  
                        frequency="d",  
                        adjustflag="3")
>>> df_result = rs_result.get_data()
# 登出系统 
>>> bs.logout()
login success!
logout success!
<baostock.data.resultset.ResultData at 0x28d05a44ac8>

>>> df_result.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

获取腾讯股票数据

>>> import yfinance as yf

>>> symbol = 'TCEHY'
>>> start = '2016-01-01'
>>> end = '2021-03-31'
>>> yf.pdr_override()

>>> dataset = yf.download(symbol,start,end)
[*********************100%***********************]  1 of 1 completed

>>> dataset.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

查看尾部数据

dataset.tail()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

>>> dataset.shape
(1320, 6)

滚动窗口计算

dataset.rolling(window=5).mean() # 求最后4行的均值

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

函数解析

dataset.rolling(
    window,
    min_periods=None,
    center=False,
    win_type=None,
    on=None,
    axis=0,
    closed=None,)

提供滚动窗口计算。

window：也可以省略不写。表示时间窗的大小，注意有两种形式（int or offset）。如果使用int，则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型，表示时间窗的大小。

min_periods：每个窗口最少包含的观测值数量，小于这个值的窗口结果为NA。值可以是int，默认None。offset情况下，默认为1。

center: 把窗口的标签设置为居中。布尔型，默认False，居右

win_type: 窗口的类型。截取窗的各种函数。字符串类型，默认为None。各种类型

on: 可选参数。对于dataframe而言，指定要计算滚动窗口的列。值为列名。

axis: int、字符串，默认为0，即对列进行计算

closed：定义区间的开闭，支持int类型的window。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left both等。

指数加权函数ewm

>>> dataset['ewm'] = dataset['Adj Close'].ewm(span=20,
                                              min_periods=0,
                                              adjust=False,
                                              ignore_na=False).mean()
>>> dataset.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

函数解析

DataFrame.ewm(com=None,  
            span=None,  
            halflife=None,  
            alpha=None,  
            min_periods=0,  
            adjust=True,  
            ignore_na=False,  
            axis=0,  
            times=None)

提供指数加权（EW）函数。可用EW功能：mean()，var()，std()，corr()，cov()。参数：com，span，halflife，或alpha必须提供。

com float, optional
根据质心指定衰减，

span float, optional
跨度，根据跨度指定衰减，

，

halflife float, str, timedelta, optional
半衰期，根据半衰期指定衰减，

如果times指定，则观察值衰减到其值一半的时间单位（str或timedelta）。仅适用于mean() ，半衰期值不适用于其他功能。

alpha float, optional
直接地指定平滑系数，

min_periods int, default 0
窗口中具有值的最小观察数（否则结果为NA）。

adjust bool, default True
调整，在开始期间除以递减的调整因子，以解决相对权重的不平衡问题（将EWMA视为移动平均值）。

当adjust=True（默认）时，EW功能是使用权重计算的 α。例如，该系列的EW移动平均值将会

当adjust=False为时，将以递归方式计算指数加权函数：

ignore_na bool, default False
计算权重时忽略缺失值；指定True重现0.15.0之前的行为。

当ignore_na=False（默认）时，权重基于绝对位置。例如，权重和用于计算，，的最终加权平均数，如果adjust=True，则权重分别是和 1。如果adjust=False，权重分别是和

当ignore_na=True时，权重基于相对位置。例如，权重和用于计算，，的最终加权平均数，如果adjust=True，则权重分别是 1。如果adjust=False，权重分别是和

提取数据

# iloc[] 
>>> print(dataset.iloc[0][0])
19.59000015258789

# iat[] 
>>> print(dataset.iat[0,0])
19.59000015258789

at的使用方法与loc类似，但是比loc有更快的访问数据的速度，而且只能访问单个元素，不能访问多个元素。iat与iloc类似。

# loc[]
>>> print(df.loc[0]['High'])
19.65999984741211
# iloc[]
>>> print(df.iloc[0])

Date 2015-12-31 00:00:00
Open 19.59
High 19.66
Low 19.51
Close 19.62
Adj Close 19.3691
Volume 382600
ewm 19.3691
Name: 0, dtype: object

重置索引

>>> df = dataset.reset_index()
>>> df.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

删除列

# 删除数据
>>> new_df = df.drop(['Date'], axis=1)
>>> new_df.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

添加列

# 添加日期
>>> new_column = df['Date']
>>> new_df['Date'] = new_column
>>> new_df.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

移动列

# 将 Date 移动至第一列
>>> cols = list(new_df)
>>> cols.insert(0, cols.pop(cols.index('Date')))
>>> cols
['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume', 'ewm']

# loc是DataFrame有索引标记的值的
>>> new_df = new_df.loc[:, cols]
>>> new_df.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

删除列

>>> del new_df['Close']
>>> new_df.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

重命名列

重命名

>>> new_df = new_df.rename(index=str,  
                           columns={'Adj Close':'Close'})
>>> new_df.head()

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

列名改为大写

>>> new_df.rename(str.upper, axis='columns')

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

列名改为小写

# column name to lower case
new_df.rename(str.lower, axis='columns')

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

选择多个列

>>> new_df[new_df.columns[1:5]]

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

选择多个行

>>> new_df[1:4]

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

创建Dataframe

>>> stock_df = pd.DataFrame([[123.50, 145.35, 165.50],   
                             [152.35, 154.67, 160.35],   
                             [201.25, 236.54, 254.69]], 
                            columns=['IBM', 'Apple', 'Tesla'])
>>> stock_df

	IBM	Apple	Tesla
0	123.50	145.35	165.50
1	152.35	154.67	160.35
2	201.25	236.54	254.69

替换数据

>>> stock_df = stock_df.replace([201.25, 145.35], [888, 888])
>>> stock_df

IBM	Apple	Tesla
0	123.50	888.00	165.50
1	152.35	154.67	160.35
2	888.00	236.54	254.69

>>> stock_df = stock_df.replace([165.50, 160.35], ['NaN', 'NaN'])
>>> stock_df

IBM	Apple	Tesla
0	123.5	888	NaN
1	152.35	154.67	NaN
2	888	236.54	254.69

获取数据框数据

>>> for index, row in stock_df.iterrows() :
...     print(row['IBM'], row['Apple'])
123.5 888.0
152.35 154.67
888.0 236.54

当然，前面这篇pandas/numpy高效数据处理方法总结里列举了很多实用方法，大家可随时查看。

NumPy

NumPy是专为简化Python中的数组运算而设计的，每个NumPy数组都具有以下属性：

ndim：维数。
shape：每一维的大小。
size：数组中元素的总数。
dtype：数组的数据类型（例如int、float、string等）。

# Numpy 模块
>>> import numpy as np

将数据集转换为numpy

# 将打开的DataFrame转换为numpy数组
>>> Open_array = np.array(dataset['Open'])
>>> Open_array  
array([19.59000015, 19.12999916, 19.09000015, ..., 79.44000244,
       79.19000244, 78.56999969])

查看单个元素

>>> print("First element:", Open_array [0])
>>> print("Second element:", Open_array [1])
>>> print("Second last element:", Open_array[-1])
First element: 19.59000015258789
Second element: 19.1299991607666
Second last element: 78.56999969482422

查看多个元素

>>> print(Open_array[2:5]) # 第3个到第5个 
[19.09000015 18.63999939 18.04999924]  

>>> print(Open_array[:-5]) # 从开始到最后第4个  
[19.59000015 19.12999916 19.09000015 ... 80.69999695 81.90000153
 81.65000153]  

>>> print(Open_array[5:])  # 第6个到最后
[18.32999992 17.76000023 17.64999962 ... 79.44000244 79.19000244
 78.56999969]  

>>> print(Open_array[:])   # 开始到最后  
[19.59000015 19.12999916 19.09000015 ... 79.44000244 79.19000244
 78.56999969]

修改元素

改变第一个元素

>>> volume = np.array(dataset['Volume'])

>>> volume[0] = 0    
>>> print(volume)  
[      0  469100  170300 ... 5923100 3468900 1715900]

改变多个元素

# 更改第3到5个元素
>>> volume[2:5] = np.array([4, 6, 8])   
>>> print(volume)      
[      0  469100       4 ... 5923100 3468900 1715900]

增加元素

>>> add_numbers = np.array([1, 2, 3])
>>> np.concatenate((volume, add_numbers)
array([     0, 469100,      4, ...,      1,      2,      3], dtype=int64)
>>> np.append(volume, add_numbers, axis=0)
array([     0, 469100,      4, ...,      1,      2,      3], dtype=int64)

删除元素

直接删除

>>> print(volume)
[    0  469100     4 ... 5923100 3468900 1715900]
>>> np.delete(volume, 1) 
array([    0,     4,     6, ..., 5923100, 3468900, 1715900], dtype=int64)

转换为list()来使用remove

>>> volume = volume.tolist() # Convert tolist() to use remove
>>> volume

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

>>> volume.remove(0)
>>> print(volume)

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

>>> print(volume.pop(2))
>>> print(volume)

$超级攻略！Pandas\NumPy\Matrix用于金融数据准备$

Matrix

在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。由 m × n 个数aij排成的m行n列的数表称为m行n列的矩阵，简称m × n矩阵。矩阵运算在科学计算中非常重要，而矩阵的基本运算包括矩阵的加法，减法，数乘，转置，共轭和共轭转置。

>>> import numpy as np # 对于矩阵和线性代数
>>> import numpy.matlib

报错提示：
这里用到 Matrix时，需要将含有Matrix的子包matlib导入，不然会报错。module 'numpy' has no attribute 'matlib'

这是因为numpy。matlib是numpy的可选子包，必须单独导入。如果您只导入numpy而不导入子包matlib，那么Python将把matlib作为numpy包的属性来查找。如果没有导入numpy.matlib，这个属性没有被分配给numpy。

>>> import yfinance as yf
>>> symbol = 'TCEHY'
>>> start = '2021-03-20'
>>> end = '2021-03-31'
>>> yf.pdr_override()
>>> dataset = yf.download(symbol,start,end)
>>> df = dataset.drop(['High', 'Low', 'Close', 'Volume'], axis=1)
>>> df.head()

	Open	Adj Close
Date
2021-03-19	80.699997	82.639999
2021-03-22	81.900002	82.769997
2021-03-23	81.650002	80.930000
2021-03-24	80.930000	76.809998
2021-03-25	77.309998	77.419998

转换为矩阵

>>> A = np.matrix(df)
>>> A
matrix([[80.69999695, 82.63999939],
       [81.90000153, 82.76999664],
       [81.65000153, 80.93000031],
       [80.93000031, 76.80999756],
       [77.30999756, 77.41999817],
       [79.44000244, 80.98000336],
       [79.19000244, 78.69000244],
       [78.56999969, 78.83000183]])

因为matrix很多操作不方便，如添加修改某个元素。这里可以先用array函数读写完毕以后，再用matrix函数让它恢复矩阵类型。

转换数组

>>> A = np.array(df)
>>> A
array([[80.69999695, 82.63999939],
       [81.90000153, 82.76999664],
       [81.65000153, 80.93000031],
       [80.93000031, 76.80999756],
       [77.30999756, 77.41999817],
       [79.44000244, 80.98000336],
       [79.19000244, 78.69000244],
       [78.56999969, 78.83000183]])

访问元素

>>> type(A)
numpy.ndarray

>>> print("A =", A)
A = [[80.69999695 82.63999939]
 [81.90000153 82.76999664]
 [81.65000153 80.93000031]
 [80.93000031 76.80999756]
 [77.30999756 77.41999817]
 [79.44000244 80.98000336]
 [79.19000244 78.69000244]
 [78.56999969 78.83000183]]

>>> print("A[1] =", A[1])      # 第2行
A[1] = [81.90000153 82.76999664]

>>> print("A[1][2] =", A[1][1])   # 第2行的第2个元素
A[1][2] = 82.7699966430664

>>> print("A[0][-1] =", A[0][-1])  # 第1行的最后第1个元素A[0][-1] = 82.63999938964844

取出元素放到列表中

>>> column = [];        # 空列表
>>> for row in A:
...     column.append(row[1]) 

>>> print("Second column =", column)
Second column = [82.63999938964844, 82.7699966430664, 80.93000030517578, 76.80999755859375,   
                 77.41999816894531, 80.9800033569336,8.69000244140625, 78.83000183105469]

arange and shape


>>> A = np.arange(4)
>>> print('A =', A)
A = [0 1 2 3]
>>> B = np.arange(12).reshape(2, 6)
>>> print('B =', B)
B = [[ 0  1  2  3  4  5]
     [ 6  7  8  9 10 11]]

矩阵的运算

>>> A = np.array(dataset['High'], dataset['Low'])
>>> B = np.array(dataset['Open'], dataset['Close'])
>>> print(A)
array([82.63999939, 82.84999847, 81.94000244, 81.16000366,   
       78.19000244, 80.98000336, 79.80000305, 79.41000366])

矩阵加法

>>> C = A + B
>>> print("矩阵加法: \n", C)

矩阵加法: 
[163.33999634 164.75     163.59000397 162.09000397   
155.5 160.4200058  158.99000549 157.98000336]

矩阵减法

>>> D = A - B
>>> print("矩阵减法: \n", D)

矩阵减法: 
 [1.94000244 0.94999695 0.29000092 0.23000336  
  0.88000488 1.54000092 0.61000061 0.84000397]

两个矩阵的乘法

>>> E = A.dot(B)
>>> print("两矩阵点乘: \n", E)
两矩阵点乘: 
 51749.67010773317

矩阵转置

>>> T = A.transpose()
>>> print("矩阵转置: \n", T)

矩阵转置: 
 [82.63999939 82.84999847 81.94000244 81.16000366   
  78.19000244 80.98000336 79.80000305 79.41000366]

访问矩阵元素、行和列

访问一维矩阵单个元素

# 第一个元素 
>>> print("A[0] =", A[0])
A[0] = 82.63999938964844

# 第三个元素
>>> print("A[2] =", A[2])
A[2] = 81.94000244140625

# 最后一个元素 
>>> print("A[-1] =", A[-1])  
A[-1] = 79.41000366210938

访问多维矩阵单个元素

>>> A = np.array(dataset[['Open', 'Low', 'High', 'Close']])
>>> print("矩阵A: \n", A)
矩阵A: 
 [[80.69999695 80.09999847 82.63999939 82.63999939]
 [81.90000153 81.62999725 82.84999847 82.76999664]
 [81.65000153 80.91000366 81.94000244 80.93000031]
 [80.93000031 76.59999847 81.16000366 76.80999756]
 [77.30999756 76.80000305 78.19000244 77.41999817]
 [79.44000244 77.81999969 80.98000336 80.98000336]
 [79.19000244 78.06999969 79.80000305 78.69000244]
 [78.56999969 78.02999878 79.41000366 78.83000183]]

# 第一行的第一个元素
>>> print("A[0][0] =", A[0][0])  
A[0][0] = 80.69999694824219

# 第二行的第三个元素
>>> print("A[1][2] =", A[1][2])
A[1][2] = 82.8499984741211

# 最后一行的最后一个元素
>>> print("A[-1][-1] =", A[-1][-1])
A[-1][-1] = 78.83000183105469

访问矩阵的行

 # 第一行
>>> print("A[0] =", A[0])
A[0] = [80.69999695 80.09999847 82.63999939 82.63999939]

# 第三行
>>> print("A[2] =", A[2]) 
A[2] = [81.65000153 80.91000366 81.94000244 80.93000031]

# 最后一行
>>> print("A[-1] =", A[-1]) 
A[-1] = [78.56999969 78.02999878 79.41000366 78.83000183]

访问矩阵的列

 # 第一列
>>> print("A[:,0] =",A[:,0])
A[:,0] = [80.69999695 81.90000153 81.65000153 80.93000031 77.30999756 79.44000244 79.19000244 78.56999969]

# 第四列
>>> print("A[:,3] =", A[:,3]) 
A[:,3] = [82.63999939 82.76999664 80.93000031 76.80999756 77.41999817 80.98000336 78.69000244 78.83000183]

# 最后一列
>>> print("A[:,-1] =", A[:,-1]) 
A[:,-1] = [82.63999939 82.76999664 80.93000031 76.80999756 77.41999817 80.98000336 78.69000244 78.83000183]

访问多维矩阵多个元素

# 没有逗号相隔，默认获取行
# 第3到第5个元素
>>> print(A[2:5])    
[[81.65000153 80.91000366 81.94000244 80.93000031]
 [80.93000031 76.59999847 81.16000366 76.80999756]
 [77.30999756 76.80000305 78.19000244 77.41999817]]

# 第1到第3个元素
>>> print(A[:-5])
[[80.69999695 80.09999847 82.63999939 82.63999939]
 [81.90000153 81.62999725 82.84999847 82.76999664]
 [81.65000153 80.91000366 81.94000244 80.93000031]]

# 第6行到最后一个元素
>>> print(A[5:])  
[[79.44000244 77.81999969 80.98000336 80.98000336]
 [79.19000244 78.06999969 79.80000305 78.69000244]
 [78.56999969 78.02999878 79.41000366 78.83000183]]

# 第1个到最后一个元素
>>> print(A[:]) 

[[80.69999695 80.09999847 82.63999939 82.63999939]
 [81.90000153 81.62999725 82.84999847 82.76999664]
 [81.65000153 80.91000366 81.94000244 80.93000031]
 [80.93000031 76.59999847 81.16000366 76.80999756]
 [77.30999756 76.80000305 78.19000244 77.41999817]
 [79.44000244 77.81999969 80.98000336 80.98000336]
 [79.19000244 78.06999969 79.80000305 78.69000244]
 [78.56999969 78.02999878 79.41000366 78.83000183]]

# 反转一个列表
>>> print(A[::-1]) 
[[78.56999969 78.02999878 79.41000366 78.83000183]
 [79.19000244 78.06999969 79.80000305 78.69000244]
 [79.44000244 77.81999969 80.98000336 80.98000336]
 [77.30999756 76.80000305 78.19000244 77.41999817]
 [80.93000031 76.59999847 81.16000366 76.80999756]
 [81.65000153 80.91000366 81.94000244 80.93000031]
 [81.90000153 81.62999725 82.84999847 82.76999664]
 [80.69999695 80.09999847 82.63999939 82.63999939]]

# 前2行，前4列
>>> print(A[:2, :4]) 
[[80.69999695 80.09999847 82.63999939 82.63999939]
 [81.90000153 81.62999725 82.84999847 82.76999664]]

# 前1行，所有列
>>> print(A[:1,])  
[[80.69999695 80.09999847 82.63999939 82.63999939]]

# 所有行，第3列
>>> print(A[:,2])  
[82.63999939 82.84999847 81.94000244 81.16000366 78.19000244 80.98000336 79.80000305 79.41000366]

# 所有行，第3到5列
>>> print(A[:, 2:5])  # 共4列，只能取到第3和第4列
[[82.63999939 82.63999939]
 [82.84999847 82.76999664]
 [81.94000244 80.93000031]
 [81.16000366 76.80999756]
 [78.19000244 77.41999817]
 [80.98000336 80.98000336]
 [79.80000305 78.69000244]
 [79.41000366 78.83000183]]

码农公寓

股市数据获取的几个模块

Tushare

Baostock

Yfinance

pandas

获取中国平安股票数据

获取腾讯股票数据

查看尾部数据

滚动窗口计算

指数加权函数ewm

提取数据

重置索引

删除列

添加列

移动列

删除列

重命名列

选择多个列

选择多个行

创建Dataframe

替换数据

获取数据框数据

NumPy

将数据集转换为numpy

查看单个元素

查看多个元素

修改元素

增加元素

删除元素

Matrix

转换为矩阵

转换数组

访问元素

取出元素放到列表中

arange and shape

矩阵的运算

访问矩阵元素、行和列

相关文章