day32 Python与金融量化分析(二)

第一部分:金融与量化投资

股票:

  • 股票是股份公司发给出资人的一种凭证,股票的持有者就是股份公司的股东。

股票的面值与市值

  • 面值表示票面金额
  • 市值表示市场价值

上市/IPO:

  • 企业通过证券交易所公开向社会增发股票以募集资金

股票的作用:

  • 出资证明、证明股东身份、对公司经营发表意见
  • 公司分红、交易获利

股票的分类

股票按业绩分类:

  • 蓝筹股:资本雄厚、信誉优良的公司的股票
  • 绩优股:业绩优良公司的股票
  • ST股:特别处理股票,连续两年亏损或每股净资产低于股票面值

股票按上市地区分类:

  • A股:*上市,人民币认购买卖(T+1,涨跌幅10%)
  • B股:*上市,外币认购买卖(T+1,T+3)
  • H股:中国香港上市(T+0,涨跌幅不设限制)
  • N股:美国纽约上市
  • S股:新加坡上市

股票市场的构成

  • 上市公司
  • 投资者(包括机构投资者)
  • 证监会、证券业协会、交易所
  • 证券中介机构

交易所

  • 上海证券交易所:只有一个主板(沪指)
  • 深圳证券交易所:
  1. 主板:大型成熟企业(深成指)
  2. 中小板:经营规模较小
  3. 创业板:尚处于成长期的创业企业

影响股价的因素

  • 公司自身因素:股票自身价值是决定股价最基本的因素,而这主要取决于发行公司的经营业绩、资信水平以及连带而来的股息红利派发状况、发展前景、股票预期收益水平等。
  • 行业因素:行业在国民经济中地位的变更,行业的发展前景和发展潜力,新兴行业引来的冲击等,以及上市公司在行业中所处的位置,经营业绩,经营状况,资金组合的改变及领导层人事变动等都会影响相关股票的价格。
  • 市场因素:投资者的动向,大户的意向和操纵,公司间的合作或相互持股,信用交易和期货交易的增减,投机者的套利行为,公司的增资方式和增资额度等,均可能对股价形成较大影响。
  • 心理因素:情绪波动,判断失误,盲目追随大户、狂抛抢购
  • 经济因素:经济周期,国家的财政状况,金融环境,国际收支状况,行业经济地位的变化,国家汇率的调整等
  • 政治因素

股票买卖(A股)

  • 委托买卖股票 : 个人不能直接买卖,需要在券商开户,进行委托购买
  • 股票交易日:周一到周五(非法定节假日和交易所休市日)
  • 股票交易时间:
    • 9:15-9:25 开盘集合竞价时间
    • 9:30-11:30 前市,连续竞价时间
    • 13:00-15:00 后市,连续竞价时间
    • 14:57-15:00 深交所收盘集合竞价时间
  • T+1交易制度:股票买入后当天不能卖出,要在买入后的下一个交易日才能卖出
  • 涨停、跌停限制

金融分析

基本面分析

  • 宏观经济面分析:国家的财政政策、货币政策等
  • 行业分析
  • 公司分析:财务数据、业绩报告等

技术面分析:各项技术指标

  • K线
  • MA(均线)
  • KDJ(随机指标)
  • MACD(指数平滑移动平均线)
  • ……

K线

day32 Python与金融量化分析(二)

金融量化投资

  • 量化投资:利用计算机技术并且采用一定的数学模型去实践投资理念,实现投资策略的过程。
  • 量化投资的优势:
    • 避免主观情绪、人性弱点和认知偏差,选择更加客观
    • 能同时包括多角度的观察和多层次的模型
    • 及时跟踪市场变化,不断发现新的统计模型,寻找交易机会
    • 在决定投资策略后,能通过回测验证其效果

量化策略

  • 量化策略:通过一套固定的逻辑来分析、判断和决策,自动化地进行股票交易。
  • 核心内容
    • 选股
    • 择时
    • 仓位管理
    • 止盈止损
  • 策略的周期
    • 产生想法/学习知识
    • 实现策略:Python
    • 检验策略:回测/模拟交易
    • 实盘交易
    • 优化策略/放弃策略

第二部分:量化投资与Python

量化投资与Python

  • 为什么选择Python?
    • 其他选择:Excel、SAS/SPSS、R
  • 量化投资第三方相关模块
    • NumPy:数值计算
    • pandas:数据分析
    • Matplotlib:图标绘制
  • 如何使用Python进行量化投资
    • 自己编写:NumPy+pandas+Matplotlib+……
    • 在线平台:聚宽、优矿、米筐、Quantopian、……
    • 开源框架:RQAlpha、QUANTAXIS、……

Ipython:交互式的Python命令行

  • IPython:安装:pip install ipython
  • TAB键自动完成
  • ?命令(内省、命名空间搜索)
  • 执行系统命令(!)
  • %run命令执行文件代码
  • %paste %cpaste命令执行剪贴板代码
  • 与编辑器和IDE交互
  • 魔术命令:%timeit %pdb …
  • 使用命令历史
  • 输入与输出变量(_, __, _2, _i2)
  • 目录书签系统 %bookmark
  • Ipython Notebook

Ipython常用的魔术命令

day32 Python与金融量化分析(二)

day32 Python与金融量化分析(二)

Python调试器命令

day32 Python与金融量化分析(二)

day32 Python与金融量化分析(二)

Ipython快捷键

day32 Python与金融量化分析(二)

NumPy:数组计算

  • NumPy是高性能科学计算和数据分析的基础包。它是pandas等其他各种工具的基础。
  • NumPy的主要功能:
    • ndarray,一个多维数组结构,高效且节省空间
    • 无需循环对整组数据进行快速运算的数学函数
    • *读写磁盘数据的工具以及用于操作内存映射文件的工具
    • *线性代数、随机数生成和傅里叶变换功能
    • *用于集成C、C++等代码的工具
  • 安装方法:pip install numpy
  • 引用方式:import numpy as np

NumPy:ndarray-多维数组对象

  • 创建ndarray:np.array()
  • 为什么要使用ndarray:
    • 例1:已知若干家跨国公司的市值(美元),将其换算为人民币
    • 例2:已知购物车中每件商品的价格与商品件数,求总金额
  • ndarray还可以是多维数组,但元素类型必须相同
  • 常用属性:
    • T 数组的转置(对高维数组而言)
    • dtype 数组元素的数据类型
    • size 数组元素的个数
    • ndim 数组的维数
    • shape 数组的维度大小(以元组形式)

NumPy:ndarray-多维数组对象

  • dtype:
    • bool_, int(8,16,32,64), uint(8,16,32,64), float(16,32,64)
    • 类型转换:astype()
  • 创建ndarray:
    • array() 将列表转换为数组,可选择显式指定dtype
    • arange() range的numpy版,支持浮点数
    • linspace() 类似arange(),第三个参数为数组长度
    • zeros() 根据指定形状和dtype创建全0数组
    • ones() 根据指定形状和dtype创建全1数组
    • empty() 根据指定形状和dtype创建空数组(随机值)
    • eye() 根据指定边长和dtype创建单位矩阵

NumPy:索引和切片

  • 数组和标量之间的运算
    • a+1 a*3 1//a a**0.5
  • 同样大小数组之间的运算
    • a+b
    • a/b
    • a**b
  • 数组的索引
    • a[5]
    • a2[2][3]
    • a2[2,3]
  • 数组的切片
    • a[5:8]
    • a[:3] = 1
    • a2[1:2, :4]
    • a2[:,:1]
    • a2[:,1]
  • 与列表不同,数组切片时并不会自动复制,在切片数组上的修改会影响原数组。
    • b = a[:4]
    • b[-1] = 250
    • 解决方法:
      • copy()】 b = a[:4] b[-1] = 250

NumPy:布尔型索引

  • 问题:给一个数组,选出数组中所有大于5的数。
    • 答案:a[a>5]
    • 原理: a>5会对a中的每一个元素进行判断,返回一个布尔数组 布尔型索引:将同样大小的布尔数组传进索引,会返回一个由所有True对应位置的元素的数组
  • 问题2:给一个数组,选出数组中所有大于5的偶数。
  • 问题3:给一个数组,选出数组中所有大于5的数和偶数。
    • 答案: a[(a>5) & (a%2==0)] a[(a>5) | (a%2==0)]

NumPy:花式索引*

  • 问题1:对于一个数组,选出其第1,3,4,6,7个元素,组成新的二维数组。
    • 答案:a[[1,3,4,6,7]]
  • 问题2:对一个二维数组,选出其第一列和第三列,组成新的二维数组。
    • 答案:a[:,[1,3]]

NumPy:通用函数

  • 通用函数:能同时对数组中所有元素进行运算的函数
  • 常见通用函数:
    • 一元函数:abs, sqrt, exp, log, ceil, floor, rint, trunc, modf, isnan, isinf, cos, sin, tan
    • 二元函数:add, substract, multiply, divide, power, mod, maximum, mininum,

NumPy:数学和统计方法

  • 常用函数:
    • sum 求和
    • mean 求平均数
    • std 求标准差 v
    • ar 求方差
    • min 求最小值
    • max 求最大值
    • argmin 求最小值索引
    • argmax 求最大值索引

NumPy:随机数生成

  • 常用函数
    • rand 给定形状产生随机数组(0到1之间的数)
    • randint 给定形状产生随机整数
    • choice 给定形状产生随机选择
    • shuffle 与random.shuffle相同
    • uniform 给定形状产生随机数组

pandas:数据分析

  • pandas是一个强大的Python数据分析的工具包。
  • pandas是基于NumPy构建的。
  • pandas的主要功能
    • 具备对其功能的数据结构DataFrame、Series
    • 集成时间序列功能
    • 提供丰富的数学运算和操作
    • 灵活处理缺失数据
  • 安装方法:pip install pandas
  • 引用方法:import pandas as pd

pandas:Series

  • Series是一种类似于一位数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。
    • Series比较像列表(数组)和字典的结合体
  • 创建方式:
    • pd.Series([4,7,-5,3])
    • pd.Series([4,7,-5,3],index=['a','b','c','d'])
    • pd.Series({'a':1, 'b':2})
    • pd.Series(0, index=['a','b','c','d'])
  • 获取值数组和索引数组:
    • values属性
    • index属性

pandas:Series特性

  • Series支持NumPy模块的特性(下标):
    • 从ndarray创建Series:Series(arr)
    • 与标量运算:sr*2
    • 两个Series运算:sr1+sr2
    • 索引:sr[0], sr[[1,2,4]]
    • 切片:sr[0:2](切片依然是视图形式)
    • 通用函数:np.abs(sr)
    • 布尔值过滤:sr[sr>0]
    • 统计函数:mean() sum() cumsum()

pandas:整数索引

  • 整数索引的pandas对象往往会使新手抓狂。
  • 例:
    • sr = np.Series(np.arange(4.))
    • sr[-1]
  • 如果索引是整数类型,则根据整数进行数据操作时总是面向标签的。
    • loc属性 以标签解释
    • iloc属性 以下标解释

pandas:Series数据对齐

  • pandas在运算时,会按索引进行对齐然后计算。如果存在不同的索引,则结果的索引是两个操作数索引的并集。
  • 例:
    • sr1 = pd.Series([12,23,34], index=['c','a','d'])
    • sr2 = pd.Series([11,20,10], index=['d','c','a',])
    • sr1+sr2
    • sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
    • sr1+sr3
  • 如何在两个Series对象相加时将缺失值设为0?
    • sr1.add(sr2, fill_value=0)
    • 灵活的算术方法:add, sub, div, mul

pandas:Series缺失数据

  • 缺失数据:使用NaN(Not a Number)来表示缺失数据。其值等于np.nan。内置的None值也会被当做NaN处理。
  • 处理缺失数据的相关方法:
    • dropna() 过滤掉值为NaN的行
    • fillna() 填充缺失数据
    • isnull() 返回布尔数组,缺失值对应为True
    • notnull() 返回布尔数组,缺失值对应为False
  • 过滤缺失数据:
    • sr.dropna()
    • sr[data.notnull()]
  • 填充缺失数据:fillna(0)

pandas:DataFrame

  • DataFrame是一个表格型的数据结构,含有一组有序的列。
  • DataFrame可以被看做是由Series组成的字典,并且共用一个索引。
  • 创建方式:
    • pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
    • pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})
    • ……
  • csv文件读取与写入:
    • df.read_csv('filename.csv')
    • df.to_csv()

pandas:DataFrame查看数据

  • 查看数据常用属性及方法:
    • index 获取索引
    • T 转置
    • columns 获取列索引
    • values 获取值数组
    • describe() 获取快速统计
  • DataFrame各列name属性:列名
    • rename(columns={})

pandas:DataFrame索引和切片

  • DataFrame有行索引和列索引。
  • 通过标签获取:
    • df['A']
    • df[['A', 'B']]
    • df['A'][0]
    • df[0:10][['A', 'C']]
    • df.loc[:,['A','B']]
    • df.loc[:,'A':'C']
    • df.loc[0,'A']
    • df.loc[0:10,['A','C']]
  • 通过位置获取:
    • df.iloc[3]
    • df.iloc[3,3]
    • df.iloc[0:3,4:6]
    • df.iloc[1:5,:]
    • df.iloc[[1,2,4],[0,3]]
  • 通过布尔值过滤:
    • df[df['A']>0]
    • df[df['A'].isin([1,3,5])]
    • df[df<0] = 0

pandas:DataFrame数据对齐与缺失数据

  • DataFrame对象在运算时,同样会进行数据对其,结果的行索引与列索引分别为两个操作数的行索引与列索引的并集。
  • DataFrame处理缺失数据的方法:
    • dropna(axis=0,how='any',…)
    • fillna()
    • isnull()
    • notnull()

pandas:其他常用方法

  • pandas常用方法(适用Series和DataFrame):
    • mean(axis=0,skipna=False)
    • sum(axis=1)
    • sort_index(axis, …, ascending) 按行或列索引排序
    • sort_values(by, axis, ascending) 按值排序
    • NumPy的通用函数同样适用于pandas
    • apply(func, axis=0) 将自定义函数应用在各行或者各列上 ,func可返回标量或者Series
    • applymap(func) 将函数应用在DataFrame各个元素上
    • map(func) 将函数应用在Series各个元素上

*pandas:层次化索引

  • 层次化索引是Pandas的一项重要功能,它使我们能够在一个轴上拥有多个索引级别。
  • 例:data=pd.Series(np.random.rand(9), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'], [1,2,3,1,2,3,1,2,3]])

pandas:时间对象处理

  • 时间序列类型:
    • 时间戳:特定时刻
    • 固定时期:如2017年7月
    • 时间间隔:起始时间-结束时间
  • Python标准库:datetime
    • date time datetime timedelta
    • dt.strftime()
    • strptime()
  • 第三方包:dateutil
    • dateutil.parser.parse()
  • 成组处理日期:pandas
    • pd.to_datetime(['2001-01-01', '2002-02-02'])
  • 产生时间对象数组:date_range
    • start 开始时间
    • end 结束时间
    • periods 时间长度
    • freq 时间频率,默认为'D',可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

pandas:时间序列

  • 时间序列就是以时间对象为索引的Series或DataFrame。
  • datetime对象作为索引时是存储在DatetimeIndex对象中的。
  • 时间序列特殊功能:
    • 传入“年”或“年月”作为切片方式
    • 传入日期范围作为切片方式

pandas:从文件读取

  • 读取文件:从文件名、URL、文件对象中加载数据
    • read_csv 默认分隔符为csv
    • read_table 默认分隔符为\t
    • read_excel 读取excel文件
  • 读取文件函数主要参数:
    • sep 指定分隔符,可用正则表达式如'\s+'
    • header=None 指定文件无列名
    • names 指定列名
    • index_col 指定某列作为索引
    • skip_row 指定跳过某些行
    • na_values 指定某些字符串表示缺失值
    • parse_dates 指定某些列是否被解析为日期,布尔值或列表

pandas:写入到文件

  • 写入到文件: to_csv
  • 写入文件函数的主要参数:
    • sep
    • na_rep 指定缺失值转换的字符串,默认为空字符串
    • header=False 不输出列名一行
    • index=False 不输出行索引一列
    • cols 指定输出的列,传入列表
  • 其他文件类型:json, XML, HTML, 数据库
  • pandas转换为二进制文件格式(pickle):
    • save
    • load

Matplotlib:绘图和可视化

  • Matplotlib是一个强大的Python绘图和数据可视化的工具包。
  • 安装方法:pip install matplotlib
  • 引用方法:import matplotlib.pyplot as plt
  • 绘图函数:plt.plot()
  • 显示图像:plt.show()

Matplotlib:plot函数

  • plot函数:
    • 线型linestyle(-,-.,--,..)
    • 点型marker(v,^,s,*,H,+,x,D,o,…)
    • 颜色color(b,g,r,y,k,w,…)
  • plot函数绘制多条曲线
  • 标题:title
  • x轴:xlabel
  • y轴:ylabel
  • 其他类型图像:
    • hist 频数直方图

*Matplotlib:画布与图

  • 画布:figure
    • fig = plt.figure()
  • 图:subplot
    • ax1 = fig.add_subplot(2,2,1)
  • 调节子图间距:
    • subplots_adjust(left, bottom, right, top, wspace, hspace)
上一篇:Stanford NLP学习笔记1:课程介绍


下一篇:金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据