由于金融市场是一个非常精密且复杂的系统,所以任何人都很难说能够成功地选择出一个最佳的投资组合方案。所有投资者都知道一句“低买高卖”,但是只有这句话对于做出正确的投资决策来说还是远远不够。每个人都梦想能够在市场走向确定之前获得指导性的信息。其实目前已经能够通过算法处理进行金融市场走势的预测,尽管现阶段还很难做到非常精准和完善。现在有越来越多的金融咨询师利用到高等算法,并且这也逐渐成为整个社会各行业“大数据”解决方案的一个重要组成部分,包括信用风险评估、商品与服务需求预测、通过社交网络分析预测市场导向、机器可读格式的公司报告制作、折扣和广告目标投放等等。实际上,中国*已经和IBM公司开始尝试合作使用大数据来解决这个远东国家日益严峻的污染问题。
现在的一些专业人士可以通过将传统的收敛平均、移动平均等预测方法和更加精妙的技术以及基因算法整合,生成一种更加复杂并且智能的算法,然后做出更准确有效的资产预测。考虑到市场上潜在的金融泡沫等意外因素,一个对市场运营机制的正确理解加上有效的风险管理策略,对于在这个充满风险的市场中生存是必要的。今天,投资者已经能够选择同时使用这些最先进的的算法加上传统的分析程式式,以期提高自已投资组合的表现、检视自己的分析以及对各种机会更快的反应速度。
以上论述是为了更多地揭示围绕在大数据分析身边的秘密,并且表明如果乐于在投资分析中使用这些技术的话将有可能获取潜在的收益。那些已经使用这些先进策略的金融从业人员将无疑是预测分析的受益者,这也让华尔街在算法交易方面更具前瞻性和有效性。
什么是“大数据”
大数据解决方案主要是针对那些复杂的大型数据集,这些数据集往往很难用往常的方法进行操作和分析。这个领域正在变得越来越重要,因为他帮人更好地分析那些不管是有序的还是杂乱的数据,能够带来更好地分析效果并协助做出更好的决策。2001年,时任Gartner行业分析师的Doug Laney精准地阐述了大数据里的三V理论:容量(Volumn),速度(Velocity)和种类(Variety)。图1用文氏图进行了解释。
举例来说,自从1980年以来,UPS就已经在用大数据来追踪包裹的运动情况。时至今日,他们的技术也随之提升。现在它们平均每天处理的包裹追踪申请达到了3950万次。同时它们也成立了全球最大的大数据运筹研究项目。这个项目起初的名字是ORION, 到现在止,这个项目已经为公司的减少了8500万公里的日常送货路线,并且节省了840万加仑的燃油。
当然,现在华尔街也开始从大数据分析中受益,金融公司们通过运用高等算法来追踪和预测市场走向,比如自我学习算法。很多人觉得自已不懂怎么使用算法进行交易,或许是因为他们心目中的算法交易是另外一回事。
量化交易和高频交易
我们应该认识到现在有两种区分度很高的算法交易形式。通常情况下当别人提到算法交易的时候,大家都会认为是高频交易。高频交易的优点是它会比绝大部分市场反应要快,但是这种操作也有门槛,往往只有一小部分投资者和交易员能够使用,并且这种交易方式也会对整个市场产生一些副作用。高频交易系统还不够“聪明”并且也不能代替掉投资者真实的有价值的想法,因为它只是“盲目”地追随一些短期走势。此外,现在高频交易在道德上也备受争议。
第二种算法交易形式则通常被叫做量化交易或者长期算法交易。这是一种和高频交易完全不同的“黑箱”交易形式,不像高频交易那样靠分析五分钟前的历史数据来获取下一分钟的预测那样,量化交易会(在较大时间尺度上)分析之前市场的走势和架构并找到一种合适的模型,之后根据模型来进行预测。两者间更多的区别会在后面详细阐述。
混沌理论+有效(市场)模型=复杂性系统
通常,对于选择高收益资产上有两个惯常的误区,当然这些资产的潜在风险都被同时设限。第一个误区就是认为市场是完全有效并不可预测的。根据有效市场假设理论,市场在吸收最新的信息和价格的同时也在进行调整。在这种假设下,所有的股票都是一样的,因为它们都是有效的并且投资者能获取所有的信息。这样的结果就是,我们无法进行高于市场平均值的连续获利操作。这当然不能反映真实情况,同样全反过来也是一样——比如说混沌理论。混沌理论是跟人阐述一些小的事件会对后来的结果产生巨大的影响,这些结果在我们看来貌似是正确的。在这样一个混沌的市场里,所有的盈利和亏损会随着时间的延续而持续相互抵消。
所以说,金融市场既不是100%有效的,也不是100%混沌的。用复杂性理论来解释准确度可能会高一些,因为每个市场都有系统的和随机的部份。除了正常的基本结构作为金融市场的一部份,也包括很多各种类型的投资者,他们可能拥有不同的策略、经验、资金量和目标等,所有这些都是互相依存相辅相成的,可以用来解释市场行为。
股市波浪循环
I Know First 系统使用自我学习算法来对超过2000个金融市场进行预测,我们可以理解为一种股市波浪循环的形式。通过对大量交易进行分析,我们可以得到一些系统性的走势模型,这点能帮我们更好地理解和预测市场。这个模型包括三种模式:积极反馈,消极反馈和随机反馈。这个分析的目的是区分这支股票走势是均值回归型还是趋势型,以及它的时间尺度是多少。有时做这种分析是很难的,因为这几种模式会同时在不同的时间尺度上出现并交叉。我们目前的目标是能够识别出在目前的时点,这种模式是均值回归还是(已形成)趋势,正确的分析对于我们对市场做预判也是必需的。
先来描述一下积极反馈模式。当有一个积极影响加在某一个变量上的时候,这会对其它变量产生积极影响,反过来再影响这个变量。这种情况会打破系统原有的平衡,带来指数级的增长。反过来,一个消极反馈循环则会对系统产生稳定效果,系统会对外界的压力产生相反方向的反应。下图阐述了这两个循环的工作原理。
整体来说,如果一项资产表现良好,并且交易员的反应等都已形成势头的话,会容易形成链式循环,从而会吸引更多的交易员来购买。如果已经没有趋势或者瞬时套利机会的话,也可作为一种模型来识别--通常我们有“超买”或者“超卖”来暗示这种情况,这两种反馈循环也被称作动态平衡,即某项资产围绕一个特定的价格进行交易。资产价格往往在两个方向上都会超过实际资产价值。图3是以标普500指数为例解释积极反馈和消极反馈。
寻求最优模型
虽然我们无法一一解释每个算法在进行市场预测的含义是什么,但目前所知道I Know First预测系统是基于人工智能和机器学习来进行的,并且还用到了人工神经网络和基因算法。机器学习在理解市场行为方面给我们提供了一些更加独特的视角。这个算法内嵌了一个数学框架,在这个框架里对股票价格进行统计假设的生成和验证。一些机器学习工具,比如神经网络,能够让这个系统学会自我学习,并且连续性更好更准确。新的数据会被不停地更新进这个具有15年数据的系统,在这个里边系统会自动进行学习和短期以及长期的预测,正如下图所示。
这个框架是用来在一些测试数据的基础上生成最初的检验模型。这个阶段的目标是校正算法和功能的准确度,某种程度上来说这也是这些数学功能的真实目的。当算法发现了适合这个模型的最小化的功能的时候,目标就达成了。
通过数学的方法寻找最小值是一个非常复杂的工作,并且有时会在极小值和最小值之间徘徊,因为你可能无法分辨这个是不是最小,像图5所示。
为了增加找到最小值的机率,我们把多项搜索流程合并到一块。当这个算法能够从样本数据里生成确定的结果时,我们就可以用它来进行真实的数据分析。每次运行这个算法都会增加它自身的预测的能力和准确度。这是因为它在不停地生成新的模型并验证,反过来进行嵌套(递归过程),从而会得到更好的结果。
概而言之
每个投资者都有他们不同的策略,比如有些偏好基本面分析,而且大家的风险偏好程度也不同。但单独使用这些方法的分析已经逐步变的过时了,更加有效的工具被逐步加进来。对冲基金等买方也已认识到先进的数学模型在这里边扮演的重要角色。基于计算机的高级算法往往能同时分析多支股票并选出最符合预期的那支,因为它能够优化整体收益以及缓冲风险,所以这些算法也变得越来越流行和重要。当然,世界上还是没有一个完美无缺的投资解决方案,但通过这些高级算法和大数据分析的使用,不管针对人群是散户还是专业人员,我们都能够在某种程度上提高我们投资组合的整体表现。
原文发布时间为:2015-03-20
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号