金融投资新范式，一场人工智能技术带来的进化

2021-12-07 01:00:42

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

因技术变革而至的金融科技是当前的一个热门话题，在过去几年中呈现运动式发展，除了百度、阿里、腾讯等互联网公司，银行、证券、保险、基金公司等传统金融机构及其他科技企业都被卷入这场变革式洪流之中。

那么，人工智能作为金融科技的一个重要分支，在金融投资领域能起到什么样的作用？当下的真实市场需求又是怎样的？6 月 24 日，由路孚特主办的 ReFinTech 大咖直播室邀请了创新工场南京 AI 研究院执行院长、倍漾科技创始人冯霁博士和路孚特中国区财富管理业务发展总监赵玉成，从金融投资的业务出发，为大家分享了人工智能在金融投资领域的应用和发展。

以数据解读金融投资领域的业务场景及痛点
机器学习已经成为金融机构投资决策的重要环节
路孚特于 2018 年完成了从汤森路透金融与风险业务部门独立成为路孚特的转变。这家 160 多年历史的金融科技企业，为全球 190 多个国家的 4 万多家机构和 40 万用户提供金融信息服务。同时，在路孚特金融开放平台上，超过 1 万 3 千名开发者和 2200 多家合作伙伴，以安全、有效、高效的方式，共同构建着金融行业的业务发展以及其各项创新。

这家在金融科技领域有着深厚积淀的企业，对机器学习领域在金融领域的应用已探索四年有余。去年，路孚特开始对 447 位数据科学实践者和担任 C 级高管的数据科学决策者进行了陆续的电话采访，这些受访者全部来自于年收入超过 10 亿美元的金融机构。这次调研的数据清晰地反映了一个事实：机器学习已经成为金融机构投资决策的重要环节。

基于路孚特此次市场调研，路孚特中国区财富管理业务发展总监赵玉成为我们分享了在机器学习领域中金融机构的新动态：
1、国际上大多数金融企业已经开始部署 AI/ML 的业务，就应用 ML 技术而言，风险规避和性能管理是最受关注的两个主题领域。
90% 的企业部署了 ML 来管理或分析组织中的一个或多个部门的内容；
78% 的调查者反馈，机器学习是其业务战略的核心组成部分。
2、金融机构利用机器学习的主要原因是：更好的获取信息 / 洞察和提高生产力，而不是成本削减。
3、数据的可发现性和质量是采用人工智能的最大障碍。
43% 的调查反馈数据质量差会影响他们采用；
38% 的人认为缺乏数据可用性会影响他们对 AI/ML 的采用。
4、数据科学家花了很大一部分时间整理数据，才能将数据用于机器学习。
5、数据科学家是一个相对较新的终端用户群体，拥有重要的决策权。
98% 的数据科学家说他们影响了用于实验机器学习数据内容的决策；
95% 对购买哪些金融市场数据有一定影响。
6、客户正在使用机器学习从非结构化数据源（文档、文本和 web 抓取）创建结构化数据。

赵玉成在直播分享中表示，越来越多的金融机构开始将机器学习投入到业务中。大多数金融机构已经经过了试验阶段——其中 90% 的人表示他们已经部署了机器学习来管理或分析组织中的一个或多个部门的内容。

就应用机器学习而言，风险规避和性能管理是最受关注的两个主题领域。在路孚特的调研中，82% 的机构将机器学习应用于风险控制领域，其次用以支撑投资决策及市场分析的机构占比 74%，63% 的金融机构则使用机器学习或者人工智能来做交易分析和交易行为。

赵玉成指出：“数据是最大的挑战。”金融机构在寻找和处理可以映射到解决方案的数据时面临的主要挑战通常有以下几点：
获取关于数据覆盖范围、历史和来源的准确信息；
识别不完整或损坏的记录；
数据管理、频次；
数据清理和标准化。

金融机构使用的数据通常分为三类：一是基本数据，二是客户内部数据，三是另类数据。客户内部数据又主要分为金融机构资料信息、客户的使用状况、潜在客户信息、客户购买和投资产品、客户投资业绩等。这类数据私密性比较强，一般的情况下，公司不会对外披露或对外展示。因此，这类样本数据量相应不是很大，对中等或者小型公司而言尤为明显。在此类投资信息较少的情况下，不少金融机构希望通过工具帮助自己的客户做出更好的投资组合，同时还能监控风险。

赵玉成谈到：“路孚特在过去一段时间里做过类似尝试。我们会将用户（金融机构）的数据部署到 Client Data Warehouse（客户数据仓库）系统，助其建立数据中台的概念。与此同时，再将数据与路孚特的实时数据、价格数据、基本面信息以及预测数据进行匹配，做内部系统分析，其中包括投资流程、收益状况、风险指标，以及针对历史投资行为的投资画像，从而帮助金融机构更了解自己的客户，为其客户提供更好的服务。”在整个过程中，金融机构的数据被挂在云端，通过加密、解密的过程展示出来，赵玉成表示：“这种处理方式也是我们内部数据的一种解决方案。”

另类数据的应用

在量化交易中，如何获取适当的数据用于开发和测试交易策略，往往是投资者面临的一个难题。尽管随着技术的发展，获取大数据的成本也在逐渐降低，但历史价格等传统数据已经不能满足部分投资者的需求，于是从另类数据中提取交易信号成为了有效提升投资回报的另一种尝试。
不同于传统的交易所披露、公司公告披露的数据，另类数据包括个人的消费信息、社交媒体信息、地区的天气状况、公司的销售记录等，来源丰富多样。它使得越来越多以前无法收集的信息变成了可以分析的数据，而从这些杂乱无章的信息中找到规律的能力也变得无比强大。
据了解，路孚特对另类数据的处理和研究已有五年多的历史。2015 年，路孚特收购了一家名为 Asset 4 的公司，该公司的 ESG（另类数据的应用）在当时处于前沿地位，关于上市公司对市场环境损害的情况、社会治理（如员工治理、公司内部治理、男女比例、高管信息）等，其都有一套标准的数据分析及评分体系。在收购 Asset 4 之后，路孚特将该系统进行了整合。目前，路孚特的数据分析已经涵盖了全球市值 80% 的股票。

赵玉成表示：“现在 ESG 数据中有 400 个指标，我们会把其中 20 个指标作为评分的标准，通过 ESG 治理，判断哪些数据符合 ESG 标准，判断公司治理是否健康，是否能实现持续发展。经过 ESG 评分后，我们会以此对股票进行分类，利用路孚特自己的服务器形成一个具备多元化和包容性的投资总和。可以看到的是，符合 ESG 标准股票的走势要远好于整个市场的平均状况。”

在金融投资领域，卫星图像、社会情绪等另类数据也开始备受关注。目前，路孚特的数据包含了大量的社交媒体数据，通过舆情监控借助机器学习计算整个情绪变动，借此对投资策略进行调整。此外，借助卫星云图数据，通过金融数据及其他信息，利用机器学习算法找出一些历史变化规律，例如估算美国一段时间内的降雨量，再进一步判断出小麦的生长状况及产量。这些信息将对投资市场的研判产生极大的帮助。

随着技术的发展，另类数据的应用正在扮演着愈加重要的角色，成为传统数据的重要补充以及投资者提升决策质量的利器。但由于其分散且不完整，数据周期有阶段性、不连贯、结构松散，且没有标准化的统一结构。这使得将另类数据纳入投资决策过程难度极大且成本高昂，企业需要在将数据纳入系统进行分析之前，找到数据来源，收集并清理质量不一的数据并进行标准化处理。路孚特则通过提供越来越多不同类型的高质量另类数据，帮助用户解决难题，将另类数据以现成可用的格式提供，可以轻松整合至用户的模型与应用中。

基于数据驱动的下一代金融投资范式

软件工程从 1.0 时代迈向 2.0 时代
创新工场南京 AI 研究院执行院长、倍漾科技创始人冯霁博士在分享中提到：“当下人工智能技术，尤其是深度学习，与之前的机器学习相比具有三点优势。”

1、表示学习。“深度学习技术兴起之后，能够将表示学习进行自动化发现，这带来的好处是巨大的。首先是传统的机器视觉领域基本上有了翻天覆地的变化。我们不用再对一个图像定义各种复杂的特征，我们现在可以将原始数据直接放到学习算法中去做算法任务。语音识别、自然语言处理亦是如此。”冯霁表示，同样地，在金融行业的二级市场量化投资，一个好的表示学习能够为金融工程建模带来质的提升，比如做多因子挖掘时不需要用那些传统的人工定义的技术指标或者其他的量价关系去做，而可以利用人工智能算法找到比之前的因子更具有预测能力的信号。

2、问题转化。“人工智能技术能够将不少很难直接设计算法求解的问题，转化为一个数学优化问题。量化投资中的大量 NP 困难问题，可巧妙地转化为机器学习中的经典技术，从而大幅提升建模效率。”

3、数据驱动。“在量化交易中，大部分问题都是 NP 困难的，利用数据驱动的方式，可有效对复杂问题进行估计和求解。数据驱动的计算范式在近十年中的各个领域获得了广泛认可，也获得了巨大成功。很多复杂的问题不再需要精心设计一个特定的算法进行求解，而是转化为机器学习模型，利用数据对模型参数进行估计。这是软件工程所面临的一个本质的变化。”

冯霁指出：”从量化建模的角度，或者说从软件工程的角度，目前一个普遍的共识是，现在的人工智能时代相当于是软件工程的 2.0 时代。“
对此，冯霁做了进一步解释。在软件工程 1.0 时代，计算机利用程序员写好的算法处理输入，然后得出对应的输出。这一过程中，有价值的信息或结果基本上取决于算法本身。如何设计出一个聪明的量化交易算法是非常考验程序员的，毕竟不同的人写出的算法是有差异的。

而在软件 2.0 时代，程序员可以自动化产生解决某一困难问题的算法。比如对于图像识别任务，程序员不知道具体如何写图像识别算法也无妨，只需要写好机器学习的算法，然后给计算机提供大量的图像样本（即数据），就可以自动生成图象分类的程序。在这一过程中，一个困难的任务被转化为一个至少经过严格训练就有能力进行编程的任务。冯霁补充道：“这在本质上已经产生了区别。还是以图像识别为例，利用机器学习无论是做人脸识别，还是做针对猫、狗的识别，其背后的流程基本是一样的，这大幅减少了软件工程中所遭遇的各种问题。”

人工智能在量化交易中的五大应用场景

不止是图像识别，在最近几年里，人工智能已发展成为头部对冲基金的核心技术。国内的头部对冲基金正在建立超算 GPU 集群，开拓机器学习技术并应用于交易。甚至有私募机构已经把自己定义为完全依靠人工智能做投资的对冲基金。
冯霁在分享中讲到：“说到人工智能技术在量化交易中的应用，很多人会想到用 AI 方法分析市场、分析新闻等，认为人工智能只能做这种辅助性的工作，其实这一认知是错误的。人工智能技术不仅能做舆情分析、提供因子等边角料外围的工作，它还可以深入地渗透到量化交易的每一个场景，对整个量化交易流水线中的各个环节进行范式级别的提升。”基于此，冯霁介绍了以下五个场景：

1、特征工程
特征工程是建立量化交易模型中的第一步，其目的是最大限度地从原始数据中提取特征以供算法和模型使用。在传统的金融工程中，模型的输入只能用结构化数据，如盘口数据、量价关系、资金流向等。非结构化数据用传统的金融工程模型很难处理，比如用数学向量表示一则新闻或者一个公告等，这需要深度学习技术对非结构化数据进行表示。

“如果我们把整个特征工程看成是人工智能中表示学习的任务，那么这件事就会变得大为轻松。因为我们可以将拥有的数据切换成两个维度：一个维度是从高频到低频，比如从 T+0 或者 T+1 的策略到较为低频的策略；另一个纬度是从微观到宏观，最微观的数据是盘口数据，相对宏观的数据诸如财报、季报、基本面或者宏观经济等数据。”冯霁解释道，“当把数据分成这两个维度进行刻画时，我们就会发现利用深度学习技术可以同时将不同类型的数据进行某种程度上的自动化特征定义，从原始特征中自动学习出对量化交易最有效的表示。倍漾科技和南京大学周志华教授一起，做了不少在表格数据上进行特征重表示的研究，效果显著。”

2、非线性多因子模型
随着量化多因子模型的发展，因子从单一发展到多元，从线性关系发展为非线性关系。简单使用少量因子的线性模型已经无法适应当前复杂多变的市场环境。冯霁表示：“之前很多人还认为线性模型足够使用。其实这个论断对也不对。如果低频尺度且利用较小的样本就可以对某些角度进行刻画时，线性模型确实够用；但是，一旦我们的算法或者想要解决的问题，尺度频率变得较为高频时，你会发现线性模型远远不够，它包含的知识有限，难以‘吃’进大量数据。因为当算法、权股或者策略分布在较为高频的尺度上时，算法准确度与模型复杂度之间存在线性增长的关系。”
冯霁指出：“在现阶段，如何有效地把更多数据利用进去，其实是大家竞争的前线。如果线性模型没有办法’吃’进去大量数据，那么只能选择非线性模型做这些事情。”相比传统线性多因子模型，人工智能机器自我学习的特性能够帮助量化模型适应不同市场环境，深入挖掘新选股因子以及因子与股票收益之间的非线性关系，提高模型预测能力，更敏锐地捕捉未被发现的市场机会。

对于时序数据平稳与非平稳间的区别，冯霁强调：“随着时间的推移，市场分布产生变化时，样本内表现平稳，样本外表现下降，有人认为是‘机器学习过拟合’。其实这个观念并非很正确。因为‘过拟合’是对用错机器学习模型的一种描述，也就是说如果出现过拟合，并不代表机器学习这项技术不对，而是用机器学习的人把事情没有做对。”

机器学习中专门有领域在研究当分布发生迁移时如何抗击过拟合。换言之，机器学习从 80 年代设立之初，其目的就是为了避免样本外与样本内表现产生差异，它是为了抗击过拟合而产生的技术。“工业界经常有人反过来认为，出现过拟合是因为机器学习或者人工智能不行。对此，我在这里想做一个澄清，其实并不是模型有问题，也许是在处理模型过程中少做了某些处理非平稳时序数据的技巧或者模块。”

3、优化算法
传统的线性模型或传统的金融工程预测类模型，很难同时对多个目标进行优化求解，因为这往往是 NP 难问题。“机器学习的一大好处便是将多目标优化问题变成利用数据驱动方式解决的问题，这样就有可能在有限时间内得到至少建模者认为满意的局部最优收敛点。这样更有利于设计一些较为复杂的学习系统，能够同时满足量化交易中的不同维度的目标。”
此外，对于优化算法的端到端问题，冯霁表示：“运用机器学习的方式设计模型时，我们可以把从输入到处理、到输出、再到最终决策的整个过程变成一个一体化的复杂的学习系统，然后从特征工程到最后输出对该系统进行联合式优化，这样可以大幅度减少模型设计过程中遭遇的各种问题。”

最后，关于优化算法中的 AutoML 技术，冯霁提到：“该技术不仅仅是学术界的一个热点，模型本身架构都可以利用 AI 的算法自动设计出你想要的 AI 模型，只要你有数据和算力就能做到。这也是我们倍漾科技内部的资管公司正在做的事情，即从数据处理到模型建立，再到最终的输出，甚至于包括模型架构本身，都能够用 AI 技术自动化完成。”

4、智能回测
通常，量化交易的回测功能会基于强化学习来实现。“回测是大部分量化交易团队最容易犯错误的地方，因为大部分算法在回测时看上去是挣钱的，但到了真正实盘交易时才会发现有问题。”冯霁在直播中谈到。
那么，强化学习还能否应用在量化交易中？对此，冯霁为我们作出了解释：要想借强化学习产生一个合理的策略，需要在仿真的环境下将算法重复训练上百万遍。很多人在回测时，其实是将一个相同的历史数据翻来覆去跑了上百万遍，这样产生的结果必然是糟糕的。因为单一的历史数据只是整个分布中的一个采样，是整个历史轨迹中的一条轨迹。从人工智能的角度来讲，只看到该历史情况的发生而没有见到其他情况，很难学习到一些有效的策略。简而言之，如果 AlphaGo 只看一盘棋谱并且将这盘棋谱翻来覆去看一百亿遍，也不会学到更有趣的招式，只有所看棋谱都不一样才能学习到东西。“因此，如何利用这些技术，需要额外的一些手段和处理方式。倍漾科技在此类任务中，有不少新的进展，这里就不展开介绍了。”冯霁提到。

5、算法交易执行
算法交易执行是最早受到机器学习技术的升级的一个领域，它通常用于优化交易的执行成本，降低交易（尤其是大单）对市场的冲击，最典型的交易执行算法有 TWAP、VWAP 等。交易执行算法会根据一定的逻辑，将一个大单拆分成一个一个小单分别发送到交易所。对大型交易者来说，这样做主要是为了避免提前暴露自己的交易意图，降低对市场价格的冲击。
冯霁表示：“目前基于人工智能技术的算法交易执行，有了长足的进展，利用数据驱动的方式进行拆单，从我们内部的实战经验来看，冲击成本可进一步降低一个数量级。”

写到最后

人工智能已经参与到整个金融流程中，并产生了惊人的影响力。复杂的金融领域也在因人工智能发生着深刻的变革。毋庸置疑的是，这项技术为金融机构带来了更多的希望之光。唯有拥抱科技、拓展思维的边界、利用人工智能技术并寻求创造与突破，才是金融科技领域及传统金融机构的持续发展之路。而业内的深度交流及实践成果分享是促进发展的的重要途径之一。

基于此，ReFinTech“洞见 2020”金融科技峰会在去年首次与大家见面，各位大咖在峰会中分享的金融科技产业最前沿的创新探索与应用实践，在业界引起了强烈共鸣和反响。跨入不同寻常的 2020 年，ReFinTech 系列精彩活动还将继续关注金融科技领域的最新动态及实践探索，后续的精彩内容敬请期待！

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/zhibo

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-06-30
本文作者：王晓青
本文来自：“InfoQ ”，了解相关信息可以关注“[InfoQ](https://www.infoq.cn/article/uyBO5ywsoh0xNgucqFbL）

码农公寓

相关文章