现代数据堆栈的趋势:展望未来

  在第1部分中,我们在现代数据堆栈的演变周围分享了一些背景。在这一部分中,我们采取了水晶球方法,以预测数据空间如何从这里发展。我们很高兴能够与突破性的初创公司一起工作,这将在数据堆栈的演变中发挥重要作用,以下几乎只是对此空间前方的内容的有限视图。

  没有进一步的东西,让我们挖掘。

  重新思考存储范式

  数据的圣杯已经建立了一个“单一的真理来源”,在那里分析师(人类越来越多地成为机器)可以逐地找到众所周知的洞察力黄金。Enterprise Data Warehouse在80年代突出以存储结构化数据,并且存储范例现在在同一前提下大部分地移动到云。仓库需要存储“相关”数据的需求是由成本 - 智能存储的管辖昂贵,并且仓库用于存储在“时间点”中相关的数据。这种方法有局限性,因为今天认为有关的内容可能并不相关,反之亦然。此外,经典仓库非常严格(来自数据科学的角度来看),因为它们往往是结构化数据存储。

  进入数据湖,通过允许组织以任何格式存储所有格式来扩展圣杯的前提。根据利用企业内的AI和ML应用的非结构化数据的角度,这尤其相关。但是,由于底层的架构,传统数据湖中的计算并不容易,因此组织开始在湖面上构建数据仓库,以使计算(基本上分析)更容易。谈谈冗余和单片思维。

  我们从哪里开始?我们相信最好的数据团队正在重新称解存储范式。一方面,数据仓库和数据湖之间的融合迹象是“Lakehouse” - 这是两个世界的最佳选择。虽然所产生的架构尚不清楚,但现任者有不同的需要。例如,Snowflake 追随仓库 - 第一个方法,DataBricks的Delta Lake有一个湖泊 - 首先的方法。

  并行地,我们观察到新数据存储库架构获得牵引力的标准的分歧。这些数据存储库架构旨在解决特定用例中仓库和湖泊的低效率。例如,数据结构/数据网格旨在利用企业知识图来描述不同数据集之间的关系,这些数据集将有助于提取洞察力。这些是由Stardog和Cinchy等初创公司开发的,并且像NetApp和Talend这样的遗留玩家。

  另一个新兴趋势是开发可以处理混合数据流的架构,该流动数据流涉及处理大批量数据以及低延迟时间序列流。后者对于从社交网络到自动驾驶汽车的实时数据尤其有用。我们相信这是一个具有很多中断和增长潜力的有希望的地区。

  虽然我们在谈到存储时展望未来,但重要的是要注意只有?15,000家公司使用Redshift和?3,100使用Snowflake,截至2022年,还有很长的路要发展单一来源提高数据可用性的架构。

  可操作的BI和闭环

  “商业智能”一词归因于决策支持系统的世界。这个想法是简单的管理者需要报告制定业务决策。鉴于这种情况,假设总是在循环中有一个人。但是,这种范式正在变成越来越古老的古代。一个极端的例子位于自动车辆(AV)空间中,前提是消除循环中的这种人的因素。虽然一个完全自主未来的想法仍然是一个想法,但我们相当肯定的是,人类在循环中的作用将继续减少,或者变得更加了解,因为被淘汰了冗余。

  让我们从今天的地方接。经典BI工具无法帮助地执行。汇集领域的银行代理不会从*仪表板上的分支级贷款绩效数据中受益。需要一个映射的路由,指示他们需要顺序访问所需的每个位置。在一个理想的世界中,每个专家都应该配备五个讨论指南 - 每个人都适用于他们正在访问的不同部分 - 以及提示应该使用哪些指南的证书工具。这是可操作的双 - 我们认为越来越成为现实。我们可以进一步绘制这张照片,但希望你得到这个想法。

  今天的数据流水线是为了帮助采取高级业务决策,而不是直接运行业务。因此,Excel仍然是运营团队使用的流行工具,因为它很容易使用。作为投资者,我们有一个固有的信念,无论我们在业务垂直何处找到过度的Excel使用情况,现在是某人建立一个首先消除Excel的平台,然后添加特定于用例特定的铃声和吹口哨的时候了。以下是这可能播放的几种方式:

  循环工作流程:团队一直认为工作流程和BI作为单独的实例。由于内部工具具有增殖的工作流程,组织开始意识到工作流程和BI可以很好地联系在一起。摘要,我们认为数据流水线和运营管道之间的差距可以由内部应用程序开发平台(如Retool和Appsmith)桥接,这些平台可能会将BI和工作流合并为一个可自定义的低/无代码可操作的BI平台-in-循环工作流程。自动反馈循环:BI已经是单向的 - 数据从源头到分析师,他们可能会或可能不会采取行动。例如,销售领导者可能不会三次考虑一个地区的增长减缓,智力显示该公司正在失去市场份额。然而,在理想的世界中,这样的活动应该在区域经理的待办事项列表中自动创建任务,指导销售团队激活促销活动。这是从BI到SaaS的连接器的使用示例,也称为Reverse ETL,在此处的人口普查和托盘构建有趣的产品。这些可能性是无限的:从BI到存储的反馈循环,存储到SaaS,您命名为SaaS,可能会彻底彻底改变操作团队的功能。垂直化可视化:狐狸世界的刺猬,垂直BI工具专为特定的用户角色设计。例如,古玩论坛ML可视化工具,如Plotly Dash和Streamlit使数据科学家能够构建其模型的视觉表示,并将其作为WebApps传送给非技术用户。这些用户可以轻松解释模型推论,并在手头的数据中采取后续操作。像Amplitude, Locale 和 Glean的其他公司也是非技术团队的可视化和分析解决方案,以便立即将洞察力转换为在行动点的结果。数据运维 dataops:现在和现在

  在印度有22,000多个职位列表Devops角色。Dataops的相同号码低于2,000。我们愿意在肢体上出去,并说这个数字将在不久的将来爆炸。在过去十年中,数据变得越来越复杂。数据团队的大小庞大跳跃,任何组织处理的数据都变得更加复杂。这导致了需要管理层来协调数据流水线,以及专业的工具以及(人类)资源。

  兴奋我们的一些Dataops机会包括:

  元数据管理:思考更好地编制组织的数据集。虽然这一想法已经存在,但很棒的工具刚刚开始出现,并将改变元数据管理的完成方式。一些工具包括Collibra,Aliatal和Lyft的开源Amundsen。数据可观察性和质量:防止“垃圾垃圾垃圾垃圾垃圾”的格言是重要的,Monte Carlo,ActeLDA和Soda等平台,旨在验证数据质量和可靠性,功能解决数据新鲜度监测,分配跟踪,异常和异常值检测和架构错误。SISU,ANADOT和Outlier等其他人可以使指标对各种业务单位重要的可观察性。数据治理和隐私:我们想在这方面写一下 - 特别是考虑到这一话题是如何误解的,这一话题是印度的消费公司(我们仍然可能,留在调整)。然而,有一套整个平台,解决治理和隐私,我们期望更多地出现,因为这些主题继续全球中心舞台。

  有趣的是,一些平台正在涌现,以支持多个DataOps支柱,例如Data,Atlan,Datakitchen等。这些玩家旨在成为组织内的数据工作场所,我们预计更多的初创公司试图以Github为基础构建数据库。

  数据团队未来和协作

  什么好的文章没有提到新的正常?全球团队,远程工作,分布式知识资产等。意味着协作必须是前面和*的数据。这对于具有复杂数据用例和大型数据团队的组织的关键组织 - 因为它们从组织和地理角度往往更复杂。

  数据科学家正在使用笔记本作为默认工作区。例如,jupyter是一个很好的平台,提供数据团队的工作空间,包括可视化,文本和数学模型,以及代码,都在交互式Web环境中。若干公司正在建立在这个想法上扩展的产品,包括Jovian.ML,Zepl(Vertex Ventures Us Portfolio Company)和Polynote。我们相信更多使用案例和功能将建立以增加笔记本。

  在数据集上的协作也一直在获得牵引力。像Popsql和dataform等工具,可以在SQL查询和查询库上进行常用搜索的查询库。还有平台可以实现实时协作。例如,Mode和Graphy正在构建Google文档的BI,而Cord的工具旨在通过在任何软件上启用注释和聊天来构建Figma-for-Emares。

  总之,堆栈中存在巨大的潜力。但是,在下面的图表中突出了我们大致概述的关键领域和趋势。

  这是数据的十年,顶点企业东南亚和印度的团队热衷于解决这些全球挑战的合作团队!很高兴听到思想并接受数据空间。

上一篇:Richard Sutton:人工智能的未来属于搜索和学习


下一篇:小米架构师:亿级大数据实时分析与工具选型