如何高效解锁业务数据价值:多云时代应该怎么构建新一代数据平台架构-2021 年的很多趋势已经预示,2022 年数据平台技术领域注定火热。

很多人会问,既然已经走到了第 4/5 阶段,再往后是不是就意味着消亡了?其实并非如此。从图中可以看到,数据领域中不同技术正处在不同阶段,很多新兴技术(例如湖仓一体、边缘计算、区块链账本)开始自第一阶段诞生,在继续推动领域迭代发展,带来蓬勃的生机。

从技术角度看,整个领域进入第 4/5 阶段,意味着技术整体完成了 1.0 的建设。领域内几乎每一个子领域都有相应的技术去匹配,很多领域可能有多个技术同时在发展,然后经过红海竞争之后开始慢慢消亡或胜出。

大数据平台领域技术整体完成 1.0 建设,就会开始向 2.0 的方向演进。这个演进过程通常是 1.0 的替代过程,因此要求 2.0 在技术上做到更好的技术分层和更强的专业化。

数据平台赛道价值显性化,带来大量投资和创业机会

数据普惠化并不是一个新话题,但领域规模和增长情况究竟怎样,一直未有明确的判断(在 Snowflake 上市之前,主流商业数据平台发展情况均被云厂商隐藏在后台)。一年前上市的 Snowflake,将数据平台这个领域的商业价值第一次完整地暴露给公众。其 10 亿美金以上的营收规模、110% 的高增长率和 70% 的高毛利率(与 Tesla 对比,据最新财报,Tesla 的增长率和毛利率分别为 57% 和 30.5%),让公众和投资者第一次通过数据看到数据领域的价值和发展前景。这进而在接下来一年引爆了一轮围绕数据平台领域的投资和创业热潮。

  • 2021 年 6 月 25 日,Apache Kafka 商业化公司 Confluent 正式登陆纳斯达克,首日开涨 25%,市值超过 110 亿美元。

  • 2021年 8 月 29 日,Apache Iceberg 的创建者 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular。

  • 2021 年 8 月 31 日,大数据初创公司 Databricks 宣布获得 16 亿美元 H 轮融资,最新估值飙升至 380 亿美元,距离上一轮 10 亿美元的 G 轮融资仅仅过去 7 个月时间。

  • 2021 年 9 月 20 日,ClickHouse 的创建者 Alexey 正式从 Yandex 独立出来并成立了一个公司:ClickHouse, Inc。同时 ClickHouse 公司获得由 Index Ventures 和 Benchmark 领投的 5000 万美元 A 轮融资,Yandex 也参与其中。

  • 2021 年 10 月 12 日,基于开源的 Apache Pulsar 的商业化公司 StreamNative 宣布获得 2300 万美元 A 轮融资。

2021 年,Clickhouse、Tebula(Apache Iceberg 背后的商业公司)、Firebolt 以及国内诸多新兴创业公司为这一领域带来了很好的讨论度。2022 年,也许会成为企业级大数据平台 / 服务一个新兴周期的“元年”。

客户开始明确分层,带来平台架构的不同取舍

处于技术发展不同阶段的客户,对于技术的诉求通常不同,大数据平台技术也不例外。随着领域技术冷静期到来,越来越多企业开始放弃自建平台,转而采购商业化云产品 / 服务,以实现规模灵活和总成本低的目标。

笔者在之前多年的工作中,接触 / 支持过很多不同类型的客户,客户大致可以分成如下三类:

  1. 头部互联网技术公司,以 Top30-50 一线互联网公司为代表。技术栈上,以自建平台为主,且大部分公司采用以开源为基础的自建方式(其中少数 Top10 头部厂商会投资 0 到 1 自研)。

  2. 中腰部技术公司,其中又可以细分为两类:

  • 中腰部互联网公司,这类型公司大多数诞生于云时代(近 8 年),通常处于成长期并聚焦自身业务发展,对基础设施投资有限,同时追求更低的 TCO(包含硬件和人力的总成本),倾向直接采用公共云平台架构并购买 PaaS 服务。(注:这类型客户是 SnowFlake 的典型客户)。

  • 有技术能力的非互联网公司,以银行 / 通信等领域企业为主。因监管或者资管要求,通常采用专有云或者混合云模式,企业具备数据开发人员,能够在数据平台上完成数据应用 / 解决方案的开发。这类型客户通常负责关键业务,对平台的企业级能力(包括稳定性、安全性、免运维能力)要求很高。

  1. 纯甲方应用型客户,以线下大型非技术型企业为主。这类型客户通常没有数据开发和应用建设的经验和团队,对数据类应用的需求多通过与合作伙伴(ISV)合作或者外包方式完成。对技术栈和技术选型通常不敏感,但对稳定性要求很高。

图片

客户的分层,必然会带来平台架构设计的不同取舍。

从技术架构角度看,第一代大数据技术(以 Hadoop 为基础)基本做到“能用 / 可用”,完成了 0 到 1 的奠基。Snowflake 等新兴产品,开始推动数据平台从“能用 / 可用”向“高效 / 易用”进化(进而让更多不太精通数据技术的人 / 企业能用上数据平台)。

上一篇:react18中如何监听localstorage的变化获取最新的本地缓存


下一篇:.net core 实现异步的方式有哪些?