对Confluent一些解读

2022-01-23 00:33:52

历史

大部分人应该都不知道Confluent，但Kafka绝对是无人不知谁人不晓热门话题。没错，Confluent是Kafka商业化母公司。说到Kafka很多人应该知道Jay Krep故事，Jay原先是Linkedin工程师，在面临大量数据孤岛问题时研发了Kafka，由于性能好、开源、又符合大数据发展的阶段需求从而一路走红，几乎成为了Pub-Sub，消息队列、数据传输等场景的标配。Kafka背后诞生过程并非一蹴而就，而是有大量对于工作场景的抽象，详见2013年前他在Linkedin上发表过一篇广泛传播的文章《The Log: What every software engineer should know about real-time data's unifying abstraction》。

Kafka在2012年开源，在那个时代前后诞生了很多开源软件公司，例如MongoDB、ElasticSearch、Hadoop等，笔者认为一个重要的原因是大数据时代开始了，新工具在增量时代中快速增长，而大厂背书的开源项目是快速扩张的的首选。但和其他几家公司不同的是，Confluent是在Kafka流行后2年再成立的，在一些产品功能究竟应该是“获客的免费功能”还是“商业化License”这两个选项上摇摆，有点错过发展最佳阶段。

Confluent历史上重要时间点如下：

2012年：kafka开源
2014年：Jay离开Linkedin，成立商业化公司
2017年：推出Confluent Cloud云托管模式
2018年：推出KsqlDB，试图向下游的流计算进军
2019年：获得了100M$ ARR
2020年：获得1000个付费客户，Confluent Server推出
2021年：官方版本在生态支持了超过120个插件，商业化，获得2500个付费客户

其中在2018年后期，Confluent将Apache 2.0 证书切换为 Confluent Community License，理由和ES/MongoDB比较一致，理由是：云供应商（AWS、MS、Alibaba、Google）利用开源软件来进行服务化，从而盈利，没有贡献开源但吃了开源的红利。对于ES/MongoDB、云厂商是没有替换方案的，AWS只能靠Fork分支来正面硬杠，其他几家选择的是合作。而在Confluent替代品上，几乎所有云厂商都有服务化替代方案，例如Kinesis、EventHub等，议价能力稍显不足。

目标市场

Confluent讲的故事提炼为3个趋势：

所有公司都需要数字化、都需要软件
业务模式越来越趋向于实时化，用以提升用户体验等竞争力：例如微服务、IoT、机器学习等
数据引力（数据吸引数据）、网络效应两个飞轮让基于数据的公司保持竞争力

这些趋势背后有一股“神秘力量”在支配，也就是Confluent认为的“Data At Rest”转移至“Data In Motion”。数据只有实时流动才能诞生更大的价值，也能体现出管道的价值。

Confluent认为市场规模是500亿$市场（细分如下），该市场到2024年预计会达到910亿$，年复合增长率为22%。

领域	规模(B$)
Applicaiton Information & Middleware	31
Data Management Systems	7
Analytics and BI	7
Data Integration Tools	4
==Total==	50

当然竞争者也非常多，可以分为三类：

各个云厂商类似的服务化产品
数据产品厂商一般内置管道类产品
CNCF等标准虽没有实体产品，但定义了一系列标准

Confluent提*品

商业化产品有3大类：

主营产品：Confluent Platform，Confluent Cloud
支撑产品：无法单独购买，主要用来给楼上引流，例如应用市场中的各种插件
咨询服务类：例如专家服务，培训等

1. Confluent Cloud（PayAsYouGo）

该模式是最推荐的：

把云计算基础设施供应链化，可以根据地域按需创建Confluent资源。
根据可用性、安全等企业特性分为3个版本：Basic、Standard、Dedicated。
按量收费，无需关注细节，提供3个月免费额度。

2. Confluent Platform（Subscription）

提供了Apache kafka非开源商业特性，通过订阅购买，包含：

上下游工具：Kafka Stream、Connector
组件：KsqlDB、Schema Registry、Rest Proxy等
其他商业化特性等

3. Hub

截止2021年6月，共提供204个插件，可以认为是Kafka上下游的应用市场，主要目的是为商业版本引流，这里不再开了。

财务数据分析

根据S1提交的表格，我们把一些关键指标摘录出来：

营收

FY20营收为$236M，FY19为$149M，同比为58%
营收构成：Confluent Platform（订阅模式）占比79%，Confluent Cloud 占比21%，后者在不断增长
国际营收：占比从FY19 34% 增长到FY20的 36%

付费用户数

1500（FY19）-> 2500 (FY20)
每年消费超过100K$用户数：347（FY19）-> 561 (FY20)
每年消费超过1M$用户数：33->60
Fortune 500企业中：
- 有137家是付费客户，YoY 27%，占据所有营收的37%
- 保守估计有70%（约350家）在使用，包含免费模式
整体平均客单价：$10W/每年

SaaS核心指标（Retention）

分别为：134%（FY19），125%（FY20），117%（2021 Q1），说实在的在增长阶段这个指标并不是很理想。Confluent自己认为的主要原因是：

大客户账号合并（按账号统计）
Covid19影响
Confluent Platform转为Cloud的过程（可能存在免费额度）

毛利率（Margin）

FY19毛利率为67%，比预料得低，Confluent理论上应该是价值型公司，可以在云资源上卖高溢价的。这个数值低于SaaS平均毛利率75%，可能和增长阶段有关。

运营成本（Operation Cost)

研发（R&D）：$105M
销售与市场（S&M）：$166M （占比营收70%）
行政（G&A）：$122M（意外的高，不确定增长是否为了做后期盈利）

历史融资与估值

累计：$456M来自 Index, Sequoia, Altimeter, and Coatue
最后一轮（E轮）：$250M（2020年4月），估值$4.5B
现金等价物：$280M
员工数：S1未透露

个人粗浅看法

从S1财务指标来看，Confluent指标并不突出，主要体现在：

留存率和获客不理想，在增长阶段留存率应该保持增长，而目前留存正在下降
最后E轮估值过高（$4.5B），几乎对标Cloudera市值
竞争对手激烈，管道附加值低，容易被模范
上下游发展不畅，下游核心产品KsqlDB被寄予厚望（in the earily stage of adoption），但用户并不买账，更喜欢用Flink
高管退出影响：3位创始人中的Neha（获得过全球影响力女性）在2019年离职，并抛售了77.8M$股票

笔者一直是Kafka死忠粉，设计优雅、可读性强、场景应用广泛、性能好，几年前Confeluent Blog上每一篇文章都会去看。但随着时代发展，Queue单一系统可以替代的方案越来越多（服务化云厂商方案、开源方案如Pulsar）。而Kafka近几年大Feature除了去ZK依赖外似乎很少，而商业化KStream，KSQLDB实际上还是在模仿Flink一些理念，管道似乎就成了一个标准化的产品。

Confluent在两个核心赛道挑战如下：

在数据分析领域，随着数据库（Data Lake）产生，Confeluent认为数据多源化、碎片化、建设无序的环境正在被统一。在数据湖中，更快批计算、流批一体混合模式慢慢起到实时效果。很有可能过几年，Confluent认为的“data in motion”就会变成数据湖内流动，留给Queue的空间越来越小。
在应用开发领域，PubSub管道模式应该会长期存在，CNCF把Queue标准化后越来越多供应商进入，Pulsar等新开源软件的引入也是不小的挑战。

目前Confeluent面临市场很大，也有Kafka一手好牌，但竞争同样非常激烈，可以说是挑战与机遇并存。从开盘第一天的股价表现来看，大家对Confluent的增长还是非常期待的，让我们拭目以待吧。

码农公寓

历史