从 Kaggle 困局,看国内数据竞赛平台如何突围

国内数据竞赛市场,能做好的话,预测一两年就会有繁荣景象。

——DataFountain COO 陈娟

要说本月开发者圈子的头等大事,毫无疑问是 Kaggle 被谷歌云收购。作为全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台,Kaggle 不仅开拓了一个全新市场(虽然该市场的当前商业价值有限),还为国内近几年冒出的数据竞赛平台树立了学习、模仿的榜样。

从 Kaggle 困局,看国内数据竞赛平台如何突围

李飞飞宣布谷歌云收购 Kaggle

目前看来,这场收购可谓是皆大欢喜。

Kaggle 得到了谷歌云的计算资源、数据资源和业界关系支持,也对投资者有了交代。谷歌得到了对该社区的直接影响力,以及一个谷歌云的业务突破口。

但作为一个细分市场的霸主,Kaggle 却从未有过“霸主”的春风得意。自 2010 年成立至今,Kaggle 耕耘数据竞赛领域已有七年。这时间说长不长,说短不短,但足以打消风投和部分商业观察家“超级独角兽”的梦想。平台上的竞赛数目,并没有指数级地增长;其商业模式到底是不是众包,业内也存争议;但最重要的一点,直接指向了 Kaggle 的“七寸”:缺乏商业变现能力。

嫁给谷歌云,或许已经是最好的结局。

于是我们不禁要问:一家在所处行业成为全球第一、没有重量级竞争对手、并踩在大数据风口的创业公司,为何“被收购”却成为最佳选项?

(注:并不是说被谷歌收购不理想,而是许多人认为 Kaggle 原本可以做得更好。)

在雷锋网看来,这个问题折射出的现实情形,要比答案本身更有价值。相比 Kaggle 的自身经营状况,我们更关心数据竞赛这个市场——究竟是贫瘠的盐碱地,还是未经充分开垦的处女地?

太平洋的另一端,在中国,2014 年之后涌现出大大小小多家数据竞赛平台。目前比较有名的,有阿里云旗下的天池,中科院孵化出的 DataFountain,成都电子科大教授周涛创立的 DataCastle,以及上海 SODA 大赛的指定运营方科赛网。各家平台在将来的发展侧重点各有不同,但当下的核心业务都是线上数据竞赛。

大数据竞赛究竟有多大的市场空间,行业前景如何,就成了至关重要的问题。

为此,雷锋网采访了DataCastle CEO 张琳艳, DataFountain COO 陈娟,天池高级专家王一婷,以及“中国 Kaggle 第一人”、商汤科技研发总监张伟;从 Kaggle 商业化的努力,谈到国内数据竞赛的市场环境,以及最重要的:如何把这个市场做“活”?

我们先从 Kaggle 被收购折射出的困局谈起。

1. Kaggle 的商业化探索

从 Kaggle 困局,看国内数据竞赛平台如何突围

Kaggle 的商业化之路十分坎坷,这在业内广为人知。

自 2013 年起,Kaggle 就设立了能源咨询业务。当时恰逢美国页岩油、页岩气革命,Kaggle 希望用大数据帮助能源公司进行石油勘探。这本将是一笔利润颇丰的生意。可惜随后的全球原油价格暴跌,使得石油公司大幅减产;新的勘探、开采计划纷纷被推迟或取消,相关研究也被搁置。Kaggle 从能源行业入手,逐步建立跨行业数据咨询业务的计划就此搁浅。更何况,人们逐渐意识到,数据咨询业务的成长性实在有限,不适合风投参股的企业。

与此同时,Kaggle 在 2013 年推出了 “Kaggle Connect”咨询平台:将社区最精英的数据科学家介绍给有需求的公司,以解决不适合以竞赛形式封装的现实问题。

Kaggle 还推出了招聘服务,这倒用不着多说。重点是,直到今年被谷歌收购,Kaggle 在商业变现上始终没有找到一个好的突破口。

2. 如何看待 Kaggle 被收购

因此,对于 Kaggle 被收购,行业内认为理所当然者有之,惊喜者有之,惋惜者也有。

堪称“中国 Kaggle 第一人”的张伟,自 2012 年参与 Kaggle 平台上的比赛。当前排名世界第十,历史最高排名世界第六、中国第一。他认为,Kaggle 寻求商业支持、被谷歌收购是水到渠成的事情。

从他的角度看,Kaggle 一直在进行商业化的尝试,业务上也面临较大瓶颈,竞赛的数量到现在也不是很多。这其中的一大问题,是与工业界的关系不够紧密,不足以说服更多公司在 Kaggle 平台上开放数据、举办竞赛。借助谷歌对业界的影响力十分合情合理。这将有助于更进一步拓展平台用户,把市场做到此前难以企及的规模。另外,大量 Kaggle 参赛者使用亚马逊 AWS,如能免费提供谷歌云,确是一件好事。

持相似观点的还有阿里云天池。天池高级专家王一婷直截了当地表示:

“  Kaggle 在历经了六、七年的发展后始终没有找到一个很好的商业模式,主要靠卖比赛收取服务费赚钱。但平台上的比赛频率并不高,大部分奖金也很少,所以收益应该不高。虽然 Kaggle 号称沉淀了一批数据爱好者、开源数据集和算法模型,但没有计算能力,数据的价值就无法真正变现。他们一定是需要寻找突破口的,所以现在被谷歌云收购是最好的归宿。”

值得注意的是,关于谷歌之于 Kaggle 的价值,王一婷更强调计算资源。在她看来,无论在数据、AI 还是机器学习领域,企业的最核心竞争优势或者说行业门槛,都是大数据+云计算。换句话说,只有与谷歌云的基础设施结合,Kaggle 才算是完成了生态链的闭环。因此,Kaggle 加入谷歌是理所应当的战略布局(对谷歌亦然)。而在这一点上,结合了阿里云计算资源的天池,同样拥有巨大优势。

同样对 Kaggle 关注已久的 DataCastle CEO 张琳艳,则十分强调 Kaggle 的数据科学家社区 DNA。她向雷锋网(公众号:雷锋网)表示:

“我的第一反应是惊讶。一直觉得 Kaggle 是不小心闯入商业圈子的数据科学圣殿,说是一股清流也不为过——感觉商业模式不赚钱,却也坚持做了这么多年而且越做越大,题目越来越丰富,必定有种坚持在里面。一直感觉他们离商业和资本很遥远,但是总体来说很高兴,因为这个消息给我们带来了很大的信心。”

从 Kaggle 困局,看国内数据竞赛平台如何突围

张琳艳十分认同谷歌云计算资源对于 Kaggle 的价值,无论是针对数据安全,还是提供更大规模的数据集,并表示“这很有可能是 Google 对 Kaggle 吸引力最大的其中一点”。但她同时指出,计算环境对不同语言、框架的支持,带来了额外的公平性和技术问题需要考虑。

DataFountain COO 陈娟的观点,又与上述三位不同。她认为,加入谷歌固然带来诸多优势,但长期来看,Kaggle 将专注于仅仅作为一个竞赛平台,业务单一,因而有利有弊。另一方面,她反对将计算资源看做数据竞赛行业一项关键竞争力门槛的观点。接入第三方计算资源并非难以做到,真正开放的平台也应该面向所有云计算服务。

集合上述各位的表态与 Kaggle 的现实情况,一条现实情形变得十分清晰:只做竞赛和社区,在资本层面没有多少想象空间。国内的数据竞赛平台,除了背靠阿里云的天池(但阿里高层也希望天池做到收支平衡),均要另找出路。

路在何方?

3. 数据竞赛平台面临的挑战

3.1 业务定位

上文提到,平台很难通过核心的竞赛业务赚钱。对此,张琳艳的解释十分透彻:

“竞赛是个小众、低频的行为,所以只是单纯的竞赛业务是很难大规模商业化的,而且竞赛对于出题单位的门槛也很高,更进一步的缩小了业务的可扩展和复制性。所以竞赛只是形式,通过竞赛沉淀下来的方案、人才等才是真正有价值的。那么变现渠道就不仅仅是竞赛佣金这一种形式,解决方案众包、人才众包、猎头招聘等都是它的变现渠道。”

虽然竞赛是立身根基,但衍生业务才是平台活下去的手段。出于此,国内几家主要竞赛平台,均强调自身与 Kaggle 定位的不同:并没打算像 Kaggle 那样专注做竞赛和社区,而要与其他服务对接、整合。

DataFountain 与 DataCastle 都打出了“培养下一代大数据人才”的口号。因而我们可以作出合理预期——培训、招聘业务将成为他们的重点。

从 Kaggle 困局,看国内数据竞赛平台如何突围

而天池的定位则十分不同。天池最早是为阿里巴巴集团内部服务的团队,它的成立从一开始就考虑到满足阿里云的战略需要。天池的许多经典竞赛,其实是原先阿里内部的数据课题。天池打出的口号是:

“外脑+内脑”,利用“众智”模式向外输出大数据解决方案。

即把天池平台的个人开发者,与阿里云内部专家团队的智慧结合到一起,向企业客户提供最顶尖的数据、AI 咨询服务。而阿里 ET 人工智能系统,便是阿里云咨询业务的核心品牌。

从 Kaggle 困局,看国内数据竞赛平台如何突围

3.2 竞赛属性 VS 产品属性

可以看出,天池的定位十分重视 B 端。甚至可以说,在根本上是为有大数据解决方案需求的企业客户创造价值。而早在 2015 年,《连线》杂志就引用知情人士的发言,称竞赛的优胜方案有时不能给主办企业带来价值。这就牵扯出另外一个问题:

数据竞赛和产品级的解决方案之间,究竟相隔多远?

对此有一个圈内共识:Kaggle 的竞赛优胜方案,只有很少一部分能直接应用于企业产品。对此的通常解释是,比赛队伍为追求极限,使用了大量 ensemble。而这对于实际产品非常鸡肋,计算资源耗费过大。

Cloudera 的数据科学主管 Sean Owen 认为,比赛就是单纯的比赛,其应用意义有限:

“如果有任何公司认为,这些数据竞赛能产生即刻能用的机器学习模型,他们一定脑子有毛病。这些参赛团队把 Hadoop 输出的点流数据表(clickstream table)作为比赛输入,然后给出一连串在 Windows 上运行的 Python 或 R 语言代码——但他们压根儿不知道用这些代码做什么。而这也不是 Kaggle 的目标。数据竞赛,是公司寻找技能人才,并做点品牌营销的途径,仅此而已。”

这就牵扯到了数据竞赛的本质:到底是为竞赛主办方、企业客户创造价值,为他们提供有实际价值的解决方案?还是偏向为参赛者提供价值,提供最佳的展示技能和练手的机会?

当然,这两个方向并不矛盾,也不互相排斥。但在实际操作中,比赛的方式尤其是排名机制,往往要求在开发实用解决方案方面做出牺牲,两者之间很难达到一个完美兼顾的平衡。而竞赛平台,则可能不得不在比赛的竞赛属性 VS 产品属性之间做出选择。

3.3 B 端

主办竞赛的企业客户不足,是数据竞赛平台发展缓慢的一大原因,国内国外皆是如此。这也是为什么,张伟会看好与谷歌结合为 Kaggle 带来的业界客户关系。

张琳艳认为,B 端薄弱是受制于时下的市场发展阶段。无论是她、陈娟还是王一婷,均认为当下的大数据竞赛行业处在十分原始、不成熟的阶段。企业对于数据开放、组织竞赛心有疑虑。说白了,国内大多数企业并不懂得如何向“数据驱动型”组织转型。

张琳艳列举出三条市场不成熟的“症状”:

  1. 几乎每个上规模的企业都有大量数据,但是如何合规合法合理的使用,不清楚;

  2. 企业内部的数据团队实力参差不齐,对于平常的业务也许还可以,但是整理成一份赛题,无疑要求更高。

  3. 大家对竞赛的理解,还停留在类似学校考试的层面。其实现在竞赛平台上的竞赛,问题和数据都来源于真实场景,而非之前的学术科研层面的理想环境,也就是比大家印象中的所谓‘竞赛’更落地。

受限于这些客观因素,数据竞赛的 B 端客户少之又少、增长缓慢,新合作关系的拓展十分困难。各家竞赛平台每年新举办的竞赛数目,多则十几个、少则个位数。然而竞赛平台又没有实力和资源来改变市场大气候,导致拓展 B 端企业客户效率低下、十分困难。

3.4 C 端

当下的参赛者群体,国内国外有天壤之别。

DataFountain 透漏了一组数字:在 2016 年的 CCF 大赛,有 55% 的参赛者是在校学生。当问及这背后的原因,陈娟笑着说:“你看国内哪个做 IT 的,下班后还有时间搞竞赛?

采访中,DataFountain 陈娟更倾向于从国内大数据行业发展的维度看待问题。据她观察,其平台的参赛者主要有三个群体:学生、公司团体和个人。其中,学生群体在大多数比赛中占据参赛者的绝大多数,而且在大多数时候表现非常不错,常占据排行榜的前几位。究其原因,陈娟认为,在校生有空闲有兴趣,肯花时间肯钻研,加之有明师指导,成绩好实不足为奇。

第二个群体,是公司组织员工参赛。而这背后往往有明确的参赛目标——达到某个名次,为企业技术实力宣传造势。业内确实有公司在知名比赛中拔得头筹,结果客户络绎不绝的例子。因此,这一参赛群体有经验有压力有动力,加之公司安排时间专门去做这件事,往往成绩也很不错。

第三个群体,是个人开发者。这一群体在国内不如 Kaggle 活跃,客观上也难以大幅增长。

按照这一分类,C 端用户唯一有增长潜力的群体是学生。而这未必是一个好消息。陈娟强调,C 端用户的成长,是繁荣大数据竞赛的必要条件,靠学生群体能否将之支撑起来?

目前,国内除天池以外,其余几家平台的用户基数不多,在数千名到万余左右徘徊。相比号称有 80 万注册用户的 Kaggle,只相当于它的零头。这里的问题显而易见——参赛用户不足,社区难以活跃,好的方案也难以产生。如何耕耘 C 端,实是各平台的当务之急。

但对此也有不同声音。张琳艳认为,国内竞赛刚刚起步,现在的用户未必具有代表性,尚待进一步观察。而王一婷的观点则更加乐观,她认为,随着国内市场逐渐成熟,国内参赛者群体会与国外逐渐趋同。在她看来,国内用户与 Kaggle 的最大区别在于分享习惯。Kaggle 有积累了多年的社区氛围,用户乐于在论坛进行技术讨论和分享。相比之下,国内用户的分享习惯尚未养成。如何把社区内部的沟通氛围营造起来,培养用户粘性,才是最大挑战。

4. 天池向左,DataFountain 向右?

从 Kaggle 困局,看国内数据竞赛平台如何突围

首先需指出,各平台现阶段的商业模式仍在摸索,下一步的计划也更多是“思路”,而非“战略”。

天池和 DataFountain 应对上文这些挑战的方式,截然不同。

天池的计划总结起来,可概括为:“高精尖”,加速国际化,结合阿里 ET;

而 DataFountain 的思路可概括为:众包,深耕 C 端,建立开放的全生态。

4.1 “高精尖”VS 众包

天池的目标,无论是在数据、题目设置还是最终解决方案上,都希望达到业内顶尖水平。因此而集中精力做精品赛题,甚至是世界级难题,是谓“高精尖”思路。天池将联合英特儿、国内公立医院推出的肺癌诊断竞赛,便可作为代表。天池的重点,是向阿里云的企业客户输出技术。在竞赛的性质上,也偏重于实际解决方案,务求尽可能还原真实业务场景。

DataFountain 同样强调为 B 端企业客户创造价值的必要性。陈娟认为,这是数据竞赛平台行业的最大门槛。长期来看,拥有一支能高效与企业对接的数据专家队伍,能进行高水平的赛题设置,是平台的核心竞争力之一。但是,陈并不看好以数据竞赛形式解决世界级难题这样的“大单”,而认为真正的市场是“多而小”的数据任务:若把数据竞赛市场比喻为金字塔,塔尖所代表的业务量很小,绝大部分市场空间都在中底部。虽然当下的竞赛市场离真正的众包还有很远,但 DataFountain 更看重中小企业的数据服务需求,并希望最终能将之与参赛者进行充分对接。

4.2 B 端

在当下 B 端市场不成熟,工业界对数据竞赛认识不足的情况下,各平台颇有“等风来”的意味。引用王一婷的表述:

“我觉得数据竞赛市场真正打开需要的是时间,让更多的传统企业能拥抱 AI 的时间。”

陈娟则乐观得多:

国内数据竞赛市场,能做好的话,预测一两年就会有繁荣景象。

这背后的原因,在于*。陈娟认为,我国各级*单位近年来推动数据公开的力度越来越大,上海市*便是范例(比如 SODA)。这带动的国企、公立医院等也开始进行相关尝试。开放公共数据是大势所趋,而在一两年内,就可能量变引发质变,并由此带动民营经济领域的数据开放。

届时,便是行业洗牌的时候。

4.3 C 端

两家平台的 C 端思路也完全不同。近年来,阿里云在国际市场上动作频频。去年与软银合作,在日本推出“SB Cloud”品牌,便是一个颇令人瞩目的例子。作为阿里云的子部门,天池是国内竞赛平台中迄今为止,唯一有国际化大动作的一家。王一婷表示:

“天池的国际化脚步才刚刚迈开,这是我们需要加快步伐的地方,所以今年我们成功申请了国际数据挖掘领域最*赛事 KDD-Cup 2017 的举办权,以此向全世界的数据爱好者张开双臂。”

从 Kaggle 困局,看国内数据竞赛平台如何突围

在与雷锋网的采访中,王一婷多次提到,当下天池平台的用户基本都是海内外华人,她们有意改变这一点。

陈娟则认为,如能充分挖掘国内市场,单是把全国计算机专业的学生动员起来,就是十分可观的用户基础。在这方面,作为中国计算机学会 CCF 官方指定平台的 DataFountain,有着天然优势。陈表示,“深耕 C 端这件事必须有人去做”。如果国内没人做,数据竞赛市场很难真正做大。

最后,针对国内市场, DataCastle 张琳艳如此评论道:

“最经典的就是卖鞋的例子了,没有人穿鞋,到底是挑战还是机遇呢?”

相关文章:

谷歌收购 Kaggle 为什么会震动三界(AI、机器学习、数据科学界)?

TOP5%Kaggler:如何在 Kaggle 首战中进入前 10% | 干货

加入 Kaggle 大数据竞赛,总共分几步?

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

上一篇:haproxy 安装与配置文件详解


下一篇:tsd-提升IDE对JavaScript智能感知的能力