Airbnb数据科学团队进化论:如何由内而外实现数据驱动


Airbnb数据科学团队进化论:如何由内而外实现数据驱动

虽然团队组织结构的演化允许数据科学家团队繁荣兴旺,但是公司的成功源于“精准定位”于两件事:发自肺腑地关爱员工,积极主动的数据驱动决策。不论是开发可持续利用的开源工具还是奋力改进数据科学部门的多样性,Airbnb数据科学团队负责人Alok很清楚,Airbnb追求的事都要贯彻这两个原则。

◆ ◆ 

超级增长:短短几年,从5到70+数据科学家


在2013年,Airbnb只有一个5人数据科学团队,集中地为公司的数据需求提供服务。此后,他们成长为最大的、也是最有创意的创业团队之一,拥有超过70名数据科学家,服务于不同的商业部门。除了招聘时坚持高要求和贯彻师徒制外,组织结构也是团队顺利增长的关键。

Airbnb数据科学团队进化论:如何由内而外实现数据驱动 

Alok把将集中的数据科学家部门分成小的嵌入式团队,与商务伙伴们坐在一起工作形容为“呼吸新鲜空气”。与之前的结构相比,他说新的模式对公司而言,“非常给力”。

这个变化是跟随着“到底什么是数据科学家”的观念而演化的。很多人同意Alok的说法,认为数据科学家这个词“已经超载”了。他相信,除了数据科学独角兽,其他人应该可以被分为以下四种角色,才会更好地分配工作:

  • 数据工程师-他们接手乱七八糟的数据,打理到可以分析的地步。

  •  产品建造师-他们建造数据产品供用户使用。比如,建造一个推荐引擎。

  • 数据分析师-他们提供主要的分析框架,从中发现商业机会。

  • 数据实验师-他们知道如何设计和实施实验。

数据科学团队如何解决快速扩增中带来的生长痛?Alok告诉我,创新和数据科学团队的演化正是源于公司的两个极端要求。

第一个是Airbnb将自己定位为竭力保证员工的快乐,成功和被重视。比如,投资于新员工入职的数据培训,建立师徒制,参加会议等,都是Airbnb培养员工的重要途径。

另一方面,Alok强调,Airbnb又是一家非常重视指标和目标驱动的公司。关于第二条公司文化准则,Alok强调了Airbnb在做商业决策时,是极端的量化和目标驱动的:

我们所做的一切事情都是深思熟虑的,非常量化的,也是精准集中在我们的目标上的。”

这里传递的信息是,Airbnb已经,至少部分地对它的数据科学团队的质量做出了承诺,摆在首位,作为一种实施它的研究驱动的行为模式的方法。

在我们接下来的谈话中,Alok与我分享了Airbnb的数据科学团队如何取得成功,建立凝聚力,为自己和用户获得更好的结果。珍惜员工福祉与量化驱动决策这两个方面齐头并进,通过这样周到细致的定位,很明显,二者的珠联璧合使Airbnb的获得了进步。


◆ ◆ 

建立规模化的知识分享生态系统


在Airbnb,生产力和创新严重依赖于知识共享。Alok带领我参观了他们的努力集中的三个领域:流程管理数据在组织内外的普及可循环利用的研究

Alok描述了Airbnb如何重金投资数据授权团队,来开发整个组织的流水线、标准流程。其中包括查询工具,如Airpal和Airflow,通过程序性的任务编写、计划和监控来实现数据的流水线管理。

Airbnb数据科学团队进化论:如何由内而外实现数据驱动 AIRBNB的开源数据工作流程管理工具AIRFLOW

本着回馈开源社区的精神,Airbnb去年将Airflow进行了开源,迄今为止,有46家公司用它来管理自己的工作流程。

意识到数据的可及性是实现指标驱动的商业决策的必由之路,Airbnb也开发并开源了数据可视化工具Caravel。平台允许用户在拖拽的环境下探索数据。

Airbnb数据科学团队进化论:如何由内而外实现数据驱动 AIRBNB的开源数据可视化平台CARAVEL

最后,Alok取笑了另一个即将要开源的工具。与Kaggle的新开放数据平台相比,他称Airbnb的知识分享工具为“游戏更换”。Github式的存储,目前尚属内部使用,允许用户从头到尾把分析写在上面。

Airbnb数据科学团队进化论:如何由内而外实现数据驱动 

在知识分享的诸多好处中,除了支持可再生研究,避免重复代码,知识分享工具解决了发表偏倚的问题。发表的研究是专门挑选的,可能是因为有吸引人的或者验证性的阳性结果。在引进知识分享之前,Alok记得2年前他加入Airbnb时,知识还是“部落性”的。


我必须知道正确的人,然后走过去对他说,‘你好,请问你是否编写了这个程序?到底发生了什么?’” 


现在,相比较运行A/B测试和把无效结果抛至所谓的“文件柜”(或邮件附件)中,Airbnb的数据科学家花费少量有价值的额外时间像写更正式的代码一样记录他们的实验。Alok说在数据科学家的工作中,搜索知识文章的最终能力对于提高可进入性具有更大的影响。

Alok举了一个关于知识文章能产生差异的具体例子。他的团队曾经想要运行一个可以影响用户预订住宿的实验。

“事实证明,我们3年前运行这个实验,它花我们9个月时间运行。我们只需要读取帖子便能知道答案,而不是重新运行它。”


特别是小型团队,Alok给出的建议是“不要试着自己创建每件事物,现在有许多开放源码工具。用他们作为开始吧。”他甚至用Kaggle Kerneis举了一个例子,阐述道“我认为它是一个很好的共享分析工具。”

◆ ◆ 

多种观点与数据科学的未来


Airbnb房主已经遍及191个国家的34000个城市。创建一个欢迎不同文化背景的人的平台,需要这个公司对员工做内部投资,建立一个强大、多元化团队。 在数据科学和工程学领域,许多公司没有对它们的用户做出必要反应,这对他们是非常不利的。在最近一篇发表在airbnb工程博客上的文章表示,airbnb数据科学家Riley Newman和Elena Grewal说,公司正在努力解决多元化的缺失,Alok认为这是数据团队今年最主要的问题。

Alok主张,对于任何问题,识别是Airbnb解决问题的第一步,从这个观点考虑,他们的数据引导理念已经使他们有所提高。多元化团队的优势是无可争议的——

“毋庸置疑,增加多元化能提高我们分析的标准,提升我们作为一个数据科学团队的影响,并增强我们向彼此学习的师友关系。”

在过去的一两年中,我们已经看到了在进步中产生的影响[…]。通过一个更加多元化的数据科学团队,我们已经加深了合作关系,并作出了对这个组织的更大贡献。”


总的来说,Airbnb的数据团队无疑地、积极地影响着他们的用户。Alok举例说:

“我们有更多的假设来自这支团队,如什么能引导更多人的参与度[…]什么能带来更大的实验多样性。”


对于建立一个多元化团队,最具挑战的障碍之一是首先要理解多元化意味着什么。Alok对比多元化招聘的“良性循环”公司与 “恶性循环”公司,发现他们首先在识别阶段便存在差异:

如果你自己不够多样的话,那更不可能雇用多样的人,因为你会雇用那些像你自己的人。你会因为地区局限而亡,因为应聘者都以看似相似且正确的方式表现和进行面试。”


他对团队的建议是,面对问题的时候要深思熟虑,这与“不平衡分类”的理论相违背。他举了一些例子,如隐藏应聘者的姓名和性别,并且在现有专业领域以外花费更多时间发掘应聘者。事实上,Alok把他们近期的招聘竞争作为Airbnb如何将其努力展现在公众面前的一个例子。

“你不得不说,‘我将花时间试着去找到那些跟我现有团队截然不同的人。’这并是顺其自然就会发生的事情。你必须经过深思熟虑,并且需要投入时间。”


目前,不同领域的数据科学专家和机器学习专家正在进入这个产业。从物理学家到生物学家,教育是一个维度,但它现在不是吸引多样人才的挑战。因此,Alok表示,希望数据科学或机械学习的学位不会成为应届生进入这个领域的阻碍。

尽管被一个像Airbnb这样的数据团队雇用仍然任重道远,但是没有理由丧失信心,因为Alok对于有抱负的数据科学家最好的建议是获得“尽可能深入和肮脏”的数据。因此,在允许必要的机器学习和数据分析动手实践上,开源数据具有改变能力。他还提倡,掌握iPython和R的应用,有助于专注深入了解数据和理解整理混乱数据的意义。 

那么,这对你、你的团队或是你的公司,意味着什么呢?跟随Airbnb的步伐,首先开始关注公司内在。通过做有目的、以数据为引导的决策,公司以多种方式衡量它的团队、知识和进步,这已经超出了组织本身。

原文发布时间为:2016-10-10


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

上一篇:智能机器时代,他们在准备着


下一篇:跨平台常用的编译器预定义的宏