饿了么:云端调度,饭来张口

饿了么:云端调度,饭来张口
“云栖奖”获奖人:饿了么CTO 张雪峰
作者:阿里云研究中心 田丰

饿了么:云端调度,饭来张口 

外卖送餐市场近几年都保持了超过200%的高增长速度。有如团购市场、共享出行市场百团大网络订餐经历了低门槛遍地开花、砸钱补贴吸引用户量、精益运营降本增效三重要阶段。比达咨询市场分析数据显示,2016年中国第三方餐饮外卖市场格局中,饿了么位居第一,市场份额为34.6%,美团外卖33.6%)、百度外卖18.5%)紧随其后“白领市场社区市场校园市场细分领域中饿了么均占据榜首位置。截至201612月,饿了么业务覆盖1400多个城市,用户超过1亿,各地加盟餐厅超过100万家,日订单量突破900万,旗下“蜂鸟配送”日配送单量超过450万。

独角兽的成长道路上,饿了么面对人工成本高制约业务快速扩张、人工派单速度慢导致高峰期积压订单严重、人工派单随机性引起订单配送时效性差现实问题,而阿里云通过智能派单系统,基于海量历史订单数据、餐厅数据、骑手数据、用户数据等信息实现智能派单,逐步替代调度员的大部分工作。智能派单系统整体全面上线后将释放90%以上人工派单的人力,每年节省人力支出预计超过亿元。

饿了么的IT系统架构伴随业务量飙升进行了三次重大升级

1)起步期(20092013年)饿了么由上海交通大学创始团队起家,发展至35人规模日订单量维持在十万量级IDC+Python”技术组合支撑业务运营,但面临Python人才难觅等困扰。

2)成长期(2014年至2015年):1489月短短2个月日均订单量增长1010万迅猛飙升至100万,业务规模主攻全国200城市,原有IT系统架构压力极大,依靠人肉运维举步维艰,故障波动影响业务,创始人核心技术团队坚守机房运维一线,才勉强扛住100万量级业务订单开始借鉴阿里淘宝架构模式,人员团队也涨至500技术生态从Python扩展至“Java+Python”开发体系人肉支撑百万订单运营到自动化运维筹备同城异地容灾体系

3)规模期(20152017年):201578月,日均订单量从200翻倍,以往积压的问题都暴露出来,技术架构面临大考验,坚定了架构上云的方案,团队扩展至1000架构要承载数百万量级业务时,出现峰值成本、灾备切换IDC远程运维等种种挑战,全面战略转型采用IDC+云计算的混合架构20161225日圣诞节日订单量迎来前所未有的900万单,因此在技术架构上探索多活部署创新研发。

饿了么:云端调度,饭来张口 

 

为什么选择架构转型上云?饿了么CTO张雪峰先生所说技术架构IDC经典模式发展至混合云模式主要原因是三个关键因素让管理层下定决心上云:

1) 脉冲计算从技术架构配套业务发展分析,网络订餐业务具有明显脉冲计算特征,在每日上午10:0013:00、晚间16:0019:00业务峰值出现,而其他时间则业务量很低,暑假是业务高峰季,20165.17大促,饿了么第一次做秒杀一秒订单15000巨大的波峰波谷计算差异,引发了自建数据中心容量不可调和两难处境,如果大规模投入服务器满足6小时高峰业务,则其余18小时的业务低谷计算资源闲置满足平均业务量,则无法跟上业务快速发展节奏,落后于竞争对手;搞电商大促时,计算资源投入巨大大促之后计算峰值采用自建机房利用率仅10%所以技术团队摸索出用云计算扛营销大促峰值的新模式,采用混合云架构满足 “潮汐业务峰值计算阿里云海量云计算资源弹性随需满足巨大的脉冲计算缺口,这与每年11淘宝引入阿里云形成全球最大混合云架构具有异曲同工的创新价值。

2) 数据量爆炸伴随饿了么近五年业务呈几何级数的爆发式发展,数据量增速更加令人吃惊,是业务量增速的5,每日增量数据接近100TB2015年短短2个月内业务量增长10,数据量增长50上海主生产机房不堪重负30GBDDoS攻击对业务系统造成较大风险,上云成为承载大数据、抗网络攻击的好方法

3) 高可用性挑战众所周知IDC自建系统运维要承担从底层硬件到上层应用的全栈运维运营能力与维修能力,当2015夏天上海数据中心故障发生,主核心交换机宕机时核心交换机Bug同时被触发事故发生到硬件厂商携维修设备打车赶往现场维修的整个过程中,饥饿的消费者无法订餐吃饭,技术团队第一次经历业务中断而束手无策决心大笔投入混合云灾备的建设“吃一堑,长一智”持续向淘宝学习电商生产与灾备架构,以自动化运维替代人肉运维从灾备向多活演进,成为饿了么企业架构转型的必经之路。

4) 大数据精益运营:不论网络打车还是网络订餐,共享服务平台脱颖而出关键成功要素是智能调度算法,以大数据训练算法提升调度效率,饿了么高峰时段内让百万骑士送餐快递员完成更多订单是算法持续优化的目标,而这背后隐藏着诸多复杂因素,包括考虑餐厅骑士、消费者三者的实时动态位置关系,新订单插入现有骑士的行进路线中,估计每家餐厅出餐时间,每个骑手的行进速度、道路熟悉程度各不相同,新老消费者获客成本、高价低价订单的优先级皆不相同。种种考量因素合并到一起,对于人类调度员来说,每天中午和晚上的高峰都是巨大的挑战。以上海商城路配送站为例,一个调度员每6秒钟就要调度1单,他需要考虑骑手已有订单量、路线熟悉度等。因此可以说,这份工作已经完全不适合人类。但对人工智能而言,阿里云ET则非常擅长处理这类超复杂、大规模实时要求高的非人问题。

饿了么:云端调度,饭来张口 

 

   饿了么是中国最大的在线外卖和即时配送平台,日订单量900万单、180骑手、100万家餐饮店,既是史无前例计算存储挑战人无我有战略发展机遇。饿了么携手阿里云人工智能团队通过海量数据训练优化全球最大实时智能调度系统。在基础架构层云计算解决弹性支撑业务量波动的基础生存问题,在数据智能层利用大数据训练核心调度算法提升餐饮店的商业价值才是业务决胜的技术神器

在针对大数据资源专家+机器运营分析中,不断发现新的特征

1) 区域差异性:饿了么与阿里云联合研发小组测试中发现有2个配送站点出现严重超时问题。后来才知道:2个站点均在成都,当地人民喜欢早、中餐一起吃,高峰从11点就开始了。习惯了北上广节奏的ET到成都就懵了。据阿里云人工智能专家闵万里分析:“不存在一套通用的算法可以适配所有站点,所以我们需要让ET自己学习或者向人类运营专家请教当地的风土人情、饮食习惯”。除此之外,饿了么覆盖的餐厅不仅有高大上的连锁店,还有大街小巷的各类难以琢磨的特色小吃,难度是其他智能调度业务的数倍。

2) 复杂路径规划吃一口热饭有多难?送餐路径规划比驾车出行路径规划难度更高要考虑“骑士地图熟悉程度、天气状况、拼单效率送餐顺序、时间对客户满意度影响、送达写字楼电梯等待时间等各种实际情况,究竟ET是如何实现智能派单并确保效率最优的呢?简单来说,ET会将配送站新接订单插入到每个骑手已有的任务中,重新规划一轮最短配送路径,对比哪个骑手新增时间最短。为了能够准确预估新增时间,ET需要知道全国100万家餐厅的出餐速度、超过180万骑手各自的骑行速度、每个顾客坐电梯下楼取餐的时间。一般来说,餐厅出餐等待时间占到了整个送餐时间的三分之一。ET要想提高骑手效率,必须准确预估出餐时间以减少骑手等待,但又不能让餐等人,最后饭凉了。饿了么旗下蜂鸟配送准时达服务单均配送时长缩短至30分钟以内

3) 天气特殊影响:天气等环境因素对送餐响应时间影响显著,要想计算骑手的送餐路程时间,ET需要知道每个骑手在不同区域、不同天气下的送餐速度。如果北京雾霾,ET能看见吗?双方研发团队为ET内置了恶劣天气的算法模型。通常情况下,每逢恶劣天气,外卖订单将出现大涨,对应的餐厅出餐速度和骑手骑行速度都将受到影响,这些ET都会考虑在内。如果顾客在下雪天点个火锅呢?ET也知道,将自动识别其为大单,锁定某一个骑手专门完成配送。

4) 餐饮营销顾问:饿了么整体业务涉及C(消费者)、B餐饮商户D(物流配送)、BD地推营销),以往区域业务开拓考核新店数量,现在会重点关注餐饮外卖健康度,对于营业额忽高忽低、在线排名变化的餐饮店,都需要BD专家根据大数据帮助餐饮店经营者找出原因给出解决建议避免新店外卖刚开始就淹没在区域竞争中,销量平平的新店会离开平台通过机器学习把餐饮运营专家的经验、以及人看不到的隐含规律固化下来,数据决策来发现餐饮店经营问题产品差异定位,餐饮商户尝到甜头,才愿意继续经营。举个例子,饿了么员工都喜欢楼下一家鸡排店的午餐大数据发现这家店的外卖营收并不如实体店那么火爆,9元“鸡排+酸梅汁”是所有人都喜欢的爆款产品,为什么同样菜品遭遇线下火、线上冷呢?数据预警后BD顾问指出线上外卖鸡排产品没有写明含免费酸梅汁一杯关键促销内容导致大多数外卖消费者订一份鸡排一酸梅汁,却收到一份鸡排两杯酸梅汁,体验自然不好。

饿了么:云端调度,饭来张口 

饿了么是数据驱动智能算法调度的自动化生活服务平台,通过O2O数据的在线实时分析,与阿里云人工智能团队不断改进算法,以全局最优取代局部最优,保证平台上所有餐饮商户能享受到数据智能科技红利

饿了么:云端调度,饭来张口 

“上云用数”的外部价值诸多,从饿了么内部反馈来看,上云不仅没有运维团队失去价值,反而带来了云原生应用(Cloud Native Application)云上多活“CDN云端压测安全风控一体化创新路径方案,通过敏捷基础设施(IaaS)、微服务架构(PaaSSaaS)、持续交付管理、DevOps云最佳实践摆脱人肉支撑的种种困境,进而实现更快的上线速度、细致的故障探测和发现、故障时能自动隔离、故障时能够自动恢复、方便的水平扩容。饿了么CTO张雪峰先生说:互联网平台型组织,业务量涨数倍,企业人数稳定降低,才是技术驱动的正确商业模式。

    在不久的将来你每天订餐出行、娱乐、工作留下的大数据驯养无处不在、无所不能智能机器人管家,家庭助理帮你点菜无人机为你送餐,聊天机器人接受你的投诉……当然这个无比美妙未来世界背后,皆有阿里云的数据智能母体ET”

上一篇:吉利汽车:数字化转型从上云开始


下一篇:特步:云共享服务,点亮“新零售”