独家 | 一击进榜!达摩院十年“扫地僧”,揭秘阿里云数据仓库逆袭之旅

独家 | 一击进榜!达摩院十年“扫地僧”,揭秘阿里云数据仓库逆袭之旅

2011年加入阿里巴巴,在近10年时间一直从事数据仓库、数据湖基础平台研究、研发、产品化相关工作。目前在阿里云数据库事业部主要负责数据仓库与数据湖相关产品的研发;达摩院数据库与存储实验室研究员。


数据库这个词你可能有些陌生,但其实,所有的现代生活背后,都隐藏着数据库的服务。你的每一次消费、每一次股票交易、每一条微博动态,都离不开数据库。


人类的发展跟数据息息相关,人类最早的时候,是从结绳记事开始;到后来,可以把文字记录到甲骨文上;再到后来我们开始有了计算机。从人类诞生开始,人类就在不停地记录信息,其实那就是数据库的雏形。


1960年阿波罗登月计划,美国航空航天局NASA为了记录整个航天过程中的所有信息,联合 IBM 研发出了第一代数据库——IMS。随后数据库技术开始进入民用领域并得到广泛应用。


Q:您当时为什么选择加入阿里?

占超群:应该是在11年左右,那时候认识很多淘宝的朋友,当时整个淘宝其实也发展很快。我记得印象中好像在2011年的时候,淘宝的日独立UV超过1.2个亿,然后那时候我觉得可能淘宝是最有机会去实现一个很重要的技术突破的地方。

Q:在阿里工作近十年,您有遇到什么困境吗?​


占超群:印象中比较深刻的困境是在刚来的第五个月的时候,本来主管要求我是两个月要上线的。但是我做了五个月还没上线。那时候产生了第一次理念的冲突。

其实主管给我要求做一个为单个业务服务的数据处理技术,还不能称之为数据库系统,他说你把这事情做好就够了。我当时跟主管讲,这个事情不是为单个业务服务的一个模块,而应该是一个平台型的设计和平台型的系统。我们俩一起聊了很久,最终我觉得还是很幸运的,大家还是达成了一致,主管觉得这个事情有价值。

所以我当时第一天就按照一个数据库的形态去倒推今天该怎么做,考虑到描述语言(SQL)、优化器、存储引擎、执行引擎,从最开始支持一个到两个到20个业务,到今天的500多个,集团的分析业务基本都覆盖了。

Q:2019年,阿里巴巴的AnalyticDB数据库荣登TPC-DS榜单第一,终于打破了甲骨文和微软在数据库领域的霸主地位。您当时怎么想到要去冲击TPC榜单?

占超群:18年的10月份,我记得是在一个晚上,我拉了团队几个核心的骨干,我说我们要去冲击一下 TPC,打磨下我们端到端的技术,按照国际标准进行极致与严格苛刻的端到端验证。

当时他们都比较反对,他们看了报告觉得好多东西都看不大懂,甚至第一反应不是很理解背后考察什么?要用什么技术去解决?这个里面其实挑战是很大的,但我说这个事情我们必须去,我说这是我们很重要的一个飞跃点和技术验证点,这些技术通用化是可以很好地打磨产品,也会对客户产生很大的价值。

Q:很多人可能会觉得去挑战一个长期被国外巨头垄断的数据库技术榜单,您是给自己定了一个过高的目标,您中途是否有想过放弃?

占超群:我是很坚定的。但过程真的非常痛苦。我花了大部分时间和大家在项目室或开电话会,一项一项地抠细节,一项一项去做架构的review。​

Q:徒步之旅和冲击 TPC 有什么异曲同工之处?

占超群:我以前走过一次徒步,就是去过玄奘之路,让我一生的印象深刻的事情就是徒步第三天,终点是个风车镇,从露营的地方你就能看到那个终点,但是你就怎么走都走不过去。出发的时候还很开心觉得一下子就能看到终点应该很快就能完成,但是走到中午发现,他们说你才走了一半不到,所以那天很多人都放弃了,就走到一半就放弃了;我走到一半的时候,我也感觉特别难受。

我在中途休息了很久,心里也很想放弃。因为我这么多年的一个性格,就是再难,只要定了,我是爬过去也好,还是走过去也好,但是一定要去到终点。所以中途休息了特别长时间,后来还是爬起来接着走,印象中走到天黑才走到终点。

我们走向国际化就这种感觉,你知道对手是谁,他做成咋样了,但是你就是不知道该怎么走过去。就是你跑一段发现,这段对手已经五年前走过了。再跑一段,发现对手七年前走过了,就这种感觉,是其实很让人又兴奋又绝望的那种。

最终是在2019年的4月份,我们就正式完成了,并且效果还非常好,拿到了性能和性价比全球第一。

Q:每一次的产业革命都伴随着基础设施的更迭,而在数据库领域,也正发生着这样一场从旧到新、从传统到云端的技术巨变。您是怎样看待这样的转变?

占超群:云计算其实在重构整个数据库的体系结构。以前数据库的结构是什么样子呢?磁盘、CPU、内存都是单机的,要么 Scale up 扩展单机资源如内存等,要么 Scale out 扩展物理机数量。但今天云计算基础设施变化会出现什么呢?存储是可以共享和按需付费的,计算也可以按照实时的请求弹性扩展。它把整个体系结构都变了,云原生加分布式技术对于数据库来说是巨大的机遇,这个东西其实是我们在当前,最有机会能超过国外厂商的一个新赛道。

Q:您​总共招聘过多少人?


占超群:我看系统应该超过1500人。无论是侠客行、百年阿里,上了很多场课。

Q:您选人的标准是什么?


占超群:实际上就是很多人分不清什么叫知识,什么叫经验,什么叫能力,什么叫潜力。比如我看了一本书或一篇Paper,这只能叫一个知识;然后我做了某件事情,用到这些知识,这叫经验。能力是什么呢?就是说,我做了这件事情总结出来的技术和经验,我在B、C、D、E项目中复制了,这个就叫能力。基于这些能力,然后在面临一个未知的时候,我也能做得很好,这叫潜力。这是我们要去深入挖掘出来的东西,因为我们面临很多未知挑战,需要更多人一起去解决。


Q:您有什么特别的解压方式吗?


占超群:待的时间越长,慢慢会形成一个思维惯性和执行惯性,也会失去刚入职的那种锐气和勇气,这是我最怕的一件事情。以前在西溪园区的时候,那个时候比如我在面临一些压力或者有很大挑战和选择的时候,我都会看一下九号馆的雕像,更多时候想想我是不是背了太多包袱了。

独家 | 一击进榜!达摩院十年“扫地僧”,揭秘阿里云数据仓库逆袭之旅

其实我跟大家一样,也是从一个基层的同学成长起来的,过程中一定会碰到很多的委屈,包括老板不一定理解,包括被业务方否定和批评,包括各种内外部的技术 PK,这个过程中也是经历了很多内心的纠结彷徨。


很多时候我也想过放弃。但这个过程中,比如我们的技术用到城市大脑让这个城市更安全,让城市的治理效率更高;技术用到邮政等让整个邮政的物流效率更高等。其实背后都是有非常大的技术突破和创新,这些技术在一步步地改变民生,在支持企业数字化,承载很多客户对我们的信任与托付,让很多美好的事情发生。这些是能让我在很多时候,在委屈和彷徨的时候坚持下去最大的动力。

上一篇:position:absolute,position:fixed,width:100%,height:100%;释疑


下一篇:阿里云PolarDB两篇论文入选数据库顶会SIGMOD2021 最新一代架构领先世界