业务
- 盘古是阿里云自研的分布式存储平台,承接了整个阿里云的存储业务,拥有海量的用 户。当前盘古块存储团队主要对接阿里云的云盘,阿里集团数据库,中间件,docker 等业务和团队对分布式块设备的需求。主要的产品形态包括SSD云盘,混合存储云盘, SATA云盘,docker 数据卷,系统盘云化等。目前无论是收费用户数、营收、数据量、 机器规模 在国内都无出其右。而且发展迅猛,每年都是超过100%的增长。
团队&文化
- 团队成员都是自我驱动型的,大家都坚持用事实,用数据说话,沟通协作便捷高效。
- 业务飞速发展,在稳定性,性能,成本,易用性,新硬件等领域有足够的丰腴土地待开 发,基本上每个人都能独立own一块,并且能长期专注的深耕下去,个人能取得长足的发展,我们不为每个人设置界限,崇尚志愿者文化,遇到挑战性的问题,欢迎任何人挺身而出来承担,大家协调资源帮他拿到结果,新人很容易脱颖而出。
- 团队大牛多,有ACM世界冠军,中科院的研究员,7位博士。人员非常稳定,流失率低,超过一半的同事干了4年以上,对我们而言,这个不仅仅是一份工作,而是一个事 业,我们信仰云计算。
工作环境
- 对用户而言,数据就是生命。存储是个高危行业,我们从不讳言承受着巨大压力,期待 你有足够的抗压能力。
- 不强制加班,但确有加班,我们更期待高效率的工作而不是加班,不搞996,不打卡, 工作时间弹性。
- 偶尔需要在北京和杭州之间出差做技术交流,平均2个月一次。
- 工作地点 北京、杭州。
岗位描述
- 高可靠、高可用存储系统的设计研发与演进,黑天鹅事件的规避预防以及损失控制,降低爆炸半径,确保用户数据安全。
- 对接新硬件(NVME, NVDIMM,FPGA,3DXPOINT, RDMA网络), 提升资源利用率,降 低硬件成本,为用户提供更快更便宜的块存储。
- 追求E2E的极致性能,从软件架构,网络,存储硬件多角度来优化系统性能。
- 严控工程质量,完善的代码review, UT/ST测试。
- 日常线上问题调查,以及运维体系和自动化系统的建设,我们相信绝大多数的问题调查 和解决是可以自动化的。
岗位要求
- 热爱代码,追求高品质代码,对工程质量有深刻认识。积极主动,遇到不好的代码,希望你能主动动手修正,不管是否你写的。
- 将物理极限作为系统的极限,不轻言不可能,我们偏好追求极致,勇于突破的人。
- 眼界开阔,对新技术保持敏感性,熟知分布式存储行业的主要竞品(如AWS 的 EBS, ceph ),熟悉 SCSI, NAS, SAN 等传统存储产品,期待你能推陈出新,勇于突破,快速出POC。
- 熟悉分布式系统(熟知paxos, raft 等协议),有高可用系统建设和运维经验;
- 能顺利阅读并调查linux kernel 中IO 相关问题,精通块存储的IO栈,熟悉主流文件系统, IO 虚拟化, SSD硬件,FPGA 加速。
- 熟悉数据库存储引擎是加分项。
- leadership,业务和团队快速发展,我们期待你具备带领兄弟们攻城略地,发展壮大的能力或者潜力。
- 自信,以上条件不能完全具备也没有关系,我们欢迎自信的人。