看云栖说云栖——风火水电、方升、泰山、貔貅

流浪地球软件工程师李一一:
“春节十二响没有点火程序,所以你们要手动启动撞针了!”
“为什么软件上传不了?为什么破解不了?”

流浪地球硬件工程师何连科:
“没有硬件支持,你破解个屁。”

没有硬件的支持,也一样也计算不出来。2019云栖大会,先让我们看看支撑起阿里云及阿里经济体一切业务的的数据中心物理基础设施和服务器相关的内容吧。

讨论数据中心,就离不开风、火、水、电、就离不开选址、土建。

互联网数据中心专场的开场嘉宾是中国信通云大所数据中心部李洁主任,演讲的题目是《国家及地方数据中心政策解读》,先来报一组数据:

  • 我国在用数据中心总规格达到166万架,同比增长比例达到33.4%
  • 超大型数据中心共计36个,机架规模达到28.3万架;大型数据中心共计166个,机架规格达到54万架,大型、超大型规格增速比例达到60%
  • 内蒙古、河北、贵州、宁夏在用机架数全国占比超过30%
  • 北京、上海、广东在用机架数全国占比降低到37%,降低超过5个百分比

再来一组区域发展指引:

  • 热点地区:北京、上海、广州、深圳等一线城市数据中心资源增速放缓
  • 周边地区:新建数据中心快速增长,网络质量、建设等级及运维水平较高,提供大量可用资源,逐步承接一线城市部分应用需求,可有效缓解一线城市数据中心资源紧张的局面。
  • 西部地区:数据中心网络、运维不断完善,业务定位逐渐清晰,冷存储业务、本地计算业务开始上线,数据中心利用率正在不断提高,与东部数据中心协同发展

总结起来就是鼓励建设大型和超大型数据中心,对一线城市的数据中心建设和扩建进行限制,鼓励在一线城市周边建立承接在线业务的数据中心,在西部地区建立用于冷存储、计算型的数据中心。与此对应,阿里云张北数据中心乌兰察布数据中心、广东河源数据中心已经或者即将开服,其中已经开服的张北数据中心到北京的网络延时已经可以控制在10ms以内。

阿里云资深专家后羿在《基础资源的可持续供给》部分的演讲中提到:L3(例如张北、乌兰察布、河源)较核心城市L1(例如北京、深圳)的IDC单KW成本下降25%-35%。阿里云的IDC资源发展策略就是要限制L1,做大基地型
估计以后会看到越来越多的类似阿里云张北数据中心这样的基地型数据中心。

在阿里云高级技术专家王鑫的《阿里巴巴绿色数据中心实践和探索》的演讲中对阿里云数据中心的建设策略进行了阐述:标准化是实现精细化管理的关键,要能够快速复制,从传统的串行设计思路,转变为以模块标准容量和标准配置为固定值的模式,将全国主力建设标准浓缩到2-3个版本,设计、建设、预制产品、规模采购,尤其是运维,避免更大的风险及成本投入。

在最后阿里巴巴高级技术专家水旺的《阿里巴巴高可用云数据中心基础设施服务》中,介绍了阿里巴巴高可用数据中心的规划标准:

  • 光纤独立三路由
  • 外市电独立双路由
  • 市政供水管道双路由
  • 园区独立封闭
  • 同地域可用区之间距离大于15KM,小于30KM
  • 10KV-AC/240DC 高效率的直流供电系统,五年免维护,全世界第一的转换效率(98.5%)

在介绍新建数据中心设计规划时有一个细节:阿里云不同地域的数据中心的单体A、单体B、单体C、单体D、单体E、变电站、综合楼这些建筑只是相对位置和摆放方向不同,所有数据中心单体建筑内部格局都是完全相同的

数据中心是标准的,阿里云的服务器也是标准的,这个标准就是方升

在开放(数据中心)硬件专场,阿里巴巴基础设施事业部服务器架构师火流在《开放·共享·共建中国云服务器生态》的演讲中对讲到了云基础设施的特点:

  • 超大规模:细节的优化变得非常有意义(PS:即使一台服务器节省10%的能耗,在几十万台的规模下经济效益将非常可观)
  • 需求多样:多维度的,灵活的产品形态(PS:云端客户需求多样,有的需要多内核、有的需要高主频、有的需要大内存、有的需要大容量存储空间、有的需要RDMA网络、还有的需要GPU和专用加速板卡)
  • 激烈竞争:加速基础设施的技术演进(PS:规格和价格的竞争都是明摆着的,不能在第一时间上线最新的产品就会被客户所抛弃)

基于这些云基础设施的的需求,阿里云提出了方升开放项目,为的是制定属于中国的OCP(FaceBook在2011年提出)开放数据标准:COCI规范,并和业界合作伙伴一起共建云基础设施硬件生态。

目前能看到的一些有关方升的细节包括:

  • 机柜规范、包括机柜的尺寸,布线和走线规范、承重设计、支持整机柜集成交付等。
  • 云服务器节点规范、包括业务和管理网络前出、电源后出、节点IO前维护,冷风道维护,节点关键硬件接口定义,节点供电架构优化等。
  • 云服务器PSU(内置电源)规范、包括环境耐受能力、能效优化标准、智能运维标准等。
  • 云服务器性能/能效规范、包括CPU性能稳定性要求、内存访问性能要求、磁盘性能一致性要求、包括板级及整机的各种能效规范等。

方升标准的最大的用户就是阿里巴巴自己,通过前维护架构和优化的风道设计可以让风扇能耗降低30%、并支持300W的CPU,工作人员在冷风道维护改善了工作环境,提升了维护效率。基于这样的架构,阿里巴巴可以用同一套服务器主板,衍生出符合各种业务场景要求的业务机型,降低设计时间和设计成本,

基于这种服务器架构,阿里演化出了全闪存存储服务器泰山,以及大容量存储服务器貔貅

为配合泰山全闪存存储服务器,阿里云还研发了自己的闪存AliFlash,实现了存储硬件全链路自主掌控,提升了产品和服务的竞争力。

这次聊完了数据中心的风火水电,方升、泰山、貔貅架构的服务器,下次讲讲神龙和弹性计算。

上一篇:用 Flask 来写个轻博客 (6) — (M)VC_models 的关系(one to many)


下一篇:阿里云防火墙测试调研