阿里云智能基础产品技术月刊 2019年11月 ——永不停机的计算服务

一、 商用产品技术

TOP1 2864亿成交额的背后 阿里云存储系统盘古2.0稳如磐石
2019全球天猫购物狂欢节创下了2864亿的商业奇迹,作为云基础设施的稳定和性能引擎,阿里云自研的分布式存储系统盘古 2.0 提供稳如磐石的可靠性服务。随着块存储 ESSD 云盘大规模应用,盘古2.0顺利支撑了数据库、中间件、MetaQ、Sigma 在线服务、蚂蚁金服、菜鸟网络等交易链路,赋能阿里经济体双十一核心系统 100% 上云。

TOP2 操作系统、JVM、编译器产品支撑了集团上云重要核心场景,构筑了双十一稳固、先进的基础设施
内核层面解决了 BLINK,PAI,容器平台混部等业务上云关键的技术障碍,而且第一次在万台规模服务器上使用了NUMA 方案,并通过 SPEED 平台的量化分析证明了方案的巨大性能提升,证明基于原生社区构建基础软件的技术演进是成功的。明星产品 ali-diagnose解决了一系列重大关键的压测问题,保障了零点大促稳定高效。JVM静态编译timeout应用实现了云上应用极速启动。袋鼠安全容器首次上线双11支持PAI和ASI的混合部署,为后续全面升级到基于袋鼠的新混部方案打下了基础。

TOP3 专有网络VPC单租户支持实例规模世界第一,完美支持集团双11大促核心系统全部上公有云
2019集团双11大促阿里巴巴核心系统全部上公共云,这就要求公共云上构建超大规模云上虚拟数据中心。VPC团队另辟蹊径通过混部内存共享技术,路由relay技术,解决了超大容量vpc内存占用过大,路由更新收敛慢等业界难题,突破重重限制,在公有云上构建了全球最大的VPC网络,平稳支撑双11单vpc承载数十万容器实例的苛刻需求,为双十一的电商和支付等核心业务提供了简洁可靠、低延迟、高吞吐的云网络。

  • 阿里云发布混合云CPFS一体机,为传统行业客户拥抱云转型提供最佳利器
    12月2日,在广州峰会上,阿里云对外正式发布混合云CPFS一体机,它可支持单机最大2.6GB/s吞吐能力,单集群可扩展至9620个节点,数百GB/s的吞吐,为海量数据的处理提供分布式闪存加速。同时,混合云CPFS一体机支持多副本、纠删码等数据冗余模式,为客户的数据提供超高可靠性的保障,并可快速检测坏盘与服务节点宕机,实现秒级故障检测。

存储容量单位正式公测,首款通用存储售卖形态全球首发
存储容量单位包(Storage Capacity Unit,以下简称SCU)正式上线公测,可以用来抵扣多种不同类型云盘的按量付费账单。相比于随云服务器预付费购买的模式,SCU与按量付费云盘的组合使用,兼具性价比与资源使用的灵活性。

  • 快照服务升级——单盘最多创建并保留1000个自动快照
    快照是某一时间点一块云盘或共享块存储的数据状态文件。常用于数据备份、数据恢复、制作自定义镜像、应用容灾等场景。为了满足更严格的数据合规要求以及提供更安全的数据保护服务,阿里云快照服务进行了重大优化升级,单云盘可创建并保留1256个快照,其中包含256个手工快照以及1000个自动快照。

文档链接:https://help.aliyun.com/document_detail/25391.html?spm=a2c4g.11186623.6.797.307f341fv4mGxD

  • SLS与阿里云费用中心共建推出“成本管家”APP,解决企业客户上云后面对的成本结构复杂,费用难以预测的普遍性问题
    SLS与阿里云费用中心基于日志服务既有功能共建推出“成本管家”APP。成本管家APP有数据采集、分析、预测、预警和可视化报表的能力,能呈现给客户预定制的报表,并支持基于SQL的交互式分析功能。帮助解决企业客户上云后面对的成本结构复杂,费用难以预测的普遍性问题。
  • ALIYUN::ROS::CustomResource发布
    可以支持非阿里云资源,如AWS EC2,满足支持混合云的GAP。

运维编排功能升级,告警触发器正式发布,通过云监控的监控项设定告警阈值,通过告警触发预定义的模板执行,完成自动化运维操作,实现故障自愈的效果,如当ECS实例的cpu使用率超过90%时,触发告警,自动执行从负载均衡解绑,修复实例再挂载的操作。
运维编排体验升级,控制台上线批量操作实例快捷页面,对于有多台实例批量执行脚本命令或启停等操作的场景,无需远程连接实例和编写模板,在控制台输入要执行的脚本命令后,便可以快速选择实例进行批量操作,同时支持tag筛选、并发和批次策略等自定义选项,进一步降低自动化运维门槛。
弹性容器实例 ECI 支持资源组创建和出账。适用于企业根据业务部门进行分账和分业务资源管控。
弹性容器实例 ECI 镜像缓存特性正式Release,支持ImageCache 镜像缓存创建时指定快照盘大小,支持到期删除。
弹性容器实例 ECI 发布对用户自建prometheus、自建日志系统的支持。

  • 阿里云微服务引擎 MSE 1.4.0 版本重磅发布
    在已有ZooKeeper引擎的基础上,增加了对 Nacos和Eureka 的支持,同时在监控趋势图中添加了监控指标的自定义报警通知功能,通知方式支持短信、邮件和钉钉机器人,覆盖上海、杭州、北京和张家口region。详情:https://yq.aliyun.com/articles/727791
  • 阿里云 Serverless 应用引擎(SAE)发布 v1.2.0,最高可节省57%闲置计算资源
    阿里云首款面向应用的Serverless PaaS 产品 - Serverless应用引擎(SAE)重磅升级,支持一键启停、NAS 存储、小规格实例等实用特性。详情:https://yq.aliyun.com/articles/727869
  • 企业级应用分布式服务 EDAS 升级微服务治理能力,推出离群实例摘除功能
    企业级应用分布式服务 EDAS升级微服务治理能力,推出离群实例摘除功能,该功能可以检测 Spring Cloud 和 Dubbo 应用实例的可用性并进行动态调整,以保证服务成功调用,从而提升业务的稳定性和服务质量。详情:https://help.aliyun.com/knowledge_detail/145690.html
  • 应用实时监控服务ARMS 发布新版本
    该版本完成了X-Trace与ARMS调用链打通,支持Agent版本/前端版本的灰度发布功能,剥离了产品对Dauth的依赖,上线支持应用分组报警功能,微服务OneAgent支持优雅下线正式发布,Prometheus监控新增对Flink/ApiServer等默认大盘的支持。
  • 全新一代VPC硬件网关支持集团双11大促,流量洪峰下业务网络如丝般柔滑
    2019集团双11大促阿里巴巴核心系统全部上公共云,传统的X86架构已经满足不了如此大带宽需求,为了应对暴涨的流量洪峰,保障双十一的稳定性,云网络团队重点投入研发软硬件结合的XGW2.0网关,双11集团张北,上海,深圳三大region公网和专线业务全面切换到XGW2.0架构。双十一期间,XGW2.0集群稳如磐石,波澜不惊,业务上云丝般柔滑。
  • 网络产品全面支持基于ARM服务器构建,满足客户特定场景需求
    网络产品VPC、SLB等全部产品全面完成国产化ARM适配工作,在NU20环境完成POC,并将在专有云中率先使用,满足特定客户对ARM服务器有特定需求的场景。
  • SLB上线跨region挂载RS等新功能上线,满足客户多场景应用
    SLB最近发布了多个功能,SLB For CEN功能,极大的丰富了用户的组网场景,将SLB的入口流量调度到不同地域的ECS上,完善了云间网络流量调度;一键替换证书功能,可解决大客户更换证书时大量的重复工作,以及漏刷证书等运维上的痛点;新版健康检查功能,解决了老版健康检查中用户无法查看转发规则中RS的健康检查状态的问题,用户可以更清晰的观察到自己的业务运行情况。
  • 容器服务ACK集群扩容能力增强,支持多可用区扩容,支持挂载多数据盘
    ACK持续增强集群扩容能力,与集群创建保持一致,现用户可选择多个可用区进行扩容。此外,扩容的节点可挂载多块数据盘,同时用户可将数据盘设为加密盘。
  • 容器服务ACK集群节点能力增强,支持自定义脚本、tag、OOS
    ACK增强集群节点能力,用户可在集群创建和扩容时为节点添加自定义脚本(userdata)(白名单开放),该自定义能力对于一些需要特定节点OS的用户来说具有重要意义,用户无需打包自定义镜像,而是直接将脚本注入到标准镜像中,大大增强了灵活性。节点tag则为用户在节点资源分账上提供了便捷,该功能在节点自动伸缩功能中支持。OOS是运维编排服务,ACK节点在节点维护功能中加入了OOS的对接,用户可从ACK中跳转到OOS界面,为ACK节点执行OOS运维脚本。
  • 容器服务ACK Serverless Kubernetes支持多可用区,日志审计,统一CCM
    Serverless Kubernetes自2.0架构更新以来,持续强化云原生的一致性体验。本月新增多可用区功能、日志审计功能,同时创建服务时所需的CCM管控组件也和标准Kubernetes保持了一致。标准Kubernetes的能力将进一步在Serverless Kubernetes上体现。
  • 容器服务ACK集群支持vGPU资源
    ACK增强AI、大数据计算领域的能力,对接公共云vGPU基础设施资源(vgn5i)。现在起,可以创建vgn5i型资源的容器集群了。
  • 容器服务ACK 云原生网络Terway支持ENI缓存
    Terway是基于阿里云ENI技术的容器网络插件,该功能使得Terway会在集群节点初始化时创建一个ENI缓存池,预先初始化一定数量的ENI IP,这将一定程度上加速Pod的创建,提升用户体验。
  • 容器服务ACK CCM支持用户ECS挂载到SLB后端
    CCM是管理Service挂载到SLB的系统组件,一般情况下Service所在的集群节点都会挂载到SLB后端。该能力可使用户集群外的节点接入到SLB后端,与容器应用的Service共同承担外部流量的访问,这在用户存量应用迁移、灰度等场景中非常有用处。
  • 专有云安全V3.10版本发布SOC、云防火墙、内网流量监控产品
    1、专有云安全SOC:提供全局租户安全和平台安全统一管理能力和API,满足专有云大型集团和行业客户集中安全运营和等保2.0集中管控要求。

2、专有云南北向防火墙:提供专有云原生化南北向边界隔离管控和防护能力,让专有云边界安全不裸奔。
3、专有云内网流量审计:专有云内网专线流量监控(CBeaver)发布,全面深度采集分析专有云CSW侧入出流量十元组和DPI,发现异常流量和高级攻击,及进行防御和取证,应对互联网边界及内网风控需求。

  • 访问控制(RAM)支持用户凭证报告和AK最后使用时间查询功能
    访问控制(RAM)是阿里云提供的管理用户身份与资源访问权限的服务。RAM最新推出了用户凭证报告功能,您可以登录RAM控制台(https://ram.console.aliyun.com/),在概览页点击“下载用户凭证报告”获取一个csv格式的文件,其中列出了您的云账号和所有RAM用户的登录凭证信息,包括控制台登录密码、访问密钥(AccessKey)和多因素认证。您可以定期下载用户凭证报告,以实现对用户登录阿里云情况的审计。 此外,在每个用户的详细页面,如果该用户创建了访问密钥,您可以看到访问密钥的最后使用时间,以帮助您确认访问密钥的使用情况,以避免误删除正在使用中的访问密钥。 文档链接: https://help.aliyun.com/document_detail/143477.htm

二、 技术项目进展

TOP1 ECS本地SSD盘实例:单机突破500万性能
ECS本地SSD盘实例资源助力OceanBase登顶TPC-C!阿里云推出公开的测试平台,OceanBase的数据库服务器使用的是204+3台型号是ecs.i2.16xlarge阿里云ECS服务器,其中204台作为datanode,还有3台作为root node。在企业级最高性能的NVMeSSD和阿里云全链路的读写性能优化之下,I2提供超高存储IO能力,实现超低的微秒(us)级别访问时延,超高的百万+级IOPS,超大的10+GBps级别吞吐能力,带来数据库更快的响应速度和处理能力,对应的实例规格是“本地SSD型实例规格族i1、i2、i2。块存储团队通过对多队列,mempool ,nvme io接口,driver 等多方面进行技术攻关最终实现了极致的IO 性能

TOP2 女娲池化/服务化在迭代开发中
前端技术:sysbench 256线程OLTP模型下shmq CPU消耗稍高,继续完善polling机制减少空转
后端集群:完成recovery框架并合入主线;完善orphan file空间回收;完成磁盘心跳的检测方案设计与优化
DBFS Master:交付租户的增加,删除及展示功能;设计QoS指标方便神农监控与展示

TOP3 完成StackGroup设计&评审
进入技术演进阶段,可赋能跨用户和跨域部署管理的能力,预计12月底可以上线

三、 学术、科研、技术成果

TOP1 阿里云基础软件作为企业代表进入CCF专委会,持续贡献社会服务并提升阿里云技术影响力
2019年11月22日,CCF系统软件专业委员会年会于杭州召开,基础软件部高级技术专家希伯当选CCF系统软件专委的常务委员,同时兼任CCF软件工程专委的常务委员。阿里云基础软件持续贡献社会服务,并提高在学术领域的影响力。

TOP2 阿里巴巴再获得一个OpenJDK Committer席位
在阿里巴巴,AZul, Redhat,Datadog共同推动下,JFR技术有望在明年初进入Java的标准分发版本。随着云计算时代大幕拉开,OpenJDK社区被越来越多的公司参与。

TOP3 OpenMessaging荣获第十八届中日韩东北亚优秀开源项目
OpenMessaging项目由阿里巴巴发起,与雅虎、滴滴出行、Streamlio公司共同参与创立,项目意在创立厂商无关、平台无关的分布式消息及流处理领域的应用开发标准。经历了几年的发展,OpenMessaging吸收包括日本雅虎,EMQ加入,目前为止全球有十多家开源项目与云厂商会员加入,荣获第十八届中日韩东北亚优秀开源项目

  • 阿里云通过ISO/IEC 27701:2019标准认证 拿下隐私保护认证“全满贯”
    近日,阿里云获得由国际知名标准认证机构BSI颁发的ISO/IEC 27701:2019隐私保护认证,这是业内最具权威性的隐私管理体系建设指导标准,再一次体现了阿里云坚守用户数据隐私保护的承诺。截止目前,阿里云已经获得包括ISO/IEC 27701:2019、ISO/IEC 29151:2017、ISO/IEC 27018:2014、BS 10012:2017在内的所有关于隐私保护标准认证的“全满贯“。
  • 《CNCF x Alibaba 云原生技术公开课》总学习人数 14009 人
  • CCF专委、存储领域的青年学者来团队进行讲座和交流
    为增强团队和CCF专业委员会之间的产学合作,提升存储团队对学界前沿研究的了解和交流,11.29号特邀CCF专委、存储领域的青年学者来团队进行讲座和交流。约90+存储团队的同学参加了分享会,并就讲座进行了热烈的提问和沟通。

11.29号下午,CCF青年专委清华大学陆游游教授、中国科技大学李永坤教授、香港中文大学Patrick P. C. Lee教授和哈尔滨工业大学夏文教授和存储团队的东平、文翠、慧霸、储道、李非、善阳、王勇、文辉等同学沟通了企业中的问题和前沿的技术研究热门议题,期望在产学合作上探索出新的合作模式和学生培养方法。

  • 快存储团队技术成果
    思杰(一种高效的块存储虚拟化端接入模块的热升级方法);凌一(一种异构存储系统中的数据分配算法);

磨利(一种基于用户信息的单云盘级智能流控装置);张航(一种新型消息队列的流控装置)

  • 阿里云对象存储服务OSS荣获“2019年度百易奖”中的“2019云存储软件产品金奖”
  • 阿里云混合云备份服务HBR荣获“2019年度百易奖”中的“2019年度数据保护产品创新奖”

四、阿里云布道师风采

TOP1 阿里云布道师计划负责人还剑发表《阿里云的ToB基因来自哪儿》
在知名人工智能新媒体平台新智元上,还剑发表《阿里云的ToB基因来自哪儿》重磅文章,以浅显的语言和清晰的逻辑,阐释阿里巴巴诞生20年来对ToB能力的积累,为阿里云的ToB战役添砖加瓦。

TOP2 圭多直播《阿里云开放平台:Why?What?How?》
阿里云开放平台负责人圭多在阿里云布道师等多个钉群同时直播《阿里云开放平台:Why?What?How?》,针对阿里云开放平台的三大方向:企业IT治理、开放API、企业工作台,全面介绍了开放平台的现状和发展方向。

(完)

上一篇:Docker compose基于容器编排构建实践


下一篇:数据科学工具包(万余字介绍几百种工具,经典收藏版!)