2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCon + Open Source Summit(上海 )即将在中国上海盛装启幕。
继 2018 年 KubeCon 首次成功登陆中国,本届 KubeCon 将吸引来自全世界数千名技术人员将会参加此次盛会,参与CNCF 全部项目和话题的深度探讨和案例分析,聆听 CNCF 项目的运维者和最终用户的分享。本届 KubeCon + CloudNativeCon + Open Source Summit 大会项目委员会由 75 名专家组成,审阅 KubeCon + CloudNativeCon 的 618 项提案,在本次 KubeCon China 2019 上,阿里巴巴共有 26 个技术演讲入选。
在本次 KubeCon 上,阿里云智能容器平台负责人丁宇(叔同)、 CNCF TOC、etcd 项目作者、阿里云容器平台资深技术专家李响,CNCF 大使、Kubernetes 项目维护者、阿里云高级技术专家张磊等众多云原生技术大咖都会悉数到场并做技术分享,同时会为您带来包括开源 Virtual Cluster 强多租户设计、 OpenKruise 开源项目、开放云原生应用中心(Cloud Native App Hub)等众多云原生先进技术的最新动态与进展。我们非常期待您能够在 KubeCon China 上与阿里容器平台团队见面、进行交流或者开展技术合作。
KubeCon + CloudNativeCon 阿里巴巴专场页面上线
全面展示阿里云在本次 KuebCon 演讲议题及云原生生态成果的“KubeCon + CloudNativeCon 阿里巴巴专场页面”已经正式上线。在这里,您可以掌握阿里在 KubeCon 上的演讲议题、追踪《CNCF x Alibaba 云原生技术公开课》课程更新、了解阿里云原生产品动态、6 月 24 日动手沙龙活动安排,点击链接或文末“阅读原文”直接进入专场页面。
专场页面链接:https://yq.aliyun.com/promotion/833
我们推荐您重点关注如下演讲:
1、Kubernetes 正当时,云原生未来可期
演讲人
阿里云智能容器平台负责人 丁宇(叔同)
议题简介
作为云原生应用的实践者,阿里云不仅支撑了流量巨大的双十一,而且也承担阿里巴巴经济体大规模日常业务。本演讲将分享阿里云对 Kubernetes 技术取得成功思考,同时展望云原生未来的发展趋势。
2、Keynote:阿里巴巴规模的云原生
演讲人
阿里云容器平台资深技术专家 李响
议题简介
阿里云已经成功地规模化落地云原生,本次演讲旨在将具体的经验分享给各位观众,涉及规模扩展、可靠性、开发效率、迁移策略等方面,并探讨针对大规模场景进行优化。Cloud native works for Alibaba. Cloud native works for (almost) everyone.
3、阿里巴巴使用高可用性+可扩展 Prometheus 和 Thanos
演讲人
阿里云容器平台高级技术专家 秦国安(炎烈)
阿里云容器平台高级开发工程师 李涛(吕风)
议题简介
阿里巴巴集团正在使用 Kubernetes 来支持全球最大的电子商务业务。 在可用性和可扩展性方面,如何提供可靠的细粒度监控和警报服务确实是一项挑战。 本次演讲将分享基于开源项目 Prometheus 和 Thanos 开发具有高可用性和可扩展性的细粒度监控系统的经验。 该系统主要支持阿里巴巴的集群管理系统,有 800 万 TPS 和 10K 请求,议题将讨论:
1)如何使用 Prometheus 支持大规模场景?
2)如何使用 Thanos 解决多个 Prometheus 实例导致的数据查询问题?
3)我们从 Prometheus 和 Thanos 的配置中学到的经验教训,例如目标发现和记录规则管理以及警报规则。
4、使用 Istio 管理跨区域和跨集群的微服务
演讲人
阿里云容器平台高级技术专家 王夕宁(贝叮)
Backend Architect UniCareer Xiaozhong Liu
议题简介
职优你是一个电子学习职业发展平台,旨在满足全球学生和在职专业人士的各种需求,并为来自世界多个地区的用户提供服务。这些应用部署于在阿里云的不同区域上的多个 Kubernetes 集群上,以减少不同区域内的服务访问延迟。 为了有效地管理这些微服务,需要一个多集群服务网格来控制微服务流量、保证服务到服务通信等。
Istio 是一个建立在 Kubernertes 上的服务网格,可支持多种拓扑来管理多个 Kubernetes 集群上的应用流量统一管理。在整个案例研究中,我们将使用 Istio 服务网格分享多集群流量管理相关的部署设计和技术,并根据底层平台的需求和限制讨论一些挑战和相应的实践。
5、通过托管 CPU 和 GPU 工作负载,实现资源的高效利用
演讲人
阿里云容器平台高级技术专家 何剑
蚂蚁金服平台数据技术系统部技术专家 岑鹏浩(库泊)
议题简介
本次演讲主要介绍如何将 AI training 任务和长服务在 Kubernetes 集群之上混部。主要目的是通过混部各种 workload 提高资源利用率,从而节省资源。我们会从各个不同的维度包括 Qos class, cgroup, scheduling 等等来描述我们如何实现混部,以及如何评估利用率。过去几个月中,我们构建了一个几百节点的 GPU 和 CPU 混部集群,我们会介绍在生产集群中混合部署长服务和AI批处理任务的最佳实践。
6、1-5-10:如何快速恢复大规模容器故障
演讲人
阿里云容器平台技术专家 熊欢(宁拙)
议题简介
在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着数百万个容器,为恢复容器相关故障提出了 1-5-10 理论:MTTD(平均检测时间)为 1 分钟,MTTI(平均识别时间)为 5 分钟,MTTR(平均解决时间)为 10 分钟。在本次会议中,我们将讨论如何利用 1-5-10 提高大规模容器的可靠性:
1)如何在本地建立一个有效代理,在 1 分钟内检测到问题;
2)如何借助专家知识库智能诊断容器问题;
3)如何以故障驱动型方式自动恢复容器问题。
7、了解 Kubernetes Master 的可扩展性和性能
演讲人
阿里云容器平台高级软件工程师 陈星宇(宇慕)
阿里云容器平台高级技术专家 曾凡松(逐灵)
议题简介
目前,Kubernetes 的规模限制是 5k 节点,因此如果您想用它来管理像 10k 节点这样的 Web 规模集群,您可能无法实现。 您是否想知道 Kubernetes 管理超过 5k节点的性能瓶颈是什么?当你想将其可扩展性扩展到一个新的水平时,是哪个组件阻碍? etcd,apiserver 或者 scheduler? 了解这些问题是运营大型 Kubernetes 集群的关键。在阿里巴巴,我们遇到了很多问题,比如随着集群变得越来越大,pod 创建变得非常慢。在本次演讲中,我们想分享如何进行各种基准测试和分析,并找到瓶颈,以及如何调整控制组件,并实现了超过 100 倍的性能提升。
8、Intro:containerd
演讲人
阿里云容器平台高级开发工程师 傅伟(聿歌)
Google 软件工程师 刘澜涛
议题简介
本次演讲将从 containerd 架构设计理念出发,向听众分享如何使用插件化能力来增强 containerd,提供不同镜像存储以及强隔离容器运行时的解决方案。同时,还会向听众展示 containerd 同 gVisor, Firecracker 容器运行时集成的演示案例,会让听众更好地理解 containerd 最佳集成方式。
9、阿里巴巴利用 K8S、Kata 容器和裸机云构建无服务器
演讲人
阿里云容器平台技术专家 张翼飞(悟鹏)
阿里云容器平台高级开发工程师 唐华敏(华敏)
议题简介
无服务器计算是当前流行的计算形式,极大降低了开发人员部署、管理、运行应用的成本。在无服务器平台中,不同用户的服务通常混部在同一个节点上,为此,需要在多租户场景下提供可信的运行环境。在阿里巴巴,我们使用 Kata Containers 作为安全容器运行时,在存储、网络、硬件等层面确保多租硬隔离和服务运行时的性能。在本次分享中,将根据我们的生产实践,详细讨论多租场景下如何实现硬多租和服务运行的高性能。
10、阿里巴巴数字推动的开源社区探索
演讲人
阿里巴巴开源治理办公室高级社区经理 赵生宇(笙雨)
议题简介
开源社区的运营一直是开源软件开发中的一个痛点,尤其是对于由纯开发者主导的社区,如何有效的管理开源社区、发现社区中的活跃贡献者、通过数据发现社区管理中存在的问题等,都是亟待解决的问题。本次演讲的内容将包括:
1)如何评判开发者在社区中的个人活跃度?
2)如何评判开源社区的整体活跃度?
3)在这些模型下从当前世界上的*开源项目分析中可以看到什么、获得什么样的洞见?
4)社区管理工具在开源社区中应该扮演怎样的角色?
5)基于上述内容,阿里做了哪些尝试,收获了哪些结果?
11、阿里巴巴:电商巨头向云原生演进的经验与教训
演讲人
阿里云容器平台高级技术专家 张磊
容器平台高级开发工程师 王思宇(酒祝)
议题简介
将像阿里巴巴这样的全球电子商务巨头迁移到云原生平台绝非易事,在本次演讲中,我们将从技术和社区的角度分享我们去年工作得出的经验教训,包括:
1)阿里向云原生技术迁移有哪些主要障碍?
2)阿里的主要技术债务是什么?我们如何解决这些问题?我们的方法有效吗?
3)如果您的应用管理方式与组织中的 Kubernetes 完全不同,该怎么办?
4)为什么可预测性对电子商务至关重要?Kubernetes 是否具有开箱可用的可预测性?如果没有,为什么?如何解决这一问题(可能无解)?
5)如何验证数千个节点集群中的可扩展性问题?
6)规模庞大的团队能否与上游社区合作共赢?
12、Intro: Dragonfly
演讲人
阿里云应用运维平台技术专家 胡作政(正希)
阿里云应用运维平台高级开发工程师 张劲(太云)
议题简介
随着容器技术在工业中的应用越来越广泛,如何安全高效地分发映像是工程师们所面临的新挑战。蜻蜓项目是基于开源智能 P2P 的映像和文件分发系统。该项目旨在解决云原生场景中的所有分发问题。目前,蜻蜓项目专注于以下方面:
简单:面向用户的明确定义的 API (HTTP),对所有容器引擎都无侵入性
高效:CDN 支持、基于 P2P 的文件分发以节省企业带宽
智能:主机检测实现主机层面的速度限制、智能的流量控制
安全:数据块传输加密,HTTPS 连接支持
在本演讲中,我们将重点介绍通过蜻蜓分发容器映像。我们将回顾组织面临的挑战,包括大规模分发、安全传输、带宽成本,并提供解决方案。本次演讲将讨论实际用例。
13、不再混乱:大规模 Kubernetes 审计和检查
演讲人
阿里云容器平台技术专家 陈杰
蚂蚁金服高级开发工程师 马金晶
议题简介
众所周知,准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中,有着不计其数的监控指标数据。仅以我们的 Kubernetes 集群为例,我们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标,对它们有效的进行记录和分析,变成简单易懂的可视化展示,变成准确的告警信息,是一个非常有挑战性的工作。
在这个演讲中,我们希望与大家分享在 Alibaba 在 Kubernetes 集群监控、审计和巡检方面的实践和经验。首先,我们会聊一聊 Kubernetes 与稳定性相关的重要数据和指标,以及如何去理解它们。我们会以案例的形式,具体讲一讲我们如何对这些数据和指标进行整合与解析。最后,我们会分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。
14、最大限度地降低在 Kubernetes 上运行深度学习的 GPU 成本
演讲人
阿里云容器平台高级技术专家 张凯
阿里云容器平台技术专家 车漾(必嘫)
议题简介
越来越多的数据科学家在 Kubernetes 上运行基于 NvidiaGPU 的深度学习任务。与此同时,他们发现集群中的空闲 GPU 浪费了超过 40% 的成本。因此,如何能帮助提高 GPU 使用效率成为一个重要挑战。我们将介绍一款基于原生 Kubernetes 的 GPU 共享解决方案:
1)如何定义 GPU 共享 API
2)如何在不更改调度程序裸机代码的情况下在调度 GPU 共享。
3)如何将 GPU 隔离解决方案与 Kubernetes 相集成
4)我们还将通过演示介绍 Tensorflow 用户如何在 Kubernetes 集群中的同一 GPU 设备上运行不同的作业
15、云原生时代加速镜像分发的三种方法
演讲人
阿里云容器平台技术专家 江勇(益方)
议题简介
本次演讲将分享从阿里巴巴网络规模提高镜像分发效率的实践和经验教训。根据不同的场景,我们利用不同的镜像分发方法。基于 P2P 的 CNCF/Dragonfly 分发是缓解镜像中心带宽和减少分发时间的最直接方式。此外,CNCF/containerd 中的远程文件系统快照程序直接远程存储镜像,使容器引擎通过网络读取镜像内容,几乎不需要时间分发。你会发现第二种方式依赖于网络稳定性,那么如何根据镜像内容读请求动态加载从远程到本地存储的镜像作为权衡?最后,我们将总结如何选择适合镜像分布的方式。
16、在 Web 级集群中动态调整 Pod 资源限制
演讲人
阿里云容器平台技术专家 王程
阿里云容器平台技术专家 张晓宇(衷源)
议题简介
阿里巴巴这样规模庞大的全球电商巨头,其所拥有的应用数量和应用种类的都是超大规模的。如何科学合理管理这些容器的资源,一直是我们面临的巨大挑战。在本次演讲中,我们将从技术和社区演进等多种维度为大家分享我们的实际工作经验和技术成果。其中包括:
1)目前社区对于容器的资源管理现状是什么?
2)阿里这种大规模应用部署的具体挑战是什么?
3)我们如何诊治资源管理上的各种疑难杂症?
4)我们如何做到资源利用率大幅提升的同时确保在线服务稳定?
5)如何平衡基于云原生的演进和实现工作快速交付?
6)我们的经验可以为您带来什么帮助以及我们如何反馈社区做到共赢?