SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

2022-04-25 15:43:25

Spark中文峰会第二日，就在本周日上午杭州会场，错过悔十年的压轴好戏来了～

SPARK + AI SUMMIT 2020 中文精华版线上峰会，十四位来自北京、上海、杭州、硅谷的PMC和意见领袖，一一还原英文现场的经典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外，还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。

点击详细议程

7月5日上午议题：

利用闪存优化在Cosco基础上的Spark Shuffle

吴一
Databicks开源项目组软件工程师，主要参与开源社区Spark和公司产品Databricks Runtime的研发。最近两年专注于Spark及大数据技术领域，现在是Spark社区的活跃贡献（GitHub@Ngone51）。

Cosco是由FaceBook推出的一种高效且可靠的shufflle服务。Cosco建立在分布式内存共享池的内存聚合基础之上，相较于Spark内置的shufflle，能提供更高效的磁盘利用率。本次议题将会介绍如何通过增加少量闪存来进一步提升shuffle的效率：闪存减少了内存使用，而更大的预写（聚合）缓冲区则进一步减少了磁盘IO。通过严谨的实验和分析，我们还证明了，即使是对于shuffle这种一次写入/一次读取的作业，动态地利用内存和闪存也能保护闪存的持久性。
本次议题还将讨论闪存如何集成到Cosco的架构中和所采用的部署模式，以及通过在大规模生产环境中部署所汲取到的经验教训和潜在的未来工作。

数据工程师眼中的Delta Lake

范文臣
Databricks 开源组技术主管，Apache Spark Committer、PMC成员。Spark开源社区核心开发之一，主导和参与了很多Spark重要特性的研发，例如代码生成，CBO, Dataset, AQE 等。

Delta Lake 是一个提供 ACID 事务能力的开源大数据储存层。它基于开放的Parquet文件格式，支持数据快照、批流合一、schema演进、数据更新和删除等常用功能。本次演讲从实践角度出发，讲解Delta Lake如何帮助企业构建可靠的数据湖解决方案。

领英如何应对 Apache Spark 的scalability 挑战

沈旻
领英Spark团队的技术负责人。领英Spark团队主要负责构建并扩展基于Apache Spark的领英线下批处理分析平台，并提供对领英内部多种使用场景的支持。在此之前，沈旻主要从事Apache YARN上的相关工作。他本科就读于南京大学软件工程专业，并于伊利诺伊芝加哥分校获得计算机专业博士学位。
林致远
领英Spark团队的软件工程师，负责解决各种平台难题并为Spark提供用例支持。工作主要侧重于对集群上Spark应用程序的实时数据追踪采集、各项指标分析等来优化系统并提高领英Spark用户的工作效率。她本科就读于武汉大学和加州大学伯克利分校计算机专业，后于卡内基梅隆大学取得硕士学位，专攻分布式系统方向。

在过去的三年多里，Apache Spark在领英发展迅速，已经从一个内部实验项目变成了如今公司内占主导地位的计算引擎。仅在过去的一年中，领英日均Spark应用数量就增长了3倍。如今，Spark在领英涵盖了包括人工智能，数据工程，A/B测试，数据分析等多维度的使用场景。数千名领英Spark用户日均提交约3万个Spark应用，这些应用在我们集群上处理着数PB的数据。在这个快速增长的过程中，我们在扩展Spark基础架构和赋能用户高效开发Spark应用上面临着多个维度的挑战：