限免首发 | Spark 企业级实战集锦，国内Spark开发者的进阶指南！

2022-03-14 06:49:27

《Apache Spark 中文实战攻略》重磅来袭！

点击下载
>>《Apache Spark 中文实战攻略（下册）》<<

或者复制该链接到浏览器完成下载或分享：https://developer.aliyun.com/topic/download?id=822

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外*大厂技术专家，汇集多年实战经验，带你走进全球*开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略（下册）》—— 让企业大数据平台性能更优。阿里、Databricks、领英、Intel、Facebook 都在用！Spark 企业级最佳实践中文解读全收纳！

想看全套电子书？没问题！点击下面链接一键下载《Apache Spark 中文实战攻略（上册）》：

https://developer.aliyun.com/topic/download?id=821

关于Apache Spark

Apache Spark是快速、易于使用的框架，允许你解决各种复杂的数据问题，无论是半结构化、结构化、流式，或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一，拥有来自250多个组织的超过1000个贡献者，以及遍布全球570多个地方的超过30万个Spark Meetup社区成员。

精彩导读

使用 Databricks 作为分析平台

YipitData是一家咨询公司，其客户主要是投资基金以及财富五百强中的一些公司。该公司通过自己的数据产品进行分析，提供给客户相应的数据分析报告。YipitData的主要产出方式和赚钱方式就是做数据分析，其公司内部有53个数据分析师，却只有3个数据工程师。数据分析的基础是数据，所以对于该公司来说大数据分析的平台是非常重要的。阿里巴巴高级技术专家章剑锋介绍了YipitData公司基于Databricks平台搭建的分析平台。

点击查看更多内容：https://developer.aliyun.com/article/768341?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

在 kubernetes 上运行 apache spark

k8s 和 spark 的结合是出现在 spark 2.3 版本以后的事情，在此之前有几种方式。第一种就是 Standalone，大家使用的并不是非常的多。第二种是 Apache mesos，在国外用的比较多，但是市场规模也在逐渐缩小。第三种是 Yarn，我们现在绝大多数的企业都是跑在 Yarn 的集群里面了。第四种是 Kubernetes，现在大家也逐渐的把 spark 跑在 k8s 上面。
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍，Spark on k8s，以及EMR团队云原生的思考和实践。

点击查看更多内容：https://developer.aliyun.com/article/768355?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

Ray on Spark

开源了BigDL之后，英特尔又开源了统一的数据分析和AI平台Analytics Zoo，用户可以根据不同的需求，在大数据的平台上直接运行由使用TensorFlow、PyTorch、Keras、Ray、等框架构建的应用。Analytics Zoo可以将用户的大数据平台作为数据存储、数据处理挖掘、特征工程、深度学习等一体化的pipeline平台。

RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中，省去集群间数据传输的overhead，支持用户使用Spark处理的数据做新兴人工智能应用的开发。由Intel大数据团队软件工程师黄凯为大家介绍Ray和Intel的开源项目Analytics Zoo，开发RayOnSpark的动机和初衷，同时结合实际案例分享RayOnSpark的落地实践。

点击查看更多内容：https://developer.aliyun.com/article/769212?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

EMR Spark-SQL性能极致优化揭秘

在 2019 年的打榜测试中，我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩，相比去年的成绩，无论从性能还有性价比都取得了 2 倍+的优秀成绩！这次的优化里面，引入的 Native Runtime，如果说上述的优化器优化都是一些特殊 Case 的杀手锏，Native Runtime 就是一个广谱大杀器，根据后期统计，引入 Native Runtime，可以普适性的提高 SQL Query 15～20%的 E2E 耗时，这个在TPCDS Perf 里面也是一个很大的性能提升点。

阿里巴巴计算平台事业部EMR团队高级开发工程师陆路分享了EMR这一突破性的实战经验。

点击查看更多内容：https://developer.aliyun.com/article/759655?spm=a2c6h.12873581.0.0.4c7347b4kZF5up&groupCode=aliyunemr

更多精彩技术集锦，加入Apache Spark 钉钉技术交流群

藏经阁系列电子书

阿里云开发者社区——藏经阁系列电子书，汇聚了一线大厂的技术沉淀精华，爆款不断。
点击链接获取海量免费电子书：https://developer.aliyun.com/ebook

码农公寓