大数据和云计算技术周报（第107期)

2024-03-14 10:07:58

大数据和云计算技术周报（第107期)
原创编辑部大数据和云计算技术 2019-06-17

导语
“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。

本期会给大家奉献上精彩的：spark、知识图谱、MongoDB、全链路压测、ES、数据库原理、redis、Kylin、数据。全是干货，希望大家喜欢！！！

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学，在技术的道路上一定会日益精进！感谢编辑们的长期坚持！也请同学们继续打赏，支持社区，支持编辑们持续奉献高质量知识！

#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学，欢迎扫描文末二维码联系（参与社区工作，收获知识和进步，还有红包哦）。

特别提醒，文末有惊喜！

以下是正文，限于众编辑水平有限，不保证大家都喜欢。（如果链接不能点开请用二维码谢谢）

1Spark

Spark应用中，Shuffle服务的可靠性和性能直接影响了Spark应用的执行效率，来自Facebook的Brian Cho与Dmitry Borovsky在今年4月份旧金山举行的Spark AI峰会上，分享了他们为Spark/Hive Shuffle优化做的工作，这些工作中的很大部分已经应用于Facebook的大数据平台生产环境，对于超大规模的Spark数据处理优化，有一定的参考借鉴价值。

https://mp.weixin.qq.com/s/ly8E01HIM_GgGz8KKfVGYQ

Spark SQL 是 Spark 众多组件中技术最复杂的组件之一，它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持，大大降低了开发人员的学习和使用成本。

https://mp.weixin.qq.com/s/crDp5SvrkbnZ7DPQ50tpIA

2Elastic

使用ignore-malformed功能解决数据类型不一致无法写入问题

https://www.elastic.co/guide/en/elasticsearch/reference/current/ignore-malformed.html?nsukey=ncpozAvRJ%2BukDWJfqu9E1Qrme7lz294tqUX78G2VjntuwepgXfEBl612xi%2BVh%2B4nzoeMTkan330f6ANw7mgEHTmbDmRzqFYIjECV2eY8EwyckVdWG5CaABMC0rc9X7z7Rdv51H5KfIXbpjCXHMaDnNIH9Z9cskj5%2Bs7V%2FUdoaxh8vwUOgVLq6%2BQ7%2F2yVPyUcTTjBSQmHUAbY6ZA16SNu%2Bg%3D%3D

3ProxySQL

ProxySQL是一个高性能的MySQL中间件，拥有强大的规则引擎。

ProxySQL提供强大的路由规则。当应用程序自身不支持读写分离时，DBA可以通过配置路由规则为应用程序提供透明的读写分离，使用Keepalived + ProxySQL + Orchestrator为主从提供高可用时，能够有效的避免keepalived + 双主结构由于keepalived脑裂而造成数据被写错乱的痛点。

https://mp.weixin.qq.com/s/RwupNscnTKJgLuIfMqda3A

4数据库

X-Engine团队撰写的论文"X-Engine: An Optimized Storage Engine for Large-scale E-Commerce Transaction Processing"，详细讲述了阿里在数据库存储引擎上所做的原创性工作，今年早些时候已经被SIGMOD'19 Industrial Track接收

https://mp.weixin.qq.com/s/XkG7ikHzf3IdEltv3YmvSA

5MongoDB

本文讲述了MongoDB WiredTiger存储引擎中的底层时间戳的实现使得从节点读取不会被复制更新中断，复制回滚，保证多文档ACID事务正确性。

http://www.mongoing.com/archives/26700