开源大数据周刊-第63期

EMR资讯:

  • 从EMR-3.4.1版本开始本地盘集群。EMR大数据机型整体方案发布,帮助用户更好的使用大数据机型,从数据可靠性,服务可用性和整体性能上进行自动化的运维管理,极大地降低用户使用大数据机型的运维成本。
  • 新功能预告:8月底将发布集群机器组功能,更好地发挥集群弹性计算能力

资讯

学者们常常提出各种论断,认为精准的地震预测是不可能实现的,原因是造成潜在地震扰动的条件存在于所有地壳构造的断层中, 同时小规模的地质活动可在任何一点引发更为巨大且毁灭性更强的地震。然而,这一切正在改变。大数据分析通过使用卫星和气象数据,并结合统计分析,开启了一种新的地震预报形式。而这项研究所取得的喜人成果似乎可以有力驳斥那些否定者们的错误观点。

微软和亚马逊双双发布了2017年第二季度财报,两家公司的云计算业务涨势喜人。业界知名的问答平台Stack Overflow使用Stack Overflow Trends,从多个角度对AWS和Azure的受欢迎程度进行了对比分析。

大数据产业属于“附加值”较高的产业,盈利能力较强。随着中国智能制造2025战略的落地和推广,以及中国对政务效率提升的要求,工业大数据和政务大数据将成为未来大数据产业发展的热点。

2017年8月5日,由飞马网主办的“FMI人工智能&大数据高峰论坛”在北京国家会议中心召开。大会围绕着“大数据”和“人工智能”两大主题展开。

技术

本文分享了基于Elastic Stack+Kafka的日志监控平台架构演进过程。

Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。本篇文章主要着眼于Spark Streaming读取Kafka数据的方式。

本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如何解决流式系统中的关键问题,如时间定义,窗口操作,Join操作,聚合操作,以及如何处理乱序和提供容错能力。最后结合示例讲解了如何使用Kafka Stream。

欢迎入群技术交流!

开源大数据周刊-第63期

开源大数据周刊-第63期

云HBase微信交流群请加:g418615


版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

上一篇:[037] 微信公众帐号开发教程第13篇-图文消息全攻略


下一篇:【.Net Micro Framework PortingKit - 02】STM3210E平台构建