阿里云E-MapReduce实践
文件存储是阿里云今年新推出的存储服务,因为它提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。E-MapReduce服务是阿里云上的开源大数据解决方案,可以帮用户构建基于Hadoop等开源组件的大数据平台。今天我给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力。
资讯
-
15家大数据企业获融资,聚合数据融资3.6亿元
近日,基础数据服务商“聚合数据”在北京对外宣布获得3.6亿元人民币C轮融资,此轮融资由邱坚强先生领投,袁永刚先生、太浩创投、东合资本,以及前期投资人参与跟投。据资料显示,邱坚强为森马服饰副董事长,森马投资总经理;袁永刚先生为东山精密董事长。聚合数据是国内最早开始做数据服务的平台之一,平台上的数据接口包括生活、健康、出行、金融、通讯、位置、充值等多个行业领。 -
放眼世界,看医疗大数据
在大数据的浪潮中,中国的精准医学把握时代的趋势,高瞻远瞩,几乎与世界发达国家同步开启精准医学研究。让我们放眼看世界,了解一下其他国家和地区精准医疗的举措。 -
阿里云发布数据库产品HybridDB
HybridDB(ApsaraDB HybridDB)是一款在线MPP大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下深度扩展。 -
轻量级大规模机器学习算法库Fregata开源
Fregata是TalkingData开源的大规模机器学习算法库,基于Spark,目前支持Spark 1.6.x, 很快会支持Spark 2.0。目前Fregata包括了Logistic Regression, Softmax, 和Random Decision Trees三种算法。
技术
-
一次 Spark SQL 性能提升10倍的经历
本文是综合了自己在学习spark过程中的理解记录+对参考文章中的一些理解+个人实践spark过程中的一些心得而来,介绍了一个Spark SQL性能优化的整个过程。 -
大数据处理系统关键层次架构
本文系统介绍了大数据处理系统关键层次架构。 -
以Flink为例,消除流处理常见的六大谬见
我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。我们首先要做的是纠正人们对流处理(作为一个快速变化的领域,这里有很多误见值得我们思考)的错误认识。在这篇文章里,我们选出了其中的六个作为例子。因为我们对Apache Flink比较熟悉,所以我们会基于Flink来讲解这些例子。
欢迎加入阿里云开源大数据交流钉钉群
版权声明
信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。