Hadoop就是一个别人造好的*

2024-01-03 21:15:16

这个想法源自于我看了《Hadoop: The Definitive Guide》的Part I Ch 2中MapReduce的引入和介绍，书中先说了怎么通过原始的办法处理数据，然后引入到如何通过Hadoop来处理，接着简要的介绍其原理。

如果没有Hadoop或者其他类似的工具，我们存储和分析大数据的时候就是，遇到一个问题然后想办法解决，然后不断完善解决方案。比如，刚开始数据很小，还是简单的文本，就写一个脚本用awk处理完全可以，结果数据越来越多，一个机器处理不过来，就开始想用并行来解决，并行又遇到会出现某些机器坏掉的问题，然后再想办法解决，后来又要处理不同类型的数据，等等等等一大堆事情，然后自己就造出个*。为了开发和学习效率，我们没必要去一个个造*，学习别人的框架，拿来分析和使用，既能方便我们高效解决问题，又能从中发现一些需要我们去个性化的地方，然后去主动修改，然后分享给他人，然后产生一个良性的循环，这就是我所理解的开源的意义。拿来用不代表完全不去理解它的思想和机制，不然怎么能够找到与自己相关的契合点，即自己需要的那部分功能，以及需要改动和完善的地方。

码农公寓

相关文章