zebra架构的缺点
文件存储方式的缺点
1、 一个文件如果特别大,这样会造成存储的问题。一台机器的磁盘也不可能存储特别大的文件
2、 该文件在查询、删除、修改的时候都会存在问题
3、 如果文件太多,管理起来特别不方便
4、 如果一个文件破坏了,那么将会造成文件的丢失,因为没有重用的文件
计算的缺点
1、 一级引擎在每台机器上都有计算程序,如果一个特别大的文件被2M的标准划分,这样可以分出很多个块。块越多,计算起来时间越多
2、 如果一级引擎的数据很多,那么一台机器中的内存中是放不下的。内存占据越大,越容易特别慢。
资源管理的缺点
如果有100台机器,每台机器都有计算程序。计算程序是需要CPU,内存,磁盘等资源,而且还要启动JVM,如果手动。调节每台机器的cpu,内存,磁盘等资源,并且启动,这个事情的工作量是很大的。
说明
一个处理大数据、高并发、分布式的计算必须考虑三个问题:
1、 数据的存储问题
2、 数据的高效运算问题
3、 资源管理问题
大数据框架
概念
一个大数据的框架必须满足
1、 大数据一般放在文件中,所以必须有一个分布式文件存储系统,能够把特别大
的文件的存储问题解决了
2、 使用大数据框架的目前就是为了解决快速计算大量数据的问题,所以这里有快速计算的问题需要解决
3、 因为大数据肯定是有很多台机器的,怎么样解决资源(CPU,内存,磁盘等)管理的事情。
hadoop
之所以hadoop很流程,是因为解决上述的三个问题。并且成功的应用到了商业上。