Hadoop常见问题

1.mr、hive调优的问题
2.数据倾斜怎么处理
hive的优化。
答1.不用*来select,指定列名 2.指定分区 3.大小表join,使用map join将小表加载到内存 4.尽量不要出现count(distinct),用中间表和group代替 5.避免出现笛卡尔积 6.设置平行度和reducer的个数 7.合并小文件
3HDFS的流程。
答就按照正常的流量稍微说下,画下。
4问hadoop生态圈中hdfs基本原理。
答1、首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的实例。 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的locations,同一block按照重复数会返回多个locations,这些locations按照Hadoop拓扑结构排序,距离客户端近的排在前面。 3、前两步会返回一个FSDataInputStream对象,该对象会被封装成 DFSInputStream对象,DFSInputStream可以方便的管理datanode和namenode数据流。客户端调用read方 法,DFSInputStream就会找出离客户端最近的datanode并连接datanode。 4、数据从datanode源源不断的流向客户端。 5、如果第一个block块的数据读完了,就会关闭指向第一个block块的datanode连接,接着读取下一个block块。这些操作对客户端来说是透明的,从客户端的角度来看只是读一个持续不断的流。 6、如果第一批block都读完了,DFSInputStream就会去namenode拿下一批blocks的location,然后继续读,如果所有的block块都读完,这时就会关闭掉所有的流。
5面试主要问了一下sql以及对于数据仓库概念的理解,sql是关…
熟悉哪些框架 详细描述下 数独魔方二选一 一道sql题(难度一般) java方法实现123改321 三段代码说下各自什么意思(一个C语言的 本人不会,一个是java的单例模式,还有个sql难度一般) 编程实现非递归算法计算斐波那契数列 vector、linkedlist、arraylist的区别与特性 进程通信问题、线程安全问题
6(1)简单描叙一下你的兴趣爱好
(2)你最擅长的技术及专长,简单描述一下
(3)你所知道的集合类都有哪些,主要方法?
(4)Java面向对象的特性
(5)列举一下linux常用的命令行
(6)简单描述一下Hadoop生态圈的基本组成及功能
(7)启动Hadoop集群,需要先启动哪些进程
(8)简单列举下Hadoop的三大运行模式及介绍
(9)用mapreduce写个Wordcount。
7
当时是刚毕业去的,面试的是的一个经理,应届生没有问些什么东西,就问了一下对大数据的了解。spark,hadoop等大数据的问题,spark的内存模型,另外还问了些java的东西,spring的原理。
8大数据面试题
https://www.cnblogs.com/xiaodong520/p/8657925.html
http://dy.163.com/v2/article/detail/DQ6UBA5U0511VC27.html

上一篇:大数据开发者面试题,总结和整理


下一篇:好程序员大数据学习路线分享HDFS读流程