大数据面试总结《二》

北京XXX宇有限公司

  1. Hashmap hashset treemap 区别
    HashSet 实现了Set 接口 ,值不能重复,将对象存储挨HashSet 前,需要重写
    Equals 和hashCode ,这样才能比较对象的值是否相等,确保set 中没有存储相等的对象,
  2. 什么是hashMap
    Hashmap 实现了map 接口,map接口对键值对进行映射,Map 不允许重复的键位,HashMap和TreeMap。TreeMap保存了对象的排列次序,而HashMap则不能。HashMap允许键和值为null。HashMap是非synchronized的,但collection框架提供方法能保证HashMap synchronized,这样多个线程同时访问HashMap时,能保证只有一个线程更改Map。
    大数据面试总结《二》
  3. 常用标签html

  • 晚上11点到早上8点之间每两个小时和早上八点
    0 23-7/2,8 * * * echo “Have a good dream” >> /tmp/test.txt

    每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点
    0 11 4 * 1-3 command line
    6. 监控系统做过没
    Ganglia 监控系统 或者集群
    第三家 华胜天成
    问了mapreduce 过程
    Mapreduce 优化
    Hbase 执行过程
    Hbase 优化
    Spring 控制反转 依赖注入 ,AOP 及其用途
    关系型数据库是怎么把数据导出到Hbase 里的
    尚学堂出来的都知道
    Hive 的优化
    Hive 左右连接
    Hive 使用的三种形式
    Spark RDD 是什么
    Spark 算子
    联龙博通
    Hive 分区
    1 .单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。
    2 .双分区建表语句:create table day_hour_table (id int, content string) partitioned by (dt string, hour string);双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。
    添加分区表语法(表已创建,在此基础上添加分区):ALTER TABLE table_name ADD
    partition_spec [ LOCATION ‘location1’ ]
    partition_spec [ LOCATION ‘location2’ ] …
    3.ALTER TABLE day_table ADD
    PARTITION (dt=‘2008-08-08’, hour=‘08’)
    location ‘/path/pv1.txt’
    4. 删除分区语法:ALTER TABLE table_name DROP
    partition_spec, partition_spec,…
    用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。例:
    ALTER TABLE day_hour_table DROP PARTITION (dt=‘2008-08-08’, hour=‘09’);
    数据加载进分区表中语法:
    LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]
    例:
    LOAD DATA INPATH ‘/user/pv.txt’ INTO TABLE day_hour_table PARTITION(dt=‘2008-08- 08’, hour=‘08’); LOAD DATA local INPATH '/user/hua/’ INTO TABLE day_hour partition(dt=‘2010-07- 07’);当数据被加载至表中时,不会对数据进行任何转换。Load操作只是将数据复制至Hive表对应的位置。数据加载时在表下自动创建一个目录
    基于分区的查询的语句:SELECT day_table.
    FROM day_table WHERE day_table.dt>= ‘2008-08-08’;
    查看分区语句:
    hive> show partitions day_hour_table; OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

    如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验
    大数据面试总结《二》

    上一篇:canvas风景时钟


    下一篇:又入坑了