MapReduce的分组topN高效实现

  • 利用MapReduce的排序机制来排序
  • 自定义类型作为map输出的key,实现WritableComparable,重写compare方法,先比较字段1,再比较字段2,value为null
  • 控制数据分区规则,自定义Partitioner的子类,重写getPartition方法,按字段1分区
  • 控制分组规则,按字段1分组
上一篇:实验5


下一篇:hadoop TopN