赫夫曼树JAVA实现及分析

一,介绍

1)构造赫夫曼树的算法是一个贪心算法,贪心的地方在于:总是选取当前频率(权值)最低的两个结点来进行合并,构造新结点。

2)使用最小堆来选取频率最小的节点,有助于提高算法效率,因为要选频率最低的,要么用排序,要么用堆。用堆的话,出堆的复杂度为O(logN),而向堆中插入一个元素的平均时间复杂度为O(1),在构建赫夫曼树的过程中,新生成的结点需要插入到原来的队列中,故用堆来维持这种顺序比排序算法要高效地多。

二,赫夫曼算法分析

①用到的数据结构分析

首先需要构造一棵赫夫曼树,因此需要二叉链表这种数据结构(类似于二叉树);其次,假设树中各个结点出现的频率保存在一维数组中,初始时,根据该数组构造出每个结点。

算法每次从选取两个频率最小的结点,构造出一个新结点,新结点的频率为这个结点的频率之和。那么如何选取频率最小的那两个结点呢?

一种方式是先将结点的频率排序,另一种方式是使用优先级队列(比如最小堆),这里我们使用优先级队列。

结点之间要能够比较(比较谁出现的频率小啊),故结点类需要实现Comparable接口,结点类(内部类)的定义如下:

 private class BinaryNode implements Comparable<BinaryNode>{
int frequency;//出现的频率
BinaryNode left;
BinaryNode right;
BinaryNode parent; public BinaryNode(int frequency, BinaryNode left, BinaryNode right, BinaryNode parent) {
this.frequency = frequency;
this.left = left;
this.right = right;
this.parent = parent;
} @Override
public int compareTo(BinaryNode o) {
return frequency - o.frequency;
}
}

注意:这里需要一个parent指针。因为,在对各个结点进行编码的时候,需要根据儿子结点,向上遍历查找父亲结点。

对于赫夫曼树而言,需要知道树的指针,同时,我们还额外定义了一个属性,记录树中的结点个数

public class HuffmanCode{

    private BinaryNode root;//root of huffman tree
private int nodes;//number of total nodes in huffman tree private class BinaryNode implements Comparable<BinaryNode>{ //........

②构造赫夫曼树的算法具体实现步骤

1)根据各个结点出现的频率来构造结点。初始时,根据每个频率构造一棵单结点的树

2)将结点放到优先级队列(最小堆)中保存起来,这样易于每次选取当前两个最小频率的结点

算法正式开始:

3)从优先级队列中弹出两个结点,再创建一个新的结点作为这两个结点的父亲,新结点的频率为这两个结点的频率之和,并把新结点插入到优先级队列中

4)重复步骤 3) 直到优先级队列中只剩下一个结点为止

最后剩下的这一个结点,就是已经构造好的赫夫曼树的根结点

注意,第 1) 步中构造的为赫夫曼树的叶子结点,而在第 3) 步中构造的结点全是非叶子结点。赫夫曼树中只有两个类型的结点,一种是叶子结点,另一种是度为2的非叶子结点

赫夫曼树中总结点的个数为:叶子结点的个数乘以2 再减去1

1) 和 2) 步骤的实现代码如下:

         /**
* 根据各个结点的权值构造 N 棵单根节点的树
* @param frequency
* @return
*/
public List<BinaryNode> make_set(Integer[] frequency){
List<BinaryNode> nodeList = new ArrayList<HuffmanCode.BinaryNode>(frequency.length);
for (Integer i : frequency) {
nodeList.add(new BinaryNode(i, null, null, null));
}
nodes = frequency.length<<1 -1;//huffman 树中结点个数等于叶子结点个数乘以2减去1
return nodeList;
}

3) 和 4) 步骤的实现代码如下:

         /**
*
* @param roots initial root of each tree
* @return root of huffman tree
*/
public BinaryNode buildHuffmanTree(List<BinaryNode> roots){
if(roots.size() == 1)//一共只有一个结点
return roots.remove(0);
PriorityQueue<BinaryNode> pq = new PriorityQueue<BinaryNode>(roots);
while(pq.size() != 1){
BinaryNode left = pq.remove();
BinaryNode right = pq.remove();
BinaryNode parent = new BinaryNode(left.frequency+right.frequency, left, right,null);
left.parent = parent;
right.parent = parent;
pq.add(parent);
}
return (root = pq.remove());//最后剩下的这个结点就是构造好的赫夫曼树的树根
}

三,赫夫曼编码

①如何编码?

编码的实现思路:

从赫夫曼树的叶子结点开始,依次沿着父结点遍历直到树根,如果该叶子结点是其父亲的左孩子,则编码为0,否则编码为1

对所有的叶子结点执行上面操作,就可以把各个结点编码了。

编码的思路类似于求解赫夫曼树中所有叶子结点的频率之和,也就是整个赫夫曼树的代价。求解赫夫曼树的代价的代码如下:

         /**
*
* @param root huffman树的根结点
* @param nodeList huffman树中的所有叶子结点列表
* @return
*/
public int huffman_cost(List<BinaryNode> nodeList){
int cost = 0;
int level;
BinaryNode currentNode;
for (BinaryNode binaryNode : nodeList) {
level = 0;
currentNode = binaryNode;
while(currentNode != root){
currentNode = currentNode.parent;
level++;
}
cost += level*binaryNode.frequency;
}
return cost;
}

②如何解码?

解码就是根据0 ,1组成的'字符串' 去查找结点。步骤是:对于每个叶子结点,都从赫夫曼的根结点开始,取出每一位,如果是0,往左走;如果是1,往右走。直到遇到一个叶子结点, 此时取出的 0,1 位(二进制位)就是该结点的 编码了。

     public Map<BinaryNode, String> huffmanDecoding(String encodeString) {
BinaryNode currentNode = root;
//存储每个叶子结点对应的二进制编码
Map<BinaryNode, String> node_Code = new HashMap<HuffmanCode.BinaryNode, String>();
StringBuilder sb = new StringBuilder();//临时保存每个结点的二进制编码
for (int i = 0; i < encodeString.length(); i++) { char codeChar = encodeString.charAt(i);
sb.append(codeChar);
if (codeChar == '0')
currentNode = currentNode.left;
else//codeChar=='1'
currentNode = currentNode.right;
if (currentNode.left == null && currentNode.right == null)// 说明是叶子结点
{
node_Code.put(currentNode, sb.toString());
sb.delete(0, sb.length());//清空当前结点,为存储下一个结点的二进制编码做准备
currentNode = root;//下一个叶子结点的解码,又从根开始
}
}
return node_Code;
}

第18行,当解码完一个叶子结点后,又从根结点开始解码下一个叶子结点。

四,赫夫曼编码的应用

①文件压缩

假设有8个字符如下:a,e,i,s,t,空格(space),换行(newline)。'a'出现的频率为10,'e'出现的频率为15……

由于有8个字符,故需要3bit才能完成表示这8个字符(2^3=8),比如 000 表示 'a';101 表示 空格字符(space)....

由于 'a' 出现了10次,故一共需要 3*10=30bit来存储所有的'a'

aaarticlea/png;base64," alt="" />

经过计算,一共需要174个bit来存储上面的字符。

而若使用赫夫曼编码,则只需要146个bit来存储上面的编码,原因是:对于那些出现频率高的字符,赫夫曼编码使用较短的位来存储,而对于那些出现频率低的字符,可能需要较长的位来存储。

程序运行后得到下面的结果:

可以看出,只出现了三次的 's' 字符,它的赫夫曼编码为11011,长度为5bit。而出现了15次的字符 'e' 的赫夫曼编码为 10,长度为2bit

aaarticlea/png;base64," alt="" />

②最优二叉查找树

假设有这样一种情况,某些东西经常出现,比如英语中的:  is 、a、hello、you、.....这样的单词经常看到,而有些单词很冷门。

我们把那些经常需要查询的单词(用到的单词)放到赫夫曼树的顶部(即给它们以较短的赫夫曼编码),那在查找它们时,只需要经过少量的几次比较就可以找到了。这就是优化了的二叉查找树。

即把查找频率高的单词放到离树根近的地方,这样就不需要每次都查找到叶子结点后,才能找到要想的单词。

五,完整代码

 import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.PriorityQueue;
import java.util.Set; public class HuffmanCode { private BinaryNode root;// root of huffman tree
private int nodes;// number of total nodes in huffman tree private class BinaryNode implements Comparable<BinaryNode> {
int frequency;// 出现的频率
BinaryNode left;
BinaryNode right;
BinaryNode parent; public BinaryNode(int frequency, BinaryNode left, BinaryNode right,
BinaryNode parent) {
this.frequency = frequency;
this.left = left;
this.right = right;
this.parent = parent;
} @Override
public int compareTo(BinaryNode o) {
return frequency - o.frequency;
} public boolean isLeftChild() {
return parent != null && parent.left == this;
} public boolean isRightChild() {
return parent != null && parent.right == this;
}
} /**
*
* @param roots
* initial root of each tree
* @return root of huffman tree
*/
public BinaryNode buildHuffmanTree(List<BinaryNode> roots) {
if (roots.size() == 1)// 只有一个结点
return roots.remove(0);
PriorityQueue<BinaryNode> pq = new PriorityQueue<BinaryNode>(roots);//优先级队列保存所有叶子结点
while (pq.size() != 1) {
BinaryNode left = pq.remove();//频率最小的先出队列
BinaryNode right = pq.remove();
BinaryNode parent = new BinaryNode(
left.frequency + right.frequency, left, right, null);//构造父结点
left.parent = parent;
right.parent = parent;
pq.add(parent);//新构造好的根结点插入到优先级队列中
}
return (root = pq.remove());
} /**
* 根据各个结点的权值构造 N 棵单根节点的树
*
* @param frequency
* @return
*/
public List<BinaryNode> make_set(Integer[] frequency) {
List<BinaryNode> nodeList = new ArrayList<HuffmanCode.BinaryNode>(
frequency.length);
for (Integer i : frequency) {
nodeList.add(new BinaryNode(i, null, null, null));
}
nodes = frequency.length << 1 - 1;// huffman 树中结点个数等于叶子结点个数乘以2减去1
return nodeList;
} /**
*
* @param root
* huffman树的根结点
* @param nodeList
* huffman树中的所有叶子结点列表
* @return
*/
public int huffman_cost(List<BinaryNode> nodeList) {
int cost = 0;
int level;
BinaryNode currentNode;
for (BinaryNode binaryNode : nodeList) {
level = 0;
currentNode = binaryNode;
while (currentNode != root) {
currentNode = currentNode.parent;
level++;
}
cost += level * binaryNode.frequency;
}
return cost;
} public String huffmanEncoding(List<BinaryNode> nodeList) {
StringBuilder sb = new StringBuilder();
BinaryNode currentNode;
for (BinaryNode binaryNode : nodeList) {
currentNode = binaryNode;
while (currentNode != root) {
if (currentNode.isLeftChild())
sb.append("0");// 左孩子编码为0
else if (currentNode.isRightChild())
sb.append("1");// 右孩子编码为1
currentNode = currentNode.parent;
}
}
return sb.toString();
} public Map<BinaryNode, String> huffmanDecoding(String encodeString) {
BinaryNode currentNode = root;
//存储每个叶子结点对应的二进制编码
Map<BinaryNode, String> node_Code = new HashMap<HuffmanCode.BinaryNode, String>();
StringBuilder sb = new StringBuilder();//临时保存每个结点的二进制编码
for (int i = 0; i < encodeString.length(); i++) { char codeChar = encodeString.charAt(i);
sb.append(codeChar);
if (codeChar == '0')
currentNode = currentNode.left;
else
currentNode = currentNode.right;
if (currentNode.left == null && currentNode.right == null)// 说明是叶子结点
{
node_Code.put(currentNode, sb.toString());
sb.delete(0, sb.length());//清空当前结点,为存储下一个结点的二进制编码做准备
currentNode = root;//下一个叶子结点的解码,又从根开始
}
}
return node_Code;
} // for test purpose
public static void main(String[] args) {
Integer[] frequency = { 10, 15, 12, 3, 4, 13, 1 };//各个结点的初始频率
HuffmanCode hc = new HuffmanCode();
List<BinaryNode> nodeList = hc.make_set(frequency);//构造各个单节点树
hc.buildHuffmanTree(nodeList);//构建huffman tree
int totalCost = hc.huffman_cost(nodeList);//计算huffman tree的代价
System.out.println(totalCost);
String encodeStr = hc.huffmanEncoding(nodeList);//将各个叶子结点进行huffman 编码
System.out.println("编码后的字符串" + encodeStr); //根据编码字符串解码
Map<BinaryNode, String> decodeMap = hc.huffmanDecoding(encodeStr);
Set<Map.Entry<BinaryNode, String>> entrys = decodeMap.entrySet();
for (Map.Entry<BinaryNode, String> entry : entrys) {
BinaryNode node = entry.getKey();
String code = entry.getValue();
System.out.println("Node's frequency=" + node.frequency + " : " + code);
}
}
}

六,参考资料

Huffman编码算法之Java实现

《数据结构与算法分析》Mark Allen Wiess著

上一篇:使用AWR报告诊断Oracle性能问题


下一篇:Qt on Android:资源文件系统qrc与assets