继续刷LeetCode 热题 HOT 100 的题目,并且在博客更新我的solutions。在csdn博客中我会尽量用文字解释清楚,相关Java代码大家可以前往我的个人博客jinhuaiyu.com中查看。
题目:字母异位词分组
给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。
字母异位词 是由重新排列源单词的字母得到的一个新单词,所有源单词中的字母通常恰好只用一次。
示例 1:
输入: strs = [“eat”, “tea”, “tan”, “ate”, “nat”, “bat”]
输出: [[“bat”],[“nat”,“tan”],[“ate”,“eat”,“tea”]]
示例 2:
输入: strs = [""]
输出: [[""]]
示例 3:
输入: strs = [“a”]
输出: [[“a”]]
提示:
1 <= strs.length <= 104
0 <= strs[i].length <= 100
strs[i] 仅包含小写字母
solution 1:排序
重新组合的字母异位词中,我们需要给每一个组合都找到一个代表,或者说通过某些手段,把字母异位词都映射到同一个元素上。最容易想到的方法是,字母异位词通过自然顺序对字符排序后,都会得到同一个按字母先后顺序排序的字符串。我们可以利用hash表(HashMap)来存放结果。HashMap的键是这个按字母先后顺序排序的字符串,值是一个列表,这个列表是所有排序后会得到键字符串的异位词。只需要遍历每一个字符串,然后排序,在HashMap中找是否存在这个键,如果存在,就把原字符串加到值列表中;如果不存在,就新建一对键值对。
最后要求返回的是一个列表,这个列表每个元素是一组异位词,所以我们不能直接返回HashMap,我们需要返回的是HashMap所有的值(每个值就是一个list集合)。
solution 2:计数
与第一种方法思想类似,我们除了可以把异位词全都映射到一个排序后的字符串上,还可以映射到别的可以代表一组异位词且不会碰撞的元素上(不会碰撞指的是不是异位词一定不会映射到同一个元素)。我们可以牺牲空间换时间,不再排序,而是创建一个26位大小的int数组,每位对应26个字母中的一个。只需要在O(str.length)的时间复杂度里,即遍历一遍当前字符串,就可以将每个出现的字母及其出现次数统计到int数组中。
异位词一定会映射到同一种构造的int数组中(即相应位计数一样),不是异位词一定不会映射碰撞。
但是很多编程语言是不支持将数组作为HashMap的键的,比如java中数组就没有实现我们需要的hashcode。我们可以把数组直接转化成字符串即可直观地区分,比如"eat"映射到int数组再转化成字符串就是"a1e1t1"。这个转化过程也只需要遍历一遍int数组。总之是比排序的时间复杂度要小啦(至于大家提交时方案二时间反而要长,那是因为字符串不够长,如果有几百位方案一时间就会超过方案二了)。
虽然题目加上了所有源单词中的字母通常恰好只用一次的条件,但是我们的方案一和方案二也同样适用于可用多次的情况。
solution 3:映射到质数相乘
前面两种方案考虑的是把异位词映射到同一个元素上,且不会碰撞。其实方案三某种意义上来说也差不多。我们可以想想这道题映射和hash的本质,一组输入得到一个确定的输出,且和输入参数的顺序无关,不同的一组输入不能得到同一个输出。也就是说符合交换律。加法和乘法都符合交换律,但任何一个大于2的数都可以分成多种正数和(比如3=1+2=1+1+1)。在乘法中,我们有分解质因数的方法,如果一组质数相乘得到一个积,这个积是不会因为其质因子相乘的顺序而改变的,同时,它也无法分解成不同的质因子组合(无关顺序)。
到此,质数相乘看起来完全符合我们这道题的抽象本质。我们可以将26个字母映射到2到101中这26个质数,每次遍历当前字符串时,把当前字母对应的质数乘到积上。最后,所有的字母异位词都会乘出一样大的积,且不是异位的词会乘出不一样的积。注意,我们初始的乘数是1,也就是说如果是空字符串,积就是1,如果是"abcd",积就是1×2×3×5=30……
不过很可惜,这种方法存在乘积溢出的可能,很多编程语言提供了大数处理的库,比如java中有BigInteger,go中有big包。其本质是把大数转化成字符串存储,计算时特殊处理。
(ps:leetcode不支持BigInteger之类的大数处理库,大家可以自己在本地编译器上测试,手动编写一个大数处理库不是这道题的考点,在这里手动实现有点得不偿失了)
Finally,三种方案带有详细注释的代码放在我的个人博客http://jinhuaiyu.com/leetcode-group-anagrams/