Python有3大数据类型,列表,字典和集合,列表和字典前面我都讲过了,今天我们来聊聊Python中的集合.
Python的书里面完整全面讲集合的不多,即使有的也只是简单带过,笔墨不多。大部分介绍Python数据结构都是被列表,字典两大网红遮盖了锋芒.貌似集合在Python的世界里很冷门,其实集合里面的东西很有用,有它特定的适用的场景,特别是在数据处理的时候.大显身手.
那么说起集合,很多人一定想到了集合论里面集合,对的Python就是把这个概念引入的。Python中的集合有两种类型,可变集合和不可变集合.
1.集合介绍
集合与列表([])和字典({})不同,没有特别的语法格式.列表和字典可以分别用他们自己的工厂方法list()和dict()创建,集合只有一种方法也是唯一的方法-集合的工厂方法set()和frozenset():
-
set()
set无序排序且不重复,是可变的,有add(),remove()等方法。既然是可变的,所以它不存在哈希值。基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交集), difference(差集)和sysmmetric difference(对称差集)等数学运算. - frozenset()
rozenset是冻结的集合,它是不可变的,存在哈希值,好处是它可以作为字典的key,也可以作为其它集合的元素。缺点是一旦创建便不能更改,没有add,remove方法。
下图列出所有集合里的操作符
1).集合赋值
细心的同学一定发现为啥少了几个字母,两个重复的o,三个重复的l,怎么都只出现了1个。对的,这是集合一个非常重要的概念
去重复,非常有用,特别是在去掉列表里面的重复元素的时候,一招搞定。真是一招鲜,吃遍天,列如:
print set(['a','c','c','z','y','a','b'])
set(['a', 'y', 'c', 'z', 'b'])#去掉了重复的元素
.
2).如何访问集合中的值
检查某个元素是不是在集合里面 #in 和not in
遍历查看集合成员#for
for element in s:
print element
3).更新和删除
s.add('z')
print s
set(['e', 'd', 'H', 'l', 'o', 'r', 'W', 'z'])#多了个'z'
s.remove('W')
print s
set(['e', 'd', 'H', 'l', 'o', 'r', 'z'])#去掉了W
2.集合几大常见的操作招式
1)联和,合并
s=set('123')
print s
>>set(['1', '3', '2'])
t=set('345')
print t
>>set(['3', '5', '4'])
print s|t
>>set(['1', '3', '2', '5', '4'])//s和t并集是有所有s的元素和所有t的元素
2).交集//类似集合的合取操作
s=set('123')
print s
>>set(['1', '3', '2'])
t=set('345')
print t
>>set(['3', '5', '4'])
print s&t
>>set(['3'])
3).差补//相对补集
两个集合s和t的差补,表示新的集合只属于s,而不属于t
s=set('123')
print s
>>set(['1', '3', '2'])
t=set('345')
print t
>>set(['3', '5', '4'])
print s-t
>>set(['1', '2'])
print t-s
>>set(['5', '4'])
4).对称差分//类似集合中的异或
s=set('123')
print s
>>set(['1', '3', '2'])
t=set('345')
print t
>>set(['3', '5', '4'])
print s^t
>>set(['1', '2', '5', '4'])
结论:
说了这么多,举个小例子就知道集合的威力,比如我们有3个列表分别是2014,2015,2016的最佳学生,比如:
students_2014=['jack','james','lisa','leo','tom','wang','lee']
students_2015=['jane','james','sean','leo','wang','lari']
students_2016=['sam','max','larisa','Yan','leo','jack']
我们想知道谁是连续2014,2015最佳学生
print set(students_2014)&set(students_2015)
set(['james', 'wang', 'leo'])
我们想知道谁是连续2014,2015,2016最佳学生
print set(students_2014)&set(students_2015)&set(students_2016)
set(['leo'])
我们想知道谁2014是最佳学生,但是后两年没有好好学,没有进入2015,2016最佳名单
print set(students_2014)-set(students_2015)-set(students_2016)
set(['lisa', 'lee', 'tom'])
设想如果列表是1000个元素,用这招过滤是不是很简单