Python入门第二周day04(集合及字符编码)

1、集合

 1.1、定义

在{}内用逗号分隔开多个元素,多个元素满足以下三个条件:
    <1. 集合内元素必须为不可变类型
    <2. 集合内元素无序
    <3. 集合内元素没有重复

 

1.2、类型转换

res=set('hellolllll')  # 字符串类型转集合
print(set([1,1,1,1,1,1]))  #集合自动去重
print(set([1,1,1,1,1,1,[11,222]])  # 报错,集合中存在可变类型
print(set({'k1':1,'k2':2}))  # key存入集合

1.3、内置方法

friends1 = {"zero","kevin","jason","egon"}
friends2 = {"Jy","ricky","jason","egon"}
取交集:两者共同的好友
print(friends1 & friends2)
print(friends1.intersection(friends2))
取并集/合集:两者所有的好友
print(friends2 | friends1)
print(friends1.union(friends2))
取差集:取friends1独有的好友
print(friends1-friends2)
print(friends1.difference(friends2))
对称差集: 求两个用户独有的好友们(即去掉共有的好友)
print(friends1^friends2)
print(friends1.symmetric_difference(friends2))

父子集:包含的关系
s1={1,2,3,4}
s2={1,2,3}
print(s1>s2)  # 判断s1是s2的父集
print(s1.issuperset(s2))  # 判断s1是s2的父集
print(s1<s2)  # 判断s1是s2的子集
print(s1.issubset(s2))  # 判断s1是s2的子集
# 不存在包含关系,下面比较均为False

s1={1,2,3}
s2={1,2,3}
print(s1 == s2) # s1与s2互为父子
去重
1、只能针对不可变类型去重
print(set([1,1,1,1,2]))

2、无法保证原来的顺序
l=[1,'a','b','z',1,1,1,2]
l=list(set(l))
print(l)  
其他操作长度、成员运算、循环和前面一样

其他内置方法
s={1,2,3}
需要掌握的内置方法1:discard
s.discard(4) # 删除元素不存在do nothing
print(s)
s.remove(4) # 删除元素不存在则报错


需要掌握的内置方法2:update
s.update({1,3,5})
print(s)

需要掌握的内置方法3:pop
res=s.pop()
print(res)

需要掌握的内置方法4:add
s.add(4)
print(s)



其余方法全为了解
res=s.isdisjoint({3,4,5,6}) # 两个集合完全独立、没有共同部分,返回True
print(res)

了解
s.difference_update({3,4,5}) # s=s.difference({3,4,5})
print(s)

2、字符编码

ASCII表:
1、只支持英文字符串
2、采用8位二进制数对应一个英文字符串

GBK表:
1、支持英文字符、中文字符
2、采用8位(8bit=1Bytes)二进制数对应一个英文字符串
采用16位(16bit=2Bytes)二进制数对应一个中文字符串

unicode(内存中统一使用unicode):
1、兼容万国字符
      与万国字符都有对应关系
2、采用16位(16bit=2Bytes)二进制数对应一个中文字符串
      个别生僻会采用4Bytes、8Bytes

Python入门第二周day04(集合及字符编码)

 

老的字符编码都可以转换成unicode,但是不能通过unicode互转

 

utf-8:
  英文->1Bytes
  汉字->3Bytes

结论:
1、内存固定使用unicode,我们可以改变的是存入硬盘采用格式
英文+汉字-》unicode-》gbk
英文+日文-》unicode-》shift-jis
万国字符》-unicode-》utf-8

2、文本文件存取乱码问题
存乱了:解决方法是,编码格式应该设置成支持文件内字符串的格式
取乱了:解决方法是,文件是以什么编码格式存如硬盘的,就应该以什么编码格式读入内存


3、python解释器默认读文件的编码
python3默认:utf-8
python2默认:ASCII

指定文件头修改默认的编码:
在py文件的首行写:
#coding:gbk

4、保证运行python程序前两个阶段不乱码的核心法则:
指定文件头
# coding:文件当初存入硬盘时所采用的编码格式


5、
python3的str类型默认直接存成unicode格式,无论如何都不会乱码
保证python2的str类型不乱码
x=u'上'


6、了解
python2解释器有两种字符串类型:str、unicode
# str类型
x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间
# unicode类型
x=u'上' # 强制存成unicode

  

 

  

上一篇:自学Java Day04


下一篇:【软件测试】4.编程数据结构python学习day03、day04