day10_集合与字符编码

目录


1.集合类型 集合主要用于去重,关系运算

1.1 关系运算

friends1 = ['zero', 'kevin', 'jason', 'egon']
friends2 = ['JY', 'ricky', 'jason', 'egon']
l = []
for i in friends1:
    if i in friends2:
        l.append(i)
print(l)

2.定义:在{}内用逗号分隔开多个元素,多个元素满足一下三个条件
1).集合内元素必须为不可变类型
2).集合内元素无序
3).集合内元素没有重复
s = {1, 2} # s=set({1,2})

s={1,[1,2]} # error

s={1,'a','z','b',4,7} # 集合内元素无序

s={1,1,1,1,'a','b'} # 集合内元素没有重复

s={} # 默认是空字典
定义空集合
s = set()

3.类型转换
set({1, 2, 3})
set('hellolll') # 去重
set([1, 1, 1, 1, 1]) # 去重

内置方法
frinds1 = {'zero', 'kevin', 'jason', 'egon'}
frinds2 = {'JY', 'ricky', 'jason', 'egon'}

4.1 取交集:取两者不同的元素

res = frinds1 & frinds2
frinds1.intersection(frinds2)
print(res)

4.2 取合集:取两者共同的好友

res = frinds1 | frinds2
frinds1.union(frinds2)
print(res)

4.3 取差集:取独有的好友

frinds1.difference(frinds2)
print(frinds1 - frinds2)  # 取firend1独有元素
frinds2.difference(frinds1)
print(frinds2 - frinds1)  # 取firend2独有元素

4.4 对称差集:求两个用户独有的好友们

print(frinds1 ^ frinds2)
frinds1.symmetric_difference(frinds2)

4.5 父子集:包含的关系 ps:两者相等互为父子集

s1 = {1, 2, 3}
s2 = {1, 2}
print(s1.issuperset(s2))
print(s2.issuperset(s1))
print(s1 > s2)  # 当s1大于或等于s2才能说s1是s2的父子关系
print(s1 < s2)
print(s1 = s2)

去重
1.只能针对不可变类型去重
print(set([11,1,1,11,2]))

2.无法保证原来的顺序

l=[1,'b','z',11]
l=list(set(l)) # 去重操作
print(l)

l=[
    {'name':'lili','age':18,'sex':'male'},
    {'name':'jack','age':73,'sex':'male'},
    {'name':'tom','age':20,'sex':'female'},
    {'name':'lili','age':18,'sex':'male'},
    {'name':'lili','age':18,'sex':'male'},
]
new_l=[]
for dic in l:
    if dic not in new_l:
        new_l.append(dic)
print(new_l)

其他内置方法
s={1,2,3}

需要掌握
1:discard
s.discard(4) # 删除元素不存在do nothing
print(s)
s.remove(4) # 删除元素不存在则报错
2:update
s.update({1,3,5})
print(s)
3:pop
res=s.pop()
print(res)
4:add
s.add(4)
print(s)
了解
1.res=s.isdisjoint({3,4,5,6}) # 两个集合完全独立、没有共同部分,返回True
print(res)
2.s.difference_update({3,4,5}) # s=s.difference({3,4,5})
print(s)

2.数据类型总结与分类

有序or无序
有序:字符串,列表,元组,有索引又称序列类型
无序:字典(映射类型)
直接访问: 数字类型
存一个值or多个值:存一个值称之为原子类型,存多个值称之为容器
原子类型:整型,字符串
容器类型:列表,字典,元组
可变or不可变
可变:列表、字典
不可变:数字、字符串、元组
可以增删改的都是可变类型


3.字符编码

但凡涉及到字符的场景都跟编码有关,字符串,文本文件
老的字符编码都可以转成unicode,但是老版本不能相互转
'''
ASCII表:
1、只支持英文字符串
2、采用8位二进制数对应一个英文字符串

GBK表:
1、支持英文字符、中文字符
2、采用8位(8bit=1Bytes)二进制数对应一个英文字符串
采用16位(16bit=2Bytes)二进制数对应一个中文字符串

unicode(内存中统一使用unicode):
1、兼容万国字符
与万国字符都有对应关系
2、采用16位(16bit=2Bytes)二进制数对应一个中文字符串
个别生僻会采用4Bytes、8Bytes

'''

结论:

1、内存固定使用unicode,我们可以改变的是存入硬盘采用格式

英文+汉字-》unicode-》gbk
英文+日文-》unicode-》shift-jis
万国字符》-unicode-》utf-8

2、文本文件存取乱码问题

存乱了:解决方法是,编码格式应该设置成支持文件内字符串的格式
取乱了:解决方法是,文件是以什么编码格式存如硬盘的,就应该以什么编码格式读入内存

3、python解释器默认读文件的编码

python3默认:utf-8
python2默认:ASCII

指定文件头修改默认的编码:
在py文件的首行写:

coding:gbk

4、保证运行python程序前两个阶段不乱码的核心法则:

1).指定文件头

2).coding:文件当初存入硬盘时所采用的编码格式

5、python3的str类型默认直接存成unicode格式,无论如何都不会乱码

保证python2的str类型不乱码
x=u'上'

6、了解
python2解释器有两种字符串类型:str、unicode

str类型

x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间

unicode类型

x=u'上' # 强制存成unicode

homework
# 1、有列表['alex',49,[1900,3,18]],分别取出列表中的名字,年龄,出生的年,月,日赋值给不同的变量
info=['alex',49,[1900,3,18]]
name=info[0]
age=info[1]
year=info[2][0]
month=info[2][1]
day=info[2][2]

# 2、用列表的insert与pop方法模拟队列
l=[]
l.insert(0,'first')
l.insert(1,'second')
l.insert(2,'third')
print(l)
print(l.pop(0))
print(l.pop(0))
print(l.pop(0))

# 3. 用列表的insert与pop方法模拟堆栈
l=[]
l.insert(0,'first')
l.insert(1,'second')
l.insert(2,'third')
print(l)
print(l.pop())
print(l.pop())
print(l.pop())

# 4、简单购物车,要求如下:
#实现打印商品详细信息,用户输入商品名和购买个数,则将商品名,价格,购买个数以三元组形式加入购物列表,如果输入为空或其他非法输入则要求用户重新输入  
msg_dic={
'apple':10,
'tesla':100000,
'mac':3000,
'lenovo':30000,
'chicken':10,
}

select = []
while True:
    for name, price in msg_dic.items():
        print('商品名称是{name},价格为{price}'.format(name=name, price=price))
    user_name = input('请输入商品名称:').strip()
    if user_name and user_name in msg_dic:
        print('商品为%s' % user_name)
        user_count = input('请输入商品数量:')
        if user_count.isdigit():
            select.append((user_name, msg_dic[user_name], int(user_count)))
            print(select)
            print(select[0][0],select[0][1],select[0][2])
            break
        else:
            print('请输入正确格式')
    else:
        print('请输入正确的名称')

#5、有如下值集合 [11,22,33,44,55,66,77,88,99,90...],将所有大于 66 的值保存至字典的第一个key中,将小于 66 的值保存至第二个key的值中

#即: {'k1': 大于66的所有值, 'k2': 小于66的所有值}
l = [11,22,33,44,55,66,77,88,99,90]
d = {'key1':[],'key2':[]}
for i in l:
    if i >66:
        d['key1'].append(i)
    else:
        d['key2'].append(i)
print(d)

#6、统计s='hello alex alex say hello sb sb'中每个单词的个数
s='hello alex alex say hello sb sb'
d = {}
d['hello']=s.count('hello')
d['alex']=s.count('alex')
d['say']=s.count('say')
d['sb']=s.count('sb')
l = s.split()
for i in l:
    if i in d:
        d[i] += 1
    else:
        d[i]=1
print(d)

返回

上一篇:学习python的day10之递归与内置函数


下一篇:day10【排序算法、异常】