【重生之我学Python进阶】----第一章

        看到这篇文章,说明你已经对python有了一定的了解,对于一些简单需求,自己可以独立完成,但对于一些比较大型的需求,这还远远不够。Python进阶就是把一些重复性代码简化、使用一些外部库等,对于项目的进行会有很大帮助。

目录

1、列表推导式

(1)为一个列表填充值

(2)定义一个2维空列表

(3)返回元组

2、os库读取文件夹

3、zip函数

4、lambda表达式(匿名函数)

5、正则表达式(re)

findall()

search()

finditer()

re.match函数

sub()


1、列表推导式

        在需要创建多个列表、或者需要为列表填充具有一定规律的值时,能以极少的代码完成。

它的基本格式为:

[表达式 for 迭代变量 in 可迭代对象 [if 条件表达式] ]

下面将举几个例子进行说明:

(1)为一个列表填充值

为一个列表填充范围为(1,10),能被2整除的数的两倍

li_1 = [2*i for i in range(10) if i%2==0]  
print(li_1)

结果:

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

(2)定义一个2维空列表

li_2 = [[] for i in range(10)]
print(li_2)

结果:

[[], [], [], [], [], [], [], [], [], []]

(3)返回元组

将i,j以元组形式返回,每次i取一个值时,j循环一次

li_3 = [(i,j) for i in range(1,6) for j in range(-8,1,2)]
print(li_3)

结果:

[(1, -8), (1, -6), (1, -4), (1, -2), (1, 0), 
 (2, -8), (2, -6), (2, -4), (2, -2), (2, 0), 
 (3, -8), (3, -6), (3, -4), (3, -2), (3, 0), 
 (4, -8), (4, -6), (4, -4), (4, -2), (4, 0), 
 (5, -8), (5, -6), (5, -4), (5, -2), (5, 0)]

2、os库读取文件夹

  os就是“operating system”的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用os模块,一方面可以方便地与操作系统进行交互,另一方面页可以极大增强代码的可移植性。

这里介绍os库的读取问价夹操作,当您进行数据处理时可能会遇到数据文件量大的情况,例如一个文件夹下的几百个Excel文件,您不可能会一个一个读取这些Excel文件,您可以先使用os库构造这些Excel文件的路径,再写循环读取。

首先是导入os库

import os

您可以使用os.listdir()来读取某一文件夹下的一级文件,获得的是文件夹中的文件名称列表(按字母表顺序排序)

path = "D:\OneDrive\桌面\\2024Mathurcup\附件二处理后数据"
result = os.listdir(path)
# 循环输出
print(type(result))
for file in result[0:200:40]:
    print(file)

结果:

category1.xlsx
category1.xlsx
category135.xlsx
category171.xlsx
category207.xlsx
category243.xlsx

得到了Excel文件名后就可以构建绝对路径了

path = "D:\OneDrive\桌面\\2024Mathurcup\附件二处理后数据"
result = os.listdir(path)
# 循环输出
print(type(result))
for file in result[0:200:40]:
    if '.xlsx' in file:
        file = path + '\\' + file
        print(file)

由此,即构建完Excel文件的决定路径,然后就可以批量进行下一步的读取、处理了。

D:\OneDrive\桌面\2024Mathurcup\附件二处理后数据\category1.xlsx
D:\OneDrive\桌面\2024Mathurcup\附件二处理后数据\category135.xlsx
D:\OneDrive\桌面\2024Mathurcup\附件二处理后数据\category171.xlsx
D:\OneDrive\桌面\2024Mathurcup\附件二处理后数据\category207.xlsx
D:\OneDrive\桌面\2024Mathurcup\附件二处理后数据\category243.xlsx

3、zip函数

        zip函数的使用场景很多,比如在进行遍历时,需要同时变量两个数据结构的变量,普通变量无法同时完成,这时可以zip函数。

可以理解zip函数为压缩,即将两个数据结构压缩到一起,对应元素用元组存储。

下面进行示例:

a = [1,2,3,4,5]
b = [6,7,8,9,10]
for i,j in zip(a,b):
    print(f"i是{i},j是{j}")

结果:

i是1,j是6
i是2,j是7
i是3,j是8
i是4,j是9
i是5,j是10

打印转换完的zip数据的类型

print(type(zip(a,b)))

发现返回的是一个对象

<class 'zip'>

尝试进行转换类型

li_4 = list(zip(a,b))
print(type(li_4))
print(li_4)

结果:

<class 'list'>
[(1, 6), (2, 7), (3, 8), (4, 9), (5, 10)]

既然有压缩,那也一定有解压缩,解压缩可以用zip(*) ,返回二维矩阵式,可定义变量接收

示例:

# 解压
zip_1 = zip(*zip(a,b))
print(f"解压后类型为:{type(zip_1)}")
a,b = zip(*zip(a,b))
print(f"a:{a}")
print(f"b:{b}")

结果:

解压后类型为:<class 'zip'>
a:(1, 2, 3, 4, 5)
b:(6, 7, 8, 9, 10)

4、lambda表达式(匿名函数)

lambda 函数是一种小型、匿名的、内联函数,它可以具有任意数量的参数,但只能有一个表达式。匿名函数不需要使用 def 关键字定义完整函数。lambda 函数通常用于编写简单的、单行的函数,通常在需要函数作为参数传递的情况下使用,例如在 map()、filter()、reduce() 等函数中。

lambda 函数特点:

  • lambda 函数是匿名的,它们没有函数名称,只能通过赋值给变量或作为参数传递给其他函数来使用。
  • lambda 函数通常只包含一行代码,这使得它们适用于编写简单的函数。

lambda 语法格式:

lambda arguments: expression
  • lambda是 Python 的关键字,用于定义 lambda 函数。
  • arguments 是参数列表,可以包含零个或多个参数,但必须在冒号(:)前指定。
  • expression 是一个表达式,用于计算并返回函数的结果。

示例:

c = [1,2,3,4,5]
resp = list(map(lambda x:x**2,c))
print(resp)
  • map() 是一个内置函数,它接受两个参数:一个函数和一个可迭代对象(如列表、元组等)。map() 会将给定的函数应用到可迭代对象的每一个元素上,并返回一个映射对象(这是一个迭代器),其中包含了应用函数后的结果。
  • 结果:
[1, 4, 9, 16, 25]

5、正则表达式(re)

        正则表达式是一种强大的文本处理工具,它可以帮助开发者进行复杂的字符串匹配、搜索和替换操作。在Python中,正则表达式通过内置的re模块提供支持,该模块实现了Perl风格的正则表达式语法。试想,当你需要从爬取的网页源码中获取特定url时,并没有什么很好的方法直接找出,而使用正则则可以根据数据匹配出您需要的数据。

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

下面是正则经常遇到的表达式:

"""
.  除了换行符以外的其他字符(包括空格,有几个点就匹配几个字符)
\w  数字字母下划线
\s  匹配任意的空白符
\d  匹配数字
\n  匹配一个换行符
\t  匹配一个制表符
^  匹配字符串的开始
$  匹配字符串的结尾

\W  匹配非字母或数字或下划线
\D  匹配非数字
\S  匹配非空白符
a|b  匹配字符a或字符b
()  匹配括号内的表达式,也表示一个组
(?P<name>.*?)  给匹配到的内容给个名字叫name
[...]  匹配字符组中的字符
[^...]  匹配除了字符组中字符的所有字符

*  重复0次或更多次
+  重复一次或更多次
?  重复0次或一次
{a,}  某正则模式重复a次及以上({a,b},{a}相似)
/.  转义,匹配 . ()

.*  匹配任意,除了换行
.*?  尽可能少地匹配
re.S  让.能匹配换行
"""

下面是一个小示例:

首先,引入re库

import re

findall()

该函数在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。

resp = re.findall(r"\d+","我有1000万,不给你画,我有1快,我全给你")
print("resp:",resp)

这里的“\d+”就是匹配模板,意思是匹配连续的数字

结果:

resp: ['1000', '1']

search()

search函数是搜索结果,全局搜索,一搜索到就返回,后面的结果就没了

resp_2 = re.search(r"\d+","我有1000万,不给你画,我有1快,我全给你")
print("resp_2:",resp_2)

结果:

resp_2: <re.Match object; span=(2, 6), match='1000'>

可见,打印的是一个re.Match对象,span=(2,6)表示匹配的下标范围,match=‘1000’表示匹配具体的值。可用.group()函数获取具体匹配的值。

print("resp_2:",resp_2.group())

结果:

resp_2: 1000

finditer()

finditer和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

# finditer=>迭代器=>循环=>match=>group()
resp_1 = re.finditer(r"\d+","我有1000万,不给你画,我有1快,我全给你")
for i in resp_1:
    # i是分组,group是拿结果
    print(f"分组:{i}")
    print(i.group())

结果:

分组:<re.Match object; span=(2, 6), match='1000'>
1000
分组:<re.Match object; span=(15, 16), match='1'>
1

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 none。

函数语法

re.match(pattern, string, flags=0)

参数:

pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

示例:

words = "my name is edward_tan"
print(re.match(r'(.*) is (.*)', words).groups())  # 在起始位置匹配

结果:

('my name', 'edward_tan')

sub()

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法:

re.sub(pattern, repl, string, count=0, flags=0)

参数:

  • pattern : 正则中的模式字符串。
  • repl : 替换的字符串,也可为一个函数。
  • string : 要被查找替换的原始字符串。
  • count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。

示例:

phone = "2004-959-559 # 这是一个国外电话号码"
# 删除字符串中的 Python注释
num_1 = re.sub(r'#.*$', "", phone)
print("电话号码是: ", num_1)

# 删除非数字(-)的字符串
num_2 = re.sub(r'\D', "", phone)
print("电话号码是 : ", num_2)

代码中"#.*$"意思是匹配#符号直到结尾,\D代表匹配所有非零字符串

结果:

电话号码是:  2004-959-559 
电话号码是 :  2004959559

感谢您的三连,我会继续努力,为您带来更好的博客!!!

上一篇:MongoDB change stream实战


下一篇:Linux网络——数据链路层