《改善python程序的91个建议》读书笔记

2022-12-08 07:29:04

引论

建议5：通过适当添加空行使代码布局更为优雅合理

在函数定义或者类定义之间空两行，类定义与第一个方法之间空一行。pep8规范
函数调用时，调用者在上，被调用者在下
空格使用：
- 在二元运算 =，比较 ==, <, >, !=, in, not in, is, is not, 布尔运算 and or not 的左右两边应该有空格
- 逗号和分号前不需要使用空格如：推荐：x, y == y, x 不推荐：x , y = y , x

建议6：编写函数的4个原则

函数设计要尽量短小，嵌套层次不宜过深
函数申明应该做到合理，简单，易于使用。函数名合理，参数不宜过多。
函数参数设计应该考虑向下兼容。通过添加默认参数来实现。
一个函数只做一件事，尽量保证函数语句粒度的一致性。

建议7：将常量集中到一个文件

通过命名风格来题型使用者该变量代表的意义为常量。如常量名为所有字母大写
通过自定义的类实现常量功能。实现命名全部大写和值一旦绑定便不可再修改这两个条件

编程惯用法

建议9：数据交换值的时候不推荐使用中间变量

使用x, y = y, x的方式交换变量值比使用中间值更加高效

该方式本质上是使用了元组的打包功能

建议10：充分利用 Lazy evaluation 的特性

Lazy evaluation 就是延迟计算或者惰性计算，指仅仅在真正需要执行的时候才计算表达式的值。优点有如下：

避免不必要的计算，带来性能上的提升
节省空间，使得无限循环的数据结构成为可能。

建议16：分清 == 与 is的使用场景

is 的作用是比较两个对象在内存中是否拥有同一块内存空间，它并不适合用来判断两个字符串是否相等。

== 用来检查两个对象的值是否相等

基础语法

建议22：使用with自动关闭资源

在文件操作、线程用锁等情况下，优先使用 with 替代 try catch。with语句使用更加简洁

建议24：遵循异常处理的几点基本原则

注意异常的粒度，不推荐在try中放入过多的代码。
谨慎使用单独的except语句处理所有异常，最好能定位具体的异常
注意异常捕获的顺序，在合适的层次处理异常
使用更为友好的异常信息，遵守异常参数的规范。

建议25：避免finally中可能发生的陷阱

当try块中发生异常的时候，如果在except语句中找不到对应的异常处理，异常处理会被临时保存起来，当finally执行完毕的时候，临时保存的异常将会再次被抛出，但如果finally语句中产生了新的异常或者执行了return或者break语句，那么临时保存的异常就会丢失，从而导致异常屏蔽。

不推荐在finally中使用return语句进行返回

建议27：连接字符串应优先使用join而不是+

join的效率更高。join是将最后的结果算好之后，申请内存，一次完成

+是不断开辟新的空间，将原理的字符串和现在的一起搬到空间中。效率会低很多

建议28：格式化字符串时尽量使用format而不是%

format方式在使用较%操作符更加灵活
format可以方便地作为参数传递
官方文档宣称 % 最终会被 format替代
%方法在某些特殊情况下使用时需要特别小心

建议32：警惕默认参数潜在的问题

多个函数调用时，使用同一个默认参数，如果参数是列表，会导致多个函数公用一个列表

库

建议39：使用Counter进行计数统计

技术统计，统计某一项出现的次数。可以使用不同的数据结构来实现。

使用dict
使用defaultdict
使用set 和list

优雅的方式：

使用collections包中的Counter，这是python自带模块，用来统计容器中个元素出现的次数。

使用工具辅助项目开发

建议76：使用Pylint检查代码风格

Pylint始于2003年，是一个代码分析工具，用于检查python代码中的错误，查找不符合代码编码规范的代码以及潜在的问题。支持不同的OS平台，如windows、linux、osx等。其特性如下：

代码风格审查。以Guido van Rossum的PEP8为标准
代码错误检查。未被实现的接口，方法缺少对应的参数
发现重复已经设计不合理的代码
高度的可配置化和可定制化
支持各种IDE和编辑器集成
能够基于python代码生成UML图
能够与Hudson、Jenkins等持续集成工具相结合支持自动代码评审

性能剖析与优化

建议84：掌握循环优化的基本技巧

减少循环内部的计算
使用计算表达式替换循环
循环中尽量引用局部变量：命名空间中局部变量优先搜索
关注内层嵌套循环。在多层嵌套循环中，重点关注内层嵌套循环。

建议85：使用生成器提高效率

生成器提供了一种更为便利的产生迭代器的方式，用户一般不需要自己实现__iter__和next方法，它默认返回一个迭代器
代码更为简介，优雅
充分利用了延迟评估的特性，仅在需要的时候才产生对应的元素，而不是一次生成所有的元素。从而节省了内存空间，提高了效率，理论上无限循环成为可能，而不会导致MenoryError。在大数据处理的情况下尤为重要
使得协同程序更加容易实现。

建议86：使用不同的数据结构优化性能

list对象经常有数量的巨变，膨胀和收缩很频繁，那么应当考虑使用deque
在使用list的过程中，需要时刻保持列表的有序性，可以使用标准库bisect实现
heapq模块，将一个序列容器转化程一个堆

建议87 充分利用set的优势

set是通过Hash算法实现的无序不重复的元素集。

使用set的场景：

涉及到求list交集、并集或者差集问题可以转换程set操作
在对list频繁查找的情况，也可以换成set

建议89：使用线程池提高效率

线程的生命周期分为5个状态：创建、就绪、运行、阻塞、终止。自线程创建到终止，线程便不断在运行、就绪、阻塞这三个状态之间转换直销毁。真正占有CPU的只有运行、创建、销毁这仨个状态。

一个线程的运行时间可以由此分为三个部分：

线程的启动时间
线程的运行时间
线程的销毁时间

在多线程处理的情景中，如果线程不能够被重用，就意味着每次创建都需要经过启动、销毁、运行这三个过程。这必然会增加系统的相应时间，降低效率。如何提高线程运行的效率呢？线程池

实现创建多个能够执行任务的线程放入线程池，所需要执行的任务通常被安排在队列中。通常情况下，需要处理的任务比线程数目要多，线程执行完当前任务后，会从队列中取下一个任务，直到所有的任务已经完成。

由于线程池预先被创建并放入线程池中，同时处理完当前任务之后并不是销毁而是被安排处理下一个任务，因此能够避免多次创建线程，从而节省线程创建和销毁的开销，带来更好的性能和系统稳定性。

线程池技术适合处理突发性大量请求或者需要大量线程来完成任务，但任务实际处理时间较短的应用场景，它能有效避免由于系统中创建线程过多而导致的系统性能负荷过大，响应过慢等问题。

建议90：使用C/C++模块扩展提高性能

建议91：使用Cython编写扩展模块

附录完整91个建议

1：引论

建议1、理解Pythonic概念—-详见Python中的《Python之禅》

建议2、编写Pythonic代码

建议3：理解Python与C的不同之处，比如缩进与{}，单引号双引号，三元操作符？，Switch-Case语句等。

建议4：在代码中适当添加注释

建议5：适当添加空行使代码布局更加合理

建议6：编写函数的4个原则

建议7：将常量集中在一个文件，且常量名尽量使用全大写字母

2：编程惯用法

建议8：利用assert语句来发现问题，但要注意，断言assert会影响效率

建议9：数据交换值时不推荐使用临时变量，而是直接a, b = b, a

建议10：充分利用惰性计算（Lazy evaluation）的特性，从而避免不必要的计算

建议11：理解枚举替代实现的缺陷（最新版Python中已经加入了枚举特性）

建议12：不推荐使用type来进行类型检查，因为有些时候type的结果并不一定可靠。如果有需求，建议使用isinstance函数来代替

建议13：尽量将变量转化为浮点类型后再做除法（Python3以后不用考虑）

建议14：警惕eval()函数的安全漏洞，有点类似于SQL注入

建议15：使用enumerate()同时获取序列迭代的索引和值

建议16：分清==和is的适用场景，特别是在比较字符串等不可变类型变量时（详见评论）

建议17：尽量使用Unicode。在Python2中编码是很让人头痛的一件事，但Python3就不用过多考虑了

建议18：构建合理的包层次来管理Module

3：基础用法

建议19：有节制的使用from…import语句，防止污染命名空间

建议20：优先使用absolute import来导入模块（Python3中已经移除了relative import）

建议21：i+=1不等于++i，在Python中，++i前边的加号仅表示正，不表示操作

建议22：习惯使用with自动关闭资源，特别是在文件读写中

建议23：使用else子句简化循环（异常处理）

建议24：遵循异常处理的几点基本原则

建议25：避免finally中可能发生的陷阱

建议26：深入理解None，正确判断对象是否为空。Python中下列数据会判断为空：

建议27：连接字符串应优先使用join函数，而不是+操作

建议28：格式化字符串时尽量使用.format函数，而不是%形式

建议29：区别对待可变对象和不可变对象，特别是作为函数参数时

建议30：[], {}和()：一致的容器初始化形式。使用列表解析可以使代码更清晰，同时效率更高

建议31：函数传参数，既不是传值也不是传引用，而是传对象或者说对象的引用

建议32：警惕默认参数潜在的问题，特别是当默认参数为可变对象时

建议33：函数中慎用变长参数*args和**kargs

建议34：深入理解str()和repr()的区别

建议35：分清静态方法staticmethod和类方法classmethod的使用场景

4：库

建议36：掌握字符串的基本用法

建议37：按需选择sort()和sorted()函数

建议38：使用copy模块深拷贝对象，区分浅拷贝（shallow copy）和深拷贝（deep copy）

建议39：使用Counter进行计数统计，Counter是字典类的子类，在collections模块中

建议40：深入掌握ConfigParse

建议41：使用argparse模块处理命令行参数

建议42：使用pandas处理大型CSV文件

建议43：使用ElementTree解析XML

建议44：理解模块pickle的优劣

建议45：序列化的另一个选择JSON模块：load和dump操作

建议46：使用traceback获取栈信息

建议47：使用logging记录日志信息

建议48：使用threading模块编写多线程程序

建议49：使用Queue模块使多线程编程更安全

5：设计模式

建议50：利用模块实现单例模式

建议51：用mixin模式让程序更加灵活

建议52：用发布-订阅模式实现松耦合

建议53：用状态模式美化代码

6：内部机制

建议54：理解build-in对象

建议55：__init__()不是构造方法，理解__new__()与它之间的区别

建议56：理解变量的查找机制，即作用域

建议57：为什么需要self参数

建议58：理解MRO（方法解析顺序）与多继承

建议59：理解描述符机制

建议60：区别__getattr__()与__getattribute__()方法之间的区别

建议61：使用更安全的property

建议62：掌握元类metaclass

建议63：熟悉Python对象协议

建议64：利用操作符重载实现中缀语法

建议65：熟悉Python的迭代器协议

建议66：熟悉Python的生成器

建议67：基于生成器的协程和greenlet，理解协程、多线程、多进程之间的区别

建议68：理解GIL的局限性

建议69：对象的管理和垃圾回收

7：使用工具辅助项目开发

建议70：从PyPI安装第三方包

建议71：使用pip和yolk安装、管理包

建议72：做paster创建包

建议73：理解单元测试的概念

建议74：为包编写单元测试

建议75：利用测试驱动开发（TDD）提高代码的可测性

建议76：使用Pylint检查代码风格

建议77：进行高效的代码审查

建议78：将包发布到PyPI

8：性能剖析与优化

建议79：了解代码优化的基本原则

建议80：借助性能优化工具

建议81：利用cProfile定位性能瓶颈

建议82：使用memory_profiler和objgraph剖析内存使用

建议83：努力降低算法复杂度

建议84：掌握循环优化的基本技巧

建议85：使用生成器提高效率

建议86：使用不同的数据结构优化性能

建议87：充分利用set的优势

建议88：使用multiprocessing模块克服GIL缺陷

建议89：使用线程池提高效率

建议90：使用C/C++模块扩展提高性能

建议91：使用Cythonb编写扩展模块

码农公寓

推荐

引论