从0到1手把手教你实现一个 Python 多线程下载器(三)

实例代码

函数形式的带进度条的单线程文件下载器

# 导入requests 库
import requests
# 导入 tqdm
from tqdm import tqdm
def download(url: str, file_name: str):
    '''
    根据文件直链和文件名下载文件
    Parameters
    ----------
    url: 文件直链
    file_name : 文件名(文件路径)
    '''
    # 文件下载直链
    # 请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
    }
    # 发起 head 请求,即只会获取响应头部信息
    head = requests.head(url, headers=headers)
    # 文件大小,以 B 为单位
    file_size = head.headers.get('Content-Length')
    if file_size is not None:
        file_size = int(file_size)
    response = requests.get(url, headers=headers, stream=True)
    # 一块文件的大小
    chunk_size = 1024
    bar = tqdm(total=file_size, desc=f'下载文件 {file_name}')
    with open(file_name, mode='wb') as f:
        # 写入分块文件
        for chunk in response.iter_content(chunk_size=chunk_size):
            f.write(chunk)
            bar.update(chunk_size)
    # 关闭进度条
    bar.close()
if "__main__" == __name__:
    url = 'https://issuecdn.baidupcs.com/issue/netdisk/yunguanjia/BaiduNetdisk_7.2.8.9.exe'
    file_name = 'BaiduNetdisk_7.2.8.9.exe'
    download(url, file_name)


多线程文件下载器

絮絮叨叨


早些年还没会编程的时候,我喜欢寻找各种高速的下载工具,比如说简单易用的 IDM 以及命令行多线程下载工具 Aria2。它们的下载速度确实让人惊艳。通过查询一些资料,我大概了解到它们下载速度快的原因之一是它们对同一个服务器建立多个连接,然后分块请求响应的内容,于是人多力量大,下载速度自然就提高了。


基础知识

假设我们有下面这么一段代码


单线程程序

import time
def say(number: int):
    print(number)
    time.sleep(0.5)
for i in range(5):
    say(i)


代码运行输出

0
1
2
3
4


不难发现,该代码实现的功能是每间隔 0.5 秒输出一次数字,一共重复 5 次。所以这段程序耗时在 2.5 秒左右。 如果我们使用多线程呢?譬如对于每一次操作均开启一个线程,结果会是怎么样?

为了简化多线程的写法,我查阅了相关资料,发现了一个很好用的多线程库

multitasking

如果你没有安装它,则可以使用 pip 工具,在终端运行下面的代码进行安装(前提是 pip 安装目录在环电脑境变量里面)


pip install multitasking

使用它之后,我们只需要给自定义的函数前面加上一行代码(装饰器)即可在调用函数时,为被调用的这个函数开启新的线程。下面是一个使用例子


以上代码的多线程版本如下

import time
# 导入用于多线程操作的库
# 这样子仅需要在自定义的函数前面使用装饰器即可将函数开启新的线程
import multitasking
import signal
# 按快捷键 ctrl + c 终止已开启的全部线程
signal.signal(signal.SIGINT, multitasking.killall)
# 多线程装饰器
@multitasking.task
def say(number: int):
    print(number)
    time.sleep(0.5)
start_time = time.time()
for i in range(5):
    say(i)
# 等待全部线程执行完毕
multitasking.wait_for_tasks()
end_time = time.time()
print('耗时:', end_time-start_time, '秒')


代码运行输出

0
1
2
3
4
耗时: 0.5063784122467041 秒


同样是每 0.5 秒输出一个数字,上面的代码因为使用多线程,耗时只有 0.5 秒左右,而之前的单线程版本耗时是 2.5 秒左右。


这里面用了一个装饰器,要展开的话稍微有些麻烦,感兴趣的先自己去了解或者与我交流吧。在这篇文章中,我们只需要掌握怎么简单地使用它来完成一个多线程操作即可。


上一篇:T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst、语言版本影响!


下一篇:通过可视化更好的了解你的Spark应用