并发编程

2023-12-14 13:38:57

进程理论

进程是什么？

进程是正在运行的一个过程或者说一个任务，而负责执行任务则是cpu。

举例：

一个平平无奇的恋爱小天才climber和他的女朋友去烘焙店做蛋糕。店家给了他蛋糕的食谱，一堆原料（面粉、鸡蛋、等等等）

climber就是处理器（cpu）；做蛋糕的食谱就好比是计算机程序；而哪些原料就是输入数据；进程就是climber阅读食谱，取来各种原料以及拱北蛋糕的整个过程。

并行与并发是什么？

并发：伪并行，单个cpu利用多道技术，使我们看起来cpu在“同时”执行多个任务。

并行：只有具备多个cpu才能实现并行。

进程与线程的区别：

一般来说，每个进程都有一个地址空间。多线程就是一个进程内存在多个线程，多个线程共享该进程的地址空间。相当于一个车间内有多个流水线，都共用这个车间的资源。

关键点：

同一个进程内的多个线程共享该进程内的地址资源
创建线程的开销要远小于创建进程的开销（创建一个进程，就是创建一个车间，涉及到申请空间，而且在该空间内建至少一条流水线，但创建线程，就只是在一个车间内造一条流水线，无需申请空间，所以创建开销小）

开启进程的两种方式：

import time
import random
from multiprocessing import Process

def piao(name):
    print(‘%s piaoing‘ %name)
    time.sleep(random.randrange(1,5))
    print(‘%s piao end‘ %name)

if __name__ == ‘__main__‘:
    #实例化得到四个对象
    p1=Process(target=piao,args=(‘egon‘,)) #必须加,号
    p2=Process(target=piao,args=(‘alex‘,))
    p3=Process(target=piao,args=(‘wupeqi‘,))
    p4=Process(target=piao,args=(‘yuanhao‘,))

    #调用对象下的方法，开启四个进程
    p1.start()
    p2.start()
    p3.start()
    p4.start()
    print(‘主‘)

import time
import random
from multiprocessing import Process

class Piao(Process):
    def __init__(self,name):
        super().__init__()
        self.name=name
    def run(self):
        print(‘%s 正在吃瓜‘ %self.name)

        time.sleep(random.randrange(1,5))
        print(‘%s 吃完瓜了‘ %self.name)

if __name__ == ‘__main__‘:
    #实例化得到四个对象
    p1=Piao(‘egon‘)
    p2=Piao(‘alex‘)
    p3=Piao(‘wupeiqi‘)
    p4=Piao(‘yuanhao‘)

    #调用对象下的方法，开启四个进程
    p1.start() #start会自动调用run
    p2.start()
    p3.start()
    p4.start()
    print(‘主‘)

join方法

在主进程运行过程中如果想并发地执行其他的任务，我们可以开启子进程，此时主进程的任务与子进程的任务分两种情况

情况一：在主进程的任务与子进程的任务彼此独立的情况下，主进程的任务先执行完毕后，主进程还需要等待子进程执行完毕，然后统一回收资源。

情况二：如果主进程的任务在执行到某一个阶段时，需要等待子进程执行完毕后才能继续执行，就需要有一种机制能够让主进程检测子进程是否运行完毕，在子进程执行完毕后才继续执行，否则主进程就一直在原地阻塞，这就是join方法的作用

from multiprocessing import Process
import time
import random

def task(name):
    print(‘%s is piaoing‘ %name)
    time.sleep(random.randint(1,3))
    print(‘%s is piao end‘ %name)

if __name__ == ‘__main__‘:
    p1=Process(target=task,args=(‘egon‘,))
    p2=Process(target=task,args=(‘alex‘,))
    p3=Process(target=task,args=(‘yuanhao‘,))
    p4=Process(target=task,args=(‘wupeiqi‘,))

    p1.start()
    p2.start()
    p3.start()
    p4.start()
    # 很明显p.join()是让主线程等待p的结束，卡住的是主进程而绝非子进程p，
    p1.join()
    p2.join()
    p3.join()
    p4.join()

    print(‘主进程结束‘)

守护进程

from multiprocessing import Process

import time
def foo():
    print(123)
    time.sleep(1)
    print("end123")

def bar():
    print(456)
    time.sleep(3)
    print("end456")

if __name__ == ‘__main__‘:
    p1=Process(target=foo)
    p2=Process(target=bar)

    p1.daemon=True #一定要在p.start()前设置,设置p为守护进程,禁止p创建子进程,并且父进程代码执行结束,p即终止运行
    p1.start()
    p2.start()
    print("main-------") #只要终端打印出这一行内容，那么守护进程p也就跟着结束掉了

互斥锁

进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是没有问题的,而共享带来的是竞争，竞争带来的结果就是错乱。

互斥锁的工作原理就是多个人都要去争抢同一个资源：卫生间，一个人抢到卫生间后上一把锁，其他人都要等着，等到这个完成任务后释放锁，其他人才有可能有一个抢到......所以互斥锁的原理，就是把并发改成穿行，降低了效率，但保证了数据安全不错乱。

from multiprocessing import Process,Lock
import os,time
def work(lock):
    lock.acquire() #加锁
    print(‘%s is running‘ %os.getpid())
    time.sleep(2)
    print(‘%s is done‘ %os.getpid())
    lock.release() #释放锁
if __name__ == ‘__main__‘:
    lock=Lock()
    for i in range(3):
        p=Process(target=work,args=(lock,))
        p.start()

生产者消费者模型

生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个缓冲区，平衡了生产者和消费者的处理能力。

这个阻塞队列就是用来给生产者和消费者解耦的

from multiprocessing import Process,JoinableQueue
import time,random,os
def consumer(q,name):
    while True:
        res=q.get()
        time.sleep(random.randint(1,3))
        print(‘\033[43m%s 吃 %s\033[0m‘ %(name,res))
        q.task_done() #发送信号给q.join()，说明已经从队列中取走一个数据并处理完毕了

def producer(q,name,food):
    for i in range(3):
        time.sleep(random.randint(1,3))
        res=‘%s%s‘ %(food,i)
        q.put(res)
        print(‘\033[45m%s 生产了 %s\033[0m‘ %(name,res))
    q.join() #等到消费者把自己放入队列中的所有的数据都取走之后，生产者才结束

if __name__ == ‘__main__‘:
    q=JoinableQueue() #使用JoinableQueue()

    #生产者们:即厨师们
    p1=Process(target=producer,args=(q,‘egon1‘,‘包子‘))
    p2=Process(target=producer,args=(q,‘egon2‘,‘骨头‘))
    p3=Process(target=producer,args=(q,‘egon3‘,‘泔水‘))

    #消费者们:即吃货们
    c1=Process(target=consumer,args=(q,‘alex1‘))
    c2=Process(target=consumer,args=(q,‘alex2‘))
    c1.daemon=True
    c2.daemon=True

    #开始
    p1.start()
    p2.start()
    p3.start()
    c1.start()
    c2.start()

    p1.join()
    p2.join()
    p3.join()
    #1、主进程等生产者p1、p2、p3结束
    #2、而p1、p2、p3是在消费者把所有数据都取干净之后才会结束
    #3、所以一旦p1、p2、p3结束了，证明消费者也没必要存在了，应该随着主进程一块死掉，因而需要将生产者们设置成守护进程
    print(‘主‘)

多线程

开启线程的两种方式

from threading import Thread
import time

def sayhi(name):
    time.sleep(2)
    print(‘%s say hello‘ %name)

if __name__ == ‘__main__‘:
    t=Thread(target=sayhi,args=(‘egon‘,))
    t.start()
    print(‘主进程‘)

#方式二
from threading import Thread
import time

class Sayhi(Thread):
    def __init__(self,name):
        super().__init__()
        self.name=name
    def run(self):
        time.sleep(2)
        print(‘%s say hello‘ % self.name)

if __name__ == ‘__main__‘:
    t = Sayhi(‘egon‘)
    t.start()
    print(‘主进程‘)

多线程性能测试

如果并发的多个任务是计算密集型：多进程效率高

from multiprocessing import Process
from threading import Thread
import os,time
def work():
    res=0
    for i in range(100000000):
        res*=i


if __name__ == ‘__main__‘:
    l=[]
    print(os.cpu_count()) #本机为4核
    start=time.time()
    for i in range(4):
        p=Process(target=work) #耗时5s多
        p=Thread(target=work) #耗时18s多
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop=time.time()
    print(‘run time is %s‘ %(stop-start))

如果并发的多个任务是I/O密集型：多线程效率高

from multiprocessing import Process
from threading import Thread
import threading
import os,time
def work():
    time.sleep(2)
    print(‘===>‘)

if __name__ == ‘__main__‘:
    l=[]
    print(os.cpu_count()) #本机为4核
    start=time.time()
    for i in range(400):
        # p=Process(target=work) #耗时12s多,大部分时间耗费在创建进程上
        p=Thread(target=work) #耗时2s多
        l.append(p)
        p.start()
    for p in l:
        p.join()
    stop=time.time()
    print(‘run time is %s‘ %(stop-start))

多线程用于IO密集型，如socket，爬虫，web
多进程用于计算密集型，如金融分析

信号量

相当于一群人抢公共厕所，坑位为信号量参数

from threading import Thread,Semaphore
import threading
import time

def func():
    sm.acquire()
    print(‘%s get sm‘ %threading.current_thread().getName())
    time.sleep(3)
    sm.release()

if __name__ == ‘__main__‘:
    sm=Semaphore(5)
    for i in range(23):
        t=Thread(target=func)
        t.start()

进程池、线程池

如果无限制的开启进程或线程，这会对服务端主机带来巨大的压力，甚至于不堪重负而瘫痪，于是我们必须对服务端开启的进程数或线程数加以控制，让机器在一个自己可以承受的范围内运行，这就是进程池或线程池的用途。

from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor

import os,time,random
def task(n):
    print(‘%s is runing‘ %os.getpid())
    time.sleep(random.randint(1,3))
    return n**2

if __name__ == ‘__main__‘:

    executor=ProcessPoolExecutor(max_workers=3)

    futures=[]
    for i in range(11):
        future=executor.submit(task,i)
        futures.append(future)
    executor.shutdown(True)
    print(‘+++>‘)
    for future in futures:
        print(future.result())

协程

协程：是单线程下的并发，又称微线程，纤程。英文名Coroutine。一句话说明什么是协程：协程是一种用户态的轻量级线程，即协程是由用户程序自己控制调度的。

1. python的线程属于内核级别的，即由操作系统控制调度（如单线程遇到io或执行时间过长就会*交出cpu执行权限，切换其他线程运行）
2. 单线程内开启协程，一旦遇到io，就会从应用程序级别（而非操作系统）控制切换，以此来提升效率（！！！非io操作的切换与效率无关）

举例：

import gevent
def eat(name):
    print(‘%s eat 1‘ %name)
    gevent.sleep(2)
    print(‘%s eat 2‘ %name)

def play(name):
    print(‘%s play 1‘ %name)
    gevent.sleep(1)
    print(‘%s play 2‘ %name)


g1=gevent.spawn(eat,‘dzw‘)
g2=gevent.spawn(play,name=‘dzw‘)
g1.join()
g2.join()
#或者gevent.joinall([g1,g2])
print(‘主‘)