Celery学习之旅

Celery简介

Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。

Celery的架构由三部分组成,消息中间件(message broker)、任务执行单元(worker)和任务执行结果存储(task result store)组成。
Celery学习之旅

消息中间件

Celery本身不提供消息服务,但是可以方便的和第三方提供的消息中间件集成。包括,RabbitMQ, Redis等等

任务执行单元

Worker是Celery提供的任务执行的单元,worker并发的运行在分布式的系统节点中

任务结果存储

Task result store用来存储Worker执行的任务的结果,Celery支持以不同方式存储任务的结果,包括AMQP, redis等

另外, Celery还支持不同的并发和序列化的手段

  • 并发:Prefork, Eventlet, gevent, threads/single threaded
  • 序列化:pickle, json, yaml, msgpack. zlib, bzip2 compression, Cryptographic message signing 等等

Celery使用场景

celery是一个强大的 分布式任务队列的异步处理框架,它可以让任务的执行完全脱离主程序,甚至可以被分配到其他主机上运行。我们通常使用它来实现异步任务(async task)和定时任务(crontab)。

异步任务:将耗时操作任务提交给Celery去异步执行,比如发送短信/邮件、消息推送、音视频处理等等

定时任务:定时执行某件事情,比如每天数据统计

Celery优点

Simple(简单):Celery 使用和维护都非常简单,并且不需要配置文件。

Highly Available(高可用):woker和client会在网络连接丢失或者失败时,自动进行重试。并且有的brokers 也支持“双主”或者“主/从”的方式实现高可用

Fast(快速):单个的Celery进程每分钟可以处理百万级的任务,并且只需要毫秒级的往返延迟(使用 RabbitMQ, librabbitmq, 和优化设置时)

Flexible(灵活):Celery几乎每个部分都可以扩展使用,自定义池实现、序列化、压缩方案、日志记录、调度器、消费者、生产者、broker传输等等

Celery安装

你可以安装Celery通过Python包管理平台(PyPI)或者源码安装
使用pip安装:

$ pip install -U Celery

或着:

$ sudo easy_install Celery

Celery执行异步任务

基本使用

创建项目CeleryDemo,创建异步任务执行文件celery_task:

from celery import Celery
import time

# 设置存储执行结果的数据库连接
backend = 'redis://127.0.0.1:6379/1'
# 设置消息中间件的配置
broker = 'redis://127.0.0.1:6379/2'
# 创建Celery实例
app = Celery('test', backend=backend, broker=broker)

# 定义异步任务,这里模拟定义一个发送邮件的异步任务
@app.task
def send_email(name):
    print("向%s发送邮件..." % name)
    time.sleep(5)
    print("向%s发送邮件完成" % name)
    return "ok"

注意,异步任务文件命令执行(将Celery执行起来):

celery -A celery_task worker -l info 
# -A 指定Celery实例所在的模块,-l 指定log日志的级别,worker是以worker实例启动

创建执行任务文件,produce_task.py:

# 从celery_task文件中导入定义的异步任务函数
from celery_task import send_email

#调用异步任务函数的dealy方法,执行异步任务,结果返回一个AsyncResult对象
result = send_email.delay("tom")
# 打印执行结果的id值,可以根据这个id去定义的broker中获取执行结果
print(result.id)
print(result.result) # 打印任务的结果
result2 = send_email.delay("jack")
print(result2.id)

创建py文件:result.py,查看任务执行结果:

# 导入AsyncResult类,来获取任务的执行结果
from celery.result import AsyncResult
# 导入创建的Celery实例
from celery_task import app

# 根据执行任务返回的id和Celery实例创建AsyncResult对象,该对象可以判断任务的执行状态和结果
async_result = AsyncResult(id="f84e672c-6def-4e99-838d-57a0177d26ba", app=app)

if async_result.successful():
    # 执行成功获取结果
    result = async_result.get()
    print(result)
    # result.forget() # 将结果删除
elif async_result.failed():
    print('执行失败')
elif async_result.status == 'PENDING':
    print('任务等待中被执行')
elif async_result.status == 'RETRY':
    print('任务异常后正在重试')
elif async_result.status == 'STARTED':
    print('任务已经开始被执行')

多目录结构

Celery多任务拆分的结构,代码编写会有所不同:

Celery学习之旅
celery.py:

# 防止导入celery优先从相对路径导入
from __future__ import absolute_import, unicode_literals
# 导入Celery
from celery import Celery

app = Celery('celery_demo',
             broker='redis://127.0.0.1:6379/1',
             backend='redis://127.0.0.1:6379/2',
             # 包含以下两个任务文件,去相应的py文件中找任务,对多个任务做分类
             include=['celery_tasks.task01',
                      'celery_tasks.task02'
                      ])

# 时区
app.conf.timezone = 'Asia/Shanghai'
# 是否使用UTC
app.conf.enable_utc = False

开启work:

celery -A celery_tasks worker -l info -P eventlet
# -A Celery实例所在的模块或者包 -l 指定log日志等级,-P指定使用eventlet模块的协程启动,也可以是gevent

task01.py :

import time
from celery_tasks.celery import cel


@cel.task
def send_email(res):
    time.sleep(5)
    return "完成向%s发送邮件任务" % res

task02.py :

import time
from celery_tasks.celery import cel


@cel.task
def send_msg(name):
    time.sleep(5)
    return "完成向%s发送短信任务" % name

添加任务 produce_task.py:

from celery_tasks.task01 import send_email
from celery_tasks.task02 import send_msg

# 立即告知celery去执行test_celery任务,并传入一个参数
result = send_email.delay('tom')
print(result.id)
result = send_msg.delay('tom')
print(result.id)

检查任务执行结果 check_result.py:

from celery.result import AsyncResult
from celery_tasks.celery import cel

async_result = AsyncResult(id="b17d7f95-5a7d-446f-9535-ec1a7cf92f61", app=cel)

if async_result.successful():
    result = async_result.get()
    print(result)
    # result.forget() # 将结果删除,执行完成,结果不会自动删除
    # async.revoke(terminate=True)  # 无论现在是什么时候,都要终止
    # async.revoke(terminate=False) # 如果任务还没有开始执行呢,那么就可以终止。
elif async_result.failed():
    print('执行失败')
elif async_result.status == 'PENDING':
    print('任务等待中被执行')
elif async_result.status == 'RETRY':
    print('任务异常后正在重试')
elif async_result.status == 'STARTED':
    print('任务已经开始被执行')

Celery执行定时任务

Celery除了可以执行异步任务还可以执行定时任务

基本使用

创建异步任务执行文件celery_task:

from celery import Celery
import time

# 设置存储执行结果的数据库连接
backend = 'redis://127.0.0.1:6379/1'
# 设置消息中间件的配置
broker = 'redis://127.0.0.1:6379/2'
# 创建Celery实例
app = Celery('test', backend=backend, broker=broker)

# 定义异步任务,这里模拟定义一个发送邮件的异步任务
@app.task
def send_email(name):
    print("向%s发送邮件..." % name)
    time.sleep(5)
    print("向%s发送邮件完成" % name)
    return "ok"

注意,异步任务文件命令执行(将Celery执行起来):

celery -A celery_task worker -l info 
# -A 指定Celery实例所在的模块,-l 指定log日志的级别,worker是以worker实例启动

把produce_task.py改成定时任务:

from celery_tasks import send_email
from datetime import timedelta
from datetime import datetime

# 方式一
# v1 = datetime(2020, 3, 11, 16, 19, 00)
# print(v1)
# v2 = datetime.utcfromtimestamp(v1.timestamp())
# print(v2)
# result = send_email.apply_async(args=["jack",], eta=v2)
# print(result.id)

# 方式二
ctime = datetime.now()
# 默认用utc时间
utc_ctime = datetime.utcfromtimestamp(ctime.timestamp())

time_delay = timedelta(seconds=10)
task_time = utc_ctime + time_delay

# 使用apply_async并设定时间
result = send_email.apply_async(args=["jack"], eta=task_time)
print(result.id)

多目录结构

celery.py修改如下:

from __future__ import absolute_import, unicode_literals
from datetime import timedelta
from celery import Celery

# from celery.schedules import crontab

cel = Celery('tasks', broker='redis://127.0.0.1:6379/1', backend='redis://127.0.0.1:6379/2', include=[
    'celery_tasks.task01',
    'celery_tasks.task02',
])
cel.conf.timezone = 'Asia/Shanghai'
cel.conf.enable_utc = False

cel.conf.beat_schedule = {
    # 名字随意命名
    'add-every-10-seconds': {
        # 执行tasks1下的test_celery函数
        'task': 'celery_tasks.task01.send_email',
        # 每隔2秒执行一次
        # 'schedule': 1.0,
        # 'schedule': crontab(minute="*/1"),
        'schedule': timedelta(seconds=6),
        # 传递参数
        'args': ('张三',)
    },
    # 'add-every-12-seconds': {
    #     'task': 'celery_tasks.task01.send_email',
    #     每年4月11号,8点42分执行
    #     'schedule': crontab(minute=42, hour=8, day_of_month=11, month_of_year=4),
    #     'args': ('张三',)
    # },
}

启动 Beat 程序 :

celery -A celery_tasks beat
# Celery Beat进程会读取配置文件的内容,周期性的将配置中到期需要执行的任务发送给任务队列

再启动 worker 进程 :

celery -A celery_tasks worker -l info

注意:

  • 上面两个命令启动顺序可以任意!
  • 两个命令执行后不能关闭,关闭后定时任务不能正确执行,worker关闭,beat程序不关闭,beat会按照定义的配置不断将需要执行的任务发送给任务队列,导致再次执行worker进程会有很多历史遗留任务。worker不关闭,beat程序关闭,不能按照配置的定时要求将需要执行的任务发送给任务队列,worker进程将没有任务可执行,将阻塞住
  • 周期性定时任务请使用多目录配置方式,就不需要再写produce了,普通定时任务使用基本使用的配置方式
上一篇:工人总是在芹菜花离线


下一篇:Python-将芹菜用于管道