优化 Django 模型设计：解决重复爬虫任务和商品数据

2024-06-11 07:09:52

在开发数据采集（爬虫）应用时，我们常常面临这样一个问题：不同用户提交了相同的采集任务。为了避免在数据库中存储重复的 URL 和商品数据，我们需要优化模型设计。本文将介绍如何设计 Django 模型，以解决这个问题，并确保数据的一致性和完整性。

问题背景

假设我们有一个爬虫任务应用，用户可以提交 URL 进行数据采集。每个 URL 可能会关联多个商品数据，不同用户可能提交相同的 URL 进行采集。我们希望在数据库中只存储一个 URL，但要能映射到提交该任务的所有用户，并且每个 URL 下会有多个商品数据。此外，不同的 URL 可能会采集到相同的商品数据，因此商品数据也需要去重。

目标

确保数据库中只存储唯一的采集 URL。
能够映射到提交该 URL 采集任务的所有用户。
确保数据库中只存储唯一的商品数据。
商品数据能够映射到与其关联的多个 URL。

模型设计

以下是优化后的 Django 模型设计，通过合理的表结构和关系，解决上述问题。

1. 起始 URL 表（StartUrl）

用于存储唯一的采集 URL。

from django.db import models

class StartUrl(models.Model):
    """起始URL表"""
    url = models.URLField(verbose_name="起始url", max_length=500, unique=True)

    class Meta:
        verbose_name = verbose_name_plural = '起始URL'

    def __str__(self):
        return self.url

2. 商品表（Product）

用于存储唯一的商品信息。

class Product(models.Model):
    """商品表"""
    product_id = models.CharField(max_length=30, verbose_name='商品id', unique=True)
    title = models.CharField(max_length=500, verbose_name='商品标题')
    price = models.DecimalField(max_digits=10, decimal_places=2, blank=True, null=True, verbose_name='价格')
    sales = models.PositiveIntegerField(blank=True, null=True, verbose_name='销量')
    rating = models.FloatField(blank=True, null=True, verbose_name='评分')
    rating_count = models.PositiveIntegerField(blank=True, null=True, verbose_name='评分数')
    listing_date = models.DateField(blank=True, null=True, verbose_name='上架时间')
    release_date = models.DateField(blank=True, null=True, verbose_name='发售时间')
    brand = models.CharField(blank=True, null=True, max_length=100, verbose_name='品牌')
    platform = models.IntegerField(verbose_name='平台')
    seller = models.CharField(blank=True, null=True, max_length=100, verbose_name='卖家')
    img_url = models.URLField(blank=True, null=True, verbose_name='商品主图地址')
    product_details_url = models.URLField(max_length=500, blank=True, null=True, verbose_name='商品详情地址')
    spider_date = models.DateTimeField(blank=True, null=True, verbose_name='完成采集时间')

    class Meta:
        verbose_name = verbose_name_plural = '商品'

    def __str__(self):
        return self.title

3. 爬虫任务表（SpiderTask）

用于关联用户和起始 URL，同时通过多对多关系关联商品。

from django.utils import timezone
from myapp.models.model_account import User

class SpiderTask(models.Model):
    """爬虫任务表"""
    PLATFORM_CHOICES = (
        (1, 'Amazon'),
        (2, 'Etsy'),
        (3, 'Temu'),
        (4, 'WalMart')
    )
    STATUS_CHOICES = (
        (0, '进行中'),
        (1, '已完成'),
        (2, '异常'),
    )
    TYPE_CHOICES = (
        (1, '列表页'),
        (2, '详情页'),
    )
    id = models.AutoField(primary_key=True, verbose_name='自增id')
    user = models.ForeignKey(User, on_delete=models.CASCADE, verbose_name='用户')
    start_url = models.ForeignKey(StartUrl, on_delete=models.CASCADE, verbose_name='起始url')
    platform = models.IntegerField(default=1, choices=PLATFORM_CHOICES, verbose_name='平台')
    name = models.CharField(verbose_name="爬虫名称", max_length=255)
    spider_type = models.IntegerField(choices=TYPE_CHOICES, default=1, verbose_name='采集页面类型')
    description = models.TextField(verbose_name="描述备注等", max_length=500, null=True, blank=True)
    completed = models.IntegerField(choices=STATUS_CHOICES, default=0, verbose_name='完成状态')
    created_at = models.DateTimeField(default=timezone.now, verbose_name='加入任务时间')
    collection_status = models.IntegerField(choices=STATUS_CHOICES, default=0, verbose_name='采集状态')
    completed_at = models.DateTimeField(null=True, blank=True, verbose_name='完成时间')
    products = models.ManyToManyField(Product, verbose_name='关联商品', related_name='tasks')

    class Meta:
        verbose_name = verbose_name_plural = '爬虫任务'
        unique_together = [['user', 'start_url']]

    def __str__(self):
        return f"{self.get_platform_display()} - {self.name}"

4. 用户收藏表（SpiderUserFavorite）

用于记录用户收藏的商品信息。

class SpiderUserFavorite(models.Model):
    """用户收藏表"""
    user = models.ForeignKey(User, on_delete=models.CASCADE, verbose_name='用户')
    product = models.ForeignKey(Product, on_delete=models.CASCADE, verbose_name='收藏商品')
    added_at = models.DateTimeField(default=timezone.now, verbose_name='收藏时间')
    note = models.TextField(blank=True, null=True, verbose_name='备注信息')
    tags = models.CharField(max_length=500, blank=True, null=True, verbose_name='备注标签')

    class Meta:
        verbose_name = verbose_name_plural = '用户收藏'
        unique_together = [['user', 'product']]

    def __str__(self):
        return f"{self.user.username} - {self.product.title}"

模型关系图

为了更清晰地展示模型之间的关系，我们绘制了以下关系图：

用户(User)
│
└──< 拥有多个
          │
爬虫任务(SpiderTask) >─── 属于 ────> 起始URL(StartUrl)
│           (多对一)          (一对多)
│
└───< 多对多 >───
          │
        商品(Product)

总结

通过这种优化的模型设计，我们解决了以下问题：

避免重复存储 URL：StartUrl 表存储唯一的采集 URL。
用户与 URL 的映射：每个爬虫任务（SpiderTask）关联一个用户和一个 URL。
避免重复存储商品数据：Product 表存储唯一的商品数据。
商品与任务的映射：通过多对多关系，商品可以映射到多个任务。

这种设计不仅提高了数据的存储效率，还确保了数据的一致性和完整性。希望这篇博客能对你在 Django 模型设计中遇到的类似问题有所帮助。

不足之处

尽管这种设计已经尽量优化了数据存储和关系映射，但在高并发的情况下，可能会遇到数据竞争的问题。例如，在多用户同时提交相同 URL 的情况下，可能会出现重复记录的风险。为了解决这个问题，可能需要进一步引入锁机制或其他并发控制策略。

作者：pycode
链接：https://juejin.cn/post/7371777383589068863

码农公寓