django orm aggregate()和annotate() 以及 CASE WHEN的使用【终于理解了】

时间：2020-12-21 15:01:21 阅读：86 评论：0 收藏：0 [点我收藏+]

一、django orm aggregate()和annotate()

aggregate 和 annotate 用于查询查询结果集的，区别在于aggregate 是全部结果集的查询，annotate则是分组查询的。

一般会用到功能函数Avg、Max、Min、Count、Sum。

1.aggregate(*args,**kwargs) 聚合函数

通过对QuerySet进行计算，返回一个聚合值的字典。aggregate()中每一个参数都指定一个包含在字典中的返回值。即在查询集上生成聚合。
aggregate()为所有的QuerySet生成一个汇总值，相当于Count()。返回结果类型为字典Dict。

示例：

from django.db.models import Avg,Sum,Max,Min
#求书籍的平均价
ret=models.Book.objects.all().aggregate(Avg(‘price‘))
#{‘price__avg‘: 145.23076923076923}

2.annotate(*args,**kwargs) 分组函数

annotate()为每一个QuerySet在指定属性上生成汇总值，相当于GROUP BY。返回结果类型QuerySet。

from django.db.models import Avg,Sum,Max,Min
#查看每一位作者出过的书中最贵的一本（按作者名分组 values() 然后annotate 分别取每人出过的书价格最高的）
ret=models.Book.objects.values(‘author__name‘).annotate(Max(‘price‘))
  # < QuerySet[
  # {‘author__name‘: ‘吴承恩‘, ‘price__max‘: Decimal(‘234.000‘)},
  # {‘author__name‘: ‘吕不韦‘,‘price__max‘: Decimal(‘234.000‘)},
  # {‘author__name‘: ‘姜子牙‘, ‘price__max‘: Decimal(‘123.000‘)},
  # {‘author__name‘: ‘亚微‘,price__max‘: Decimal(‘123.000‘)},
  # {‘author__name‘: ‘伯夷 ‘, ‘price__max‘: Decimal(‘2010.000‘)},
  # {‘author__name‘: ‘叔齐‘,‘price__max‘: Decimal(‘200.000‘)},
  # {‘author__name‘: ‘陈涛‘, ‘price__max‘: Decimal(‘234.000‘)},
  # {‘author__name‘: ‘高路川‘, price__max‘: Decimal(‘234.000‘)}
  # ] >

二、orm中利用annotate进行group by 详解

用法

之前的orm的group by方法在django 1.8 中已经不能使用，需要利用annotate来实现

示例1

第一个values用来选中需要用来group by的字段（此处group by user_id），之后紧跟annotate来分组并聚合需要的字段（需要每个user_id对应的question_id的数量和catalog_id的最小值），之后再values来实际查询需要的字段（原user_id和聚合后的字段的别名）

第一个values用来指定用来group by的字段，里面必须是Count、Min等等聚合函数（例如用F("user_id")取别名是不行的），不需要最终查询的就不必聚合了

第二个values用来指定实际select的字段，只能指定annotate后的字段名（以此处为例：user_id是用来分组的字段，可以直接取，而其他字段必须聚合并使用聚合后的别名，qid和cid，假如原表还有个字段status，annotate中没有聚合此字段，所以最后value不能查询该字段）

q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).values("user_id", "qid", "cid")

print q

print q.query

# 输出
[{‘qid‘: 22, ‘user_id‘: 335L, ‘cid‘: 17}]
SELECT `pxb_nce_user_quest`.`user_id`, MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL

示例2

与示例1一样，但是此处第一个annotate用来分组字段，第二个annotate用来单独别名其他字段

q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).annotate(uid=F("user_id")).values("uid", "qid", "cid")

print q
print q.query
# 输出：
[{‘qid‘: 22, ‘uid‘: 335L, ‘cid‘: 17}]

SELECT MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid`, `pxb_nce_user_quest`.`user_id` AS `uid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL

举例:

SomeModel.objects.annotate(Count(‘somecol‘))

GROUP BY: 所有字段

SomeModel.objects.values(‘name‘).annotate(Count(‘somecol‘))

GROUP BY: name字段,聚合somecol

SomeModel.objects.annotate(Count(‘somecol‘)).values(‘name‘)

GROUP BY: 所有字段，查询name

SomeModel.objects.values(‘name‘, ‘pk‘).annotate(Count(‘somecol‘)).values(‘pk‘)

GROUP BY: name, pk字段，查询pk字段

SomeModel.objects.values(‘name‘).annotate(Count(‘somecol‘)).values(‘pk‘)

GROUP BY: name, pk字段，查询pk字段

关联知识：

刚开始上面的查询方法可能比较难理，但是对比原生sql语句的group by方法就会发现类似原理

老版本mysql中

select a, b from t group by a会正常工作，b字段会自动取第一条，等于是隐式聚合了

新版本mysql中以上语句不能工作，因为默认启用严格模式sql_mode=ONLY_FULL_GROUP_BY，正确方法是：

select a,max(b) as b from t group by，即需要显示的聚合所有查询的字段

对比新版mysql语法会发现跟orm中查询方法很类似

三、django-ORM之聚合函数和CASE WHEN的使用

业务场景

有这样一个场景：两张表，文件表 和 文件内容表/query表，表结构如下，由于公司规定，没有办法使用外键，所以使用了逻辑关联（文件和query是一对多的关系）。

class File(models.Model):
    id = models.AutoField(primary_key=True, editable=False)
    file_name = models.CharField(max_length=255, db_index=True)
    create_time = models.DateTimeField(auto_now_add=True)
    status = models.IntegerField(default=1, db_index=True)  # 0：已经标完，页面不可见  1：未标完，页面可见
    hash = models.CharField(max_length=255)
    in_mysql = models.IntegerField(default=0, db_index=True)  # 0：默认是0，没有同步。后期同步后，变为1
    count = models.IntegerField()  # 文件中query的条数

    def __unicode__(self):
        return self.file_name

    class Meta:
        db_table = ‘mark_file‘

class Query(models.Model):
    id = models.AutoField(primary_key=True, editable=False)
    query = models.CharField(max_length=255)
    status = models.IntegerField(default=0)  # 0：未标注，1：白名单，2：黑名单，3：废弃，4：待扩充
    update_time = models.DateTimeField(auto_now=True)
    file_id = models.IntegerField(db_index=True)  # 根据此字段进行逻辑关联
    
    def __unicode__(self):
        return self.query

    class Meta:
        db_table = ‘mark_query‘

    def save(self, *args, **kwargs):
        self.update_time = datetime.datetime.now()
        super(Query, self).save(*args, **kwargs)

现在需要查询出id为 1、2、3、4、5、6的文件信息，并且计算出各个文件中对应的各个状态的query（status=0，status=3，status=4）的数量。以达到下面的效果。

技术分享图片

file.png

简单实现，不考虑性能

如果是不考虑性能问题，可能会使用，先查出id为1、2、3、4、5、6的文件，再for循环一个个count，例如：

for file_obj in file_list:
    file_id = file_obj.id
    # 未标注
    no_recall_count = Query.objects.filter(Q(file_id=file_id) & Q(status=0)).count()
    # 已废弃
    no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=3)).count()
    # 待扩充
    no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=4)).count()

但是这样做是最笨，最不合理的做法。这才是6个文件，如果是100个文件，应该查询100?3=300次数据库，才能得出最终结果。对于一个接口来说，数据库操作次数越少越好，查这么多次简直是一个天文数字。

其实可以这样做，一次查询就可以得出统计结果。(django1.10.8)

from django.db.models import Q, F, Count, When, Case

files_id = [1,2,3,4,5,6]
counts = []
#要用聚合函数Count，所以用annotate分组函数
files_count = Query.objects.filter(file_id__in=files_id).values(‘file_id‘).annotate(
            no_recall_count=Count(Case(When(status=0, then=0))), 
            no_use_count=Count(Case(When(status=3, then=0))),
            expand=Count(Case(When(status=4, then=0))))

for files_count_obj in files_count:  
    counts.append({
        "file_id": files_count_obj.get(‘file_id‘),
        "no_recall_count": files_count_obj.get(‘no_recall_count‘),
        "no_use_count": files_count_obj.get(‘no_use_count‘),
        "expand_count": files_count_obj.get(‘expand‘),
        })

sql语句就是

SELECT `mark_query`.`file_id`, 
COUNT(CASE WHEN `mark_query`.`status` = 0 THEN 0 ELSE NULL END) AS `no_recall_count`, 
COUNT(CASE WHEN `mark_query`.`status` = 3 THEN 0 ELSE NULL END) AS `no_use_count`, 
COUNT(CASE WHEN `mark_query`.`status` = 4 THEN 0 ELSE NULL END) AS `expand` 
FROM `mark_query` WHERE `mark_query`.`file_id` IN (1, 2, 3, 4, 5, 6) 
GROUP BY `mark_query`.`file_id`;

如果是django2.0以上，还可以这样（没有验证是否可行）
https://www.bbsmax.com/A/KE5QKvLPzL/

参考链接：https://www.jianshu.com/p/6a5fb253e167

django orm aggregate()和annotate() 以及 CASE WHEN的使用【终于理解了】

原文：https://www.cnblogs.com/hanfe1/p/14167331.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

django orm aggregate()和annotate() 以及 CASE WHEN的使用 【终于理解了】

一、django orm aggregate()和annotate()

1.aggregate(*args,**kwargs) 聚合函数

2.annotate(*args,**kwargs) 分组函数

二、orm中利用annotate进行group by 详解

三、django-ORM之聚合函数和CASE WHEN的使用

业务场景

简单实现，不考虑性能

其实可以这样做，一次查询就可以得出统计结果。(django1.10.8)

django orm aggregate()和annotate() 以及 CASE WHEN的使用【终于理解了】