首页 > 其他 > 详细

django orm aggregate()和annotate() 以及 CASE WHEN的使用 【终于理解了】

时间:2020-12-21 15:01:21      阅读:82      评论:0      收藏:0      [点我收藏+]

一、django orm aggregate()和annotate()

aggregate 和 annotate 用于查询查询结果集的,区别在于aggregate 是全部结果集的查询,annotate则是分组查询的。

一般会用到功能函数Avg、Max、Min、Count、Sum。

1.aggregate(*args,**kwargs) 聚合函数

通过对QuerySet进行计算,返回一个聚合值的字典。aggregate()中每一个参数都指定一个包含在字典中的返回值。即在查询集上生成聚合。
aggregate()为所有的QuerySet生成一个汇总值,相当于Count()。返回结果类型为字典Dict。

示例:

from django.db.models import Avg,Sum,Max,Min
#求书籍的平均价
ret=models.Book.objects.all().aggregate(Avg(‘price‘))
#{‘price__avg‘: 145.23076923076923}

2.annotate(*args,**kwargs) 分组函数

annotate()为每一个QuerySet在指定属性上生成汇总值,相当于GROUP BY。返回结果类型QuerySet。

from django.db.models import Avg,Sum,Max,Min
#查看每一位作者出过的书中最贵的一本(按作者名分组 values() 然后annotate 分别取每人出过的书价格最高的)
ret=models.Book.objects.values(‘author__name‘).annotate(Max(‘price‘))
  # < QuerySet[
  # {‘author__name‘: ‘吴承恩‘, ‘price__max‘: Decimal(‘234.000‘)},
  # {‘author__name‘: ‘吕不韦‘,‘price__max‘: Decimal(‘234.000‘)},
  # {‘author__name‘: ‘姜子牙‘, ‘price__max‘: Decimal(‘123.000‘)},
  # {‘author__name‘: ‘亚微‘,price__max‘: Decimal(‘123.000‘)},
  # {‘author__name‘: ‘伯夷 ‘, ‘price__max‘: Decimal(‘2010.000‘)},
  # {‘author__name‘: ‘叔齐‘,‘price__max‘: Decimal(‘200.000‘)},
  # {‘author__name‘: ‘陈涛‘, ‘price__max‘: Decimal(‘234.000‘)},
  # {‘author__name‘: ‘高路川‘, price__max‘: Decimal(‘234.000‘)}
  # ] >

二、orm中利用annotate进行group by 详解

用法

之前的orm的group by方法在django 1.8 中已经不能使用,需要利用annotate来实现

示例1

第一个values用来选中需要用来group by的字段(此处group by user_id),之后紧跟annotate来分组并聚合需要的字段(需要每个user_id对应的question_id的数量和catalog_id的最小值),之后再values来实际查询需要的字段(原user_id和聚合后的字段的别名)

第一个values用来指定用来group by的字段,里面必须是Count、Min等等聚合函数(例如用F("user_id")取别名是不行的),不需要最终查询的就不必聚合了

第二个values用来指定实际select的字段,只能指定annotate后的字段名(以此处为例:user_id是用来分组的字段,可以直接取,而其他字段必须聚合并使用聚合后的别名,qid和cid,假如原表还有个字段status,annotate中没有聚合此字段,所以最后value不能查询该字段)

q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).values("user_id", "qid", "cid")

print q

print q.query

# 输出
[{‘qid‘: 22, ‘user_id‘: 335L, ‘cid‘: 17}]
SELECT `pxb_nce_user_quest`.`user_id`, MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL

示例2

与示例1一样,但是此处第一个annotate用来分组字段,第二个annotate用来单独别名其他字段

q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).annotate(uid=F("user_id")).values("uid", "qid", "cid")

print q
print q.query
# 输出:
[{‘qid‘: 22, ‘uid‘: 335L, ‘cid‘: 17}]

SELECT MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid`, `pxb_nce_user_quest`.`user_id` AS `uid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL

举例:

SomeModel.objects.annotate(Count(‘somecol‘))

GROUP BY: 所有字段

SomeModel.objects.values(‘name‘).annotate(Count(‘somecol‘))

GROUP BY: name字段,聚合somecol

SomeModel.objects.annotate(Count(‘somecol‘)).values(‘name‘)

GROUP BY: 所有字段,查询name

SomeModel.objects.values(‘name‘, ‘pk‘).annotate(Count(‘somecol‘)).values(‘pk‘)

GROUP BY: name, pk字段,查询pk字段

SomeModel.objects.values(‘name‘).annotate(Count(‘somecol‘)).values(‘pk‘)

GROUP BY: name, pk字段,查询pk字段

关联知识:

刚开始上面的查询方法可能比较难理,但是对比原生sql语句的group by方法就会发现类似原理

老版本mysql中

select a, b from t group by a会正常工作,b字段会自动取第一条,等于是隐式聚合了

新版本mysql中以上语句不能工作,因为默认启用严格模式sql_mode=ONLY_FULL_GROUP_BY,正确方法是:

select a,max(b) as b from t group by,即需要显示的聚合所有查询的字段

对比新版mysql语法会发现跟orm中查询方法很类似

三、django-ORM之聚合函数和CASE WHEN的使用

业务场景

有这样一个场景:两张表,文件表文件内容表/query表,表结构如下,由于公司规定,没有办法使用外键,所以使用了逻辑关联(文件query是一对多的关系)。

class File(models.Model):
    id = models.AutoField(primary_key=True, editable=False)
    file_name = models.CharField(max_length=255, db_index=True)
    create_time = models.DateTimeField(auto_now_add=True)
    status = models.IntegerField(default=1, db_index=True)  # 0:已经标完,页面不可见  1:未标完,页面可见
    hash = models.CharField(max_length=255)
    in_mysql = models.IntegerField(default=0, db_index=True)  # 0:默认是0,没有同步。后期同步后,变为1
    count = models.IntegerField()  # 文件中query的条数

    def __unicode__(self):
        return self.file_name

    class Meta:
        db_table = ‘mark_file‘

class Query(models.Model):
    id = models.AutoField(primary_key=True, editable=False)
    query = models.CharField(max_length=255)
    status = models.IntegerField(default=0)  # 0:未标注,1:白名单,2:黑名单,3:废弃,4:待扩充
    update_time = models.DateTimeField(auto_now=True)
    file_id = models.IntegerField(db_index=True)  # 根据此字段进行逻辑关联
    
    def __unicode__(self):
        return self.query

    class Meta:
        db_table = ‘mark_query‘

    def save(self, *args, **kwargs):
        self.update_time = datetime.datetime.now()
        super(Query, self).save(*args, **kwargs)

现在需要查询出id为 1、2、3、4、5、6的文件信息,并且计算出各个文件中对应的各个状态的query(status=0,status=3,status=4)的数量。以达到下面的效果。

技术分享图片

file.png

简单实现,不考虑性能

如果是不考虑性能问题,可能会使用,先查出id为1、2、3、4、5、6的文件,再for循环一个个count,例如:

for file_obj in file_list:
    file_id = file_obj.id
    # 未标注
    no_recall_count = Query.objects.filter(Q(file_id=file_id) & Q(status=0)).count()
    # 已废弃
    no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=3)).count()
    # 待扩充
    no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=4)).count()

但是这样做是最笨,最不合理的做法。这才是6个文件,如果是100个文件,应该查询100?3=300次数据库,才能得出最终结果。对于一个接口来说,数据库操作次数越少越好,查这么多次简直是一个天文数字。

其实可以这样做,一次查询就可以得出统计结果。(django1.10.8)

from django.db.models import Q, F, Count, When, Case

files_id = [1,2,3,4,5,6]
counts = []
#要用聚合函数Count,所以用annotate分组函数
files_count = Query.objects.filter(file_id__in=files_id).values(‘file_id‘).annotate(
            no_recall_count=Count(Case(When(status=0, then=0))), 
            no_use_count=Count(Case(When(status=3, then=0))),
            expand=Count(Case(When(status=4, then=0))))

for files_count_obj in files_count:  
    counts.append({
        "file_id": files_count_obj.get(‘file_id‘),
        "no_recall_count": files_count_obj.get(‘no_recall_count‘),
        "no_use_count": files_count_obj.get(‘no_use_count‘),
        "expand_count": files_count_obj.get(‘expand‘),
        })

sql语句就是

SELECT `mark_query`.`file_id`, 
COUNT(CASE WHEN `mark_query`.`status` = 0 THEN 0 ELSE NULL END) AS `no_recall_count`, 
COUNT(CASE WHEN `mark_query`.`status` = 3 THEN 0 ELSE NULL END) AS `no_use_count`, 
COUNT(CASE WHEN `mark_query`.`status` = 4 THEN 0 ELSE NULL END) AS `expand` 
FROM `mark_query` WHERE `mark_query`.`file_id` IN (1, 2, 3, 4, 5, 6) 
GROUP BY `mark_query`.`file_id`;

如果是django2.0以上,还可以这样(没有验证是否可行)
https://www.bbsmax.com/A/KE5QKvLPzL/

参考链接:https://www.jianshu.com/p/6a5fb253e167

django orm aggregate()和annotate() 以及 CASE WHEN的使用 【终于理解了】

原文:https://www.cnblogs.com/hanfe1/p/14167331.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!