MongoDB聚合类操作

2022-07-26 20:59:49

MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等)，并返回计算后的数据结果。有点类似sql语句中的 count(*)

语法：db.tablename.aggregate(aggregate_operation)

一、聚合表达式类型及举例（来自菜鸟教程）

表达式	描述	实例
$sum	计算总和。	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
$avg	计算平均值	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
$min	获取集合中所有文档对应值得最小值。	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
$max	获取集合中所有文档对应值得最大值。	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
$push	在结果文档中插入值到一个数组中。	db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
$addToSet	在结果文档中插入值到一个数组中，但不创建副本。	db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
$first	根据资源文档的排序获取第一个文档数据。	db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
$last	根据资源文档的排序获取最后一个文档数据	db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

如下，大家看我的代码举例

我的示例数据库中有同名的课程，除了name字段的内容相同，其他的内容是不一样的，在这里我使用了$group管道和$sum表达式，

db.basiclesson.aggregate([{$group:{_id:"$name",num_tutorial:{$sum:1}}}])，在这里{$group:{_id:"$name",num_tutorial:{$sum:1}}代表以“name”作为分组的字段，统计每个分组的数据行数

可能有很多小伙伴不理解为什么前面要使用_id，后面又跟上"name"，即这处的表达：_id:"$name"，在这里，前面_id必须是数据的主键，因为在进行统计计算时，它是需要向程序内部传递一个可以用作累加的字段

> db.basiclesson.find()
{ "_id" : ObjectId("5f1fdb6f122ecd20144058e9"), "name" : "JAVA" }
{ "_id" : ObjectId("5f1feb50122ecd20144058ea"), "name" : "SQL Server", "desc" : "这是一个测试课程" }
{ "_id" : ObjectId("5f1febce122ecd20144058eb"), "name" : "MongoDB", "desc" : "这是一个测试课程" }
{ "_id" : "001", "name" : "Oracle", "level" : 1, "price" : 10000 }
{ "_id" : "002", "name" : "C语言", "level" : 1, "price" : 5000 }
{ "_id" : "003", "name" : "C语言", "level" : 2, "price" : 8000 }
{ "_id" : ObjectId("5f21271e4b787aeb982bc254"), "name" : "计算机网络", "level" : "2", "price" : 1000 }
{ "_id" : ObjectId("5f212fb24b787aeb982bc255"), "name" : "计算机网络", "level" : 2 }
> db.basiclesson.aggregate([{$group:{_id:"$name",num_tutorial:{$sum:1}}}])
{ "_id" : "SQL Server", "num_tutorial" : 1 }
{ "_id" : "Oracle", "num_tutorial" : 1 }
{ "_id" : "JAVA", "num_tutorial" : 1 }
{ "_id" : "C语言", "num_tutorial" : 2 }
{ "_id" : "MongoDB", "num_tutorial" : 1 }
{ "_id" : "计算机网络", "num_tutorial" : 2 }

大家看我下面的截图，我尝试将_id改为name，此时程序就会报错，提示“字段name 必须是一个累加器类型的对象”

二、管道

菜鸟教程中的介绍：

管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的参数。

MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是可以重复的。

表达式：处理输入文档并输出。表达式是无状态的，只能用于计算当前聚合管道的文档，不能处理其它的文档。

表达式	说明	举例	我的理解
$project	修改输入文档的结构。可以用来重命名、增加或删除域，也可以用于创建计算结果以及嵌套文档	db.article.aggregate({$project:{title:1 ,author:1}})	相当于SQL查询时指定查询的字段，其中_id默认显示，如果将字段值设置为1；则显示，设置为0，则不显示
$match	用于过滤数据，只输出符合条件的文档。$match使用MongoDB的标准查询操作	db.articles.aggregate( [ { $match : { score : { $gt : 70, $lte : 90 } } }, { $group: { _id: null, count: { $sum: 1 } } } ] )	相当于SQL中的条件查询，输出符合条件的数据，效果同直接使用同类的操作符，注意，这里一定不要漏掉中括号，可以直接使用条件查询搞定，例如这里举例中，如果不用统计最后的数据条数，可以改为db.articles.find({score:{$gt : 70, $lte : 90}})
$limit	用来限制MongoDB聚合管道返回的文档数	db.article.aggregate( { $limit : 3 })	相当于SQL中的topN，即显示前N条数据，可以直接用limit()方法，即db.tablename.find().limit(NUMBER)
$skip	在聚合管道中跳过指定数量的文档，并返回余下的文档	db.article.aggregate( { $skip : 5 })	显示前N条数据之后的数据，与$limit刚好形成互补,可以直接用skip()方法，即db.tablename.find().skip(NUMBER)
$unwind	将文档中的某一个数组类型字段拆分成多条，每条包含数组中的一个值		待测试说明
$group	将集合中的文档分组，可用于统计结果	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])	相当于SQL中的group by，将数据按指定字段进行分组统计
$sort	将输入文档排序后输出	db.basiclesson.aggregate({$sort:({"name":1})})	相当于SQL中的order by，个人觉得直接用操作符中的sort方法即可，效果一样，即db.tablename.find().sort({key:1/-1})
$geoNear	输出接近某一地理位置的有序文档		暂时没有做数据测试，不好描述

总结：我觉得管道有些不是太好理解，有些与其本身的一些函数功能相同，目前还没发现管道的作用是在哪，希望有大神指点一二

MongoDB聚合类操作

码农公寓

一、聚合表达式类型及举例（来自菜鸟教程）

二、管道

相关文章