sql面试题:topN问题

sql面试题:topN问题

工作中会经常遇到这样的业务问题:

如何找到每个类别下用户最喜欢的产品是哪个?

如果找到每个类别下用户点击最多的5个商品是什么?

这类问题其实就是常见的:分组取每组最大值、最小值,每组最大的N条(top N)记录。

面对该类问题,如何解决呢?

下面我们通过成绩表的例子来给出答案。

成绩表是学生的成绩,里面有学号(学生的学号),课程号(学生选修课程的课程号),成绩(学生选修该课程取得的成绩)

sql面试题:topN问题

 

1.分组取每组最大值

案例:按课程号分组取成绩最大值所在行的数据

我们可以使用分组(group by)和汇总函数得到每个组里的一个值(最大值,最小值,平均值等)。但是无法得到成绩最大值所在行的数据。

sql面试题:topN问题

sql面试题:topN问题

 

我们可以使用关联子查询来实现:

sql面试题:topN问题

 

上面查询结果课程号“0001”有2行数据,是因为最大成绩80有2个

2.分组取每组最小值

案例:按课程号分组取成绩最小值所在行的数据

同样的使用关联子查询来实现

sql面试题:topN问题

如果不懂什么是关联子查询,可以看下我讲过的《从零学会SQL》的“复杂查询”

 

3.每组最大的N条记录

案例:查询各科成绩前两名的记录

第1步,查出有哪些组

我们可以按课程号分组,查询出有哪些组,对应这个问题里就是有哪些课程号

sql面试题:topN问题

 

第2步:先使用order by子句按成绩降序排序(desc),然后使用limt子句返回topN(对应这个问题返回的成绩前两名)

sql面试题:topN问题

同样的,可以写出其他组的(其他课程号)取出成绩前2名的sql

第3步,使用union all 将每组选出的数据合并到一起

sql面试题:topN问题

前面我们使用order by子句按某个列降序排序(desc)得到的是每组最大的N个记录。如果想要达到每组最小的N个记录,将order by子句按某个列升序排序(asc)即可。

求topN的问题还可以使用自定义变量来实现,这个在后续再介绍。

如果对多表合并还不了解的,可以看下我讲过的《从零学会SQL》的“多表查询”。

sql面试题:topN问题

总结

今天学习了常见面试题:分组取每组最大值、最小值,每组最大的N条(top N)记录。

后面遇到类似的题目,你都可以用文中的sql语句来解决了。

推荐:如何用最短的时间找到初级数据分析师工作?

sql面试题:topN问题

上一篇:结构化数据上的 TopN 运算


下一篇:大数据学习笔记 - hadoop day05 - MapReduce Join实现 高效TopN实现 Yarn简介