题目来源1:中国科学技术大学的牛友fancyjiang
https://www.nowcoder.com/discuss/406334?type=all&order=time&pos=&page=1
题目来源2:烟台大学的牛友,@连续。
文章参考:请看原文。哈哈,博主比较急,就没有去参考英文原文,全是从中文博客上学来的。
本文是给狮子大开口要了我150元咨询费的连续同学写的。
笔试题目
一、 3道SQL
表A,表B;两张表相同字段:id,timestamp(时间);问:B表中第一个事件之前A事件发生的数量;B表中第一个和第二个事件发生时间之内,A表A表中事件的数量;B表中第二个和第三个事件发生时间之内,A表中事件发生的数量;B表中第n个和第n+1个事件发生时间之内,A表中事件发生的数量;B表中100000个事件发生之后A表事件的数量
也是时间的表,字段:timestamp,问最后一个事件和倒数第二个事件发生的间隔时间
表A:观看直播的表,字段:userid(唯一),photoid(唯一),timestamp;表B:观看视频的表,字段:字段:userid(唯一),photoid(唯一),timestamp;求只看直播的人数占比,只看视频人数占比,两者都看人数占比
二、 2道数据科学题目,可以选择运用python或者r
(1)写出绘制ROC曲线和计算AUC值的代码
(2)证明中心极限定理
[这个证明到底是抛色子验证,还是用Python写数学公式验证啊,懵了]
Python证明中心极限定理
请对照后面的注释,看这段代码
import numpy as np
import matplotlib.pyplot as plt
random_data = np.random.randint(1, 50, 100000)#随机生成100000个整数,形成一个数组(1-49之间,不含50,左含右不含)
samples_mean = [] # 样本均值
for _ in range(10000):#此类语法见②
sample=np.random.choice(random_data,1000)#见①,从random_data数组中返回1000个数据,存入sample数组
samples_mean.append(sample.mean())#见③,给sample数组整体求均值,集齐9999个sample均值合成samples_mean数组
samples_mean=np.array(samples_mean)#见④,将Python的List对象,变为Numpy的ndarray对象
plt.hist(samples_mean,bins=100,color='g')#见⑤,直方图
plt.grid()#网格线
plt.show()#图形由show函数显示
①、choice(seq) 方法返回一个seq[可以是列表,元组或字符串]的随机项。
注意:choice()是不能直接访问的,需要导入 random 模块,然后通过 random 静态对象调用该方法。
np.random.choice(5,3)和np.random.randint(0,5,3)意思相同,表示从[0,5)之间随机以等概率选取3个数
②、for _ in range(10000)代表从0到9999循环
③、sample.mean()
④np.array(一维数组),有什么用呢
Numpy提供ndarray(N-dimensional array object)对象,存储单一数据类型的多维数组,节约内存和CPU,出自