NE2018届校招内推笔试——数据挖掘

【单选题|2分/题】

1、在只有两类的情况下,二维特征向量通过共享相同的协方差矩阵的正态分布生成,其中协方差矩阵为:NE2018届校招内推笔试——数据挖掘

均值向量分别为NE2018届校招内推笔试——数据挖掘:,则根据贝叶斯分类,样本NE2018届校招内推笔试——数据挖掘分类为:()

A. 分类2

B. 无法确定到两个类的距离,无法确定

C. 到两个类的距离相等,分类1或者分类2都可

D. 分类1

2、以下C语言和C++语言比较中错误的是()

A. C语言和C++的struct意义和用法一致

B. C++ 是面向对象的语言,C语言是面向过程的语言

C. C语言不能使用继承技术,但C++可以

D. C语言绝大部分语法适用于C++

3、Java是一门面向对象的编程语言,下面关键字中能够表示Java面向对象的特性是()

A.  volatite , implements

B. static , void

C. abstract , interface

D. extends , interface

GXJ:D

4、在最小二乘法中,目标函数为 EXEY|X([Y-f(X)]2|X),如果将[Y-f(X)]2换成|Y-f(X)|,则f(X)解为:()

A. avg (Y|X=x)

B. median (Y|X=x)

C. E (Y|X=x)

D. E (Y2|X=x)

5、以下关于Python数据结构说法正确的是:()

A. Python中list 的元素可以是 tuple

B. Python 中tuple 可以动态更新,但是不容许嵌套

C. Python中list 可以动态的更新,但是不容许嵌套

D. Python 中dict 保存键值对,并且键值对是有序的

GXJ:A

6、通常可以通过关联规则挖掘来发现啤酒和尿布的关系,那么如果对于一条规则A→B,如果同时购买A和B 的顾客比例是4/7,而购买A的顾客当中也购买了B的顾客比例是1/2,而购买B的顾客当中也购买了A的顾客比例是1/3,则以下对于规则A→B的支持度(support)和置信度(confidence)分别是多少?()

A. 4/7 , 2/3

B. 3/7 , 1/2

C. 4/7 , 1/3

D. 4/7, 1/2

LLT :C ?D?

7、哪个不是DDL(数据库定义语言)语句?()

A. CREATE

B. GRANT

C. RENAME

D. ALTER

NE2018届校招内推笔试——数据挖掘

8、用户通过搜索后点击找到所需信息,一般检索系统会通过点击的信息熵和term的权重来进行策略定位,则以下说法正确的是()

A. term的信息熵越大,term权重越大,则定位的页面越准确

B. term的信息熵越大,term权重越小,则定位的页面越准确

C. term的信息熵越小,term权重越小,则定位的页面越准确

D. term的信息熵越小,term权重越大,则定位的页面越准确

9、如果存在文本文件 /tmp/testfile,并且文件行数小于等于10行,则输出文件前3行,下列脚本正确的是()

A.

If  [[ -f  ‘ /tmp/testfile ’ ]]  &&  [[ ‘ wc  -l  /tmp/testfile’  -le 10 ]] ;

then head -3  /tmp/testfile

fi

B.

[[ -f  ‘ /tmp/testfile ’ ]]  ||  [[ ‘ wc  -l  /tmp/testfile’  -le 10 ]] ;

then head -3  /tmp/testfile

fi

C.

[[ -n  ‘ /tmp/testfile ’ ]]  ||  [[ ‘ wc  -l  /tmp/testfile’  -le 10 ]] ;

then head -3  /tmp/testfile

fi

D.

[[ -n  ‘ /tmp/testfile ’ ]]  &&  [[ ‘ wc  -l  /tmp/testfile’  -le 10 ]] ;

then head -3  /tmp/testfile

fi

GXJ:A

10、在高斯混合分布中,其隐变量的含义是:()

A. 表示高斯分布的均值

B. 表示数据从每个高斯分布产生的概率

C. 表示数据从某个高斯分布产生

D. 表示高斯分布的方差

GXJ:C

ME:B?

11、以下意图哪个是用来描述 OBSERVER(观察者)?(C)

A. 将抽象部分与它的实现部分分离,使它们都可以独立地变化

B. 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象

C. 定义对象间的一种一对多的依赖关系,当一个对象的状态发生变化时,所有依赖于它的对象都得到通知并被自动更新

D. 使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系

12、Python读取文件内容并且生成迭代器,以下做法正确的是:()

A. (f  for  f  in  file  (  ‘ testfile’  , ’r’ ))

B. (f  for  f  in  file  (  ‘ testfile’  , ’w’ ))

C. [ f  for  f  in  file  (  ‘ testfile’  , ’w’ ) ]

D. [f  for  f  in  file  (  ‘ testfile’  , ’r’ ) ]

GXJ:A

13、设(x_n)服从独立同分布,NE2018届校招内推笔试——数据挖掘,则当n 趋向于无穷大时,下式值为:

NE2018届校招内推笔试——数据挖掘

A.  0

B.  2

C.  1

D.  无穷大

14、以下关于最小二乘法正确是()

A.  最小二乘估计是线性无偏估计中方差最大的

B.  最小二乘估计是线性无偏估计中方差最小的

C.  最小二乘估计是线性有偏估计中方差最小的

D.  最小二乘估计是线性有偏估计中方差最大的

LLT :B

15、现在一个抽象类中定义一个方法如下:

public abstract void getUserInfo ( String userId ,int age );

下面哪个选项不是该方法的重载?()

A.  public abstract int getUserInfo (int age ,  String userId );

B.  public abstract void  getUserInfo (String userId ,int age ,int sex );

C.  public abstract void  getUserInfo (String name ,int age ,int sex );

D.  public abstract void  getUserInfo (String userId, String name );

16、小明在一次班*二人竞选中,支持率为百分之五十五,而置信水平0.95以上的置信区间为百分之五十到百分之六十,请问小明未当选的可能性有可能是()

A.  50%

B.  0%

C.  6%

D.  40%

17、

单链表的每个结点中包括一个指针 next ,它指向该结点的后继结点。现要将指针q 指向的新结点插入到指针p 指向的单链表结点之后中的哪一个是正确的?()

A.  p→next=1;q→next= p→next

B.  p= p→next= q→next;p→next

C.  q= p→next;p→next= q→next

D.  q→next= p→next;p→next=q

LLT :D

GXJ: B

18、以下目标函数说法正确的是:()

NE2018届校招内推笔试——数据挖掘

A.  最小二乘 + L2

B.  最大似然估计 – alastic net

C.  最小二乘 + alastic net

D.  最小二乘 +L1

19、SVD经常作为特征降维的一种有效方法,对于以下四个样本,

X1={ 6 ,6 } ,X2={ 0 ,1 } ,X3={ 4 ,0 } ,X4={ 0 ,6 }

如果采用SVD的特征处理方式后,只保留最大特征值,则SVD后的样本向量的均方差误差为:

A.  25

B.  125

C.  625

D.  100

20、以下不属于非监督学习的是:()

A.  Kmeans

B.  Knn

C.  Word2vec

D.  关联规则

GXJ:KNN是监督

【编程题】

[编程题 | 20分] 等差数列

时间限制:1秒

空间限制:32768K

如果一个数列S满足对于所有的合法的i,都有S[i + 1] = S[i] + d, 这里的d也可以是负数和零,我们就称数列S为等差数列。
小易现在有一个长度为n的数列x,小易想把x变为一个等差数列。小易允许在数列上做交换任意两个位置的数值的操作,并且交换操作允许交换多次。但是有些数列通过交换还是不能变成等差数列,小易需要判别一个数列是否能通过交换操作变成等差数列

输入描述:

输入包括两行,第一行包含整数n(2 ≤ n ≤ 50),即数列的长度。

第二行n个元素x[i](0 ≤ x[i] ≤ 1000),即数列中的每个整数。

输出描述:

如果可以变成等差数列输出"Possible",否则输出"Impossible"。

输入例子1:

3

3 1 2

输出例子1:

Possible

[编程题] 独立的小易

时间限制:1秒

空间限制:32768K

小易为了向他的父母表现他已经长大独立了,他决定搬出去自己居住一段时间。一个人生活增加了许多花费: 小易每天必须吃一个水果并且需要每天支付x元的房屋租金。当前小易手中已经有f个水果和d元钱,小易也能去商店购买一些水果,商店每个水果售卖p元。小易为了表现他独立生活的能力,希望能独立生活的时间越长越好,小易希望你来帮他计算一下他最多能独立生活多少天。

输入描述:

输入包括一行,四个整数x, f, d, p(1 ≤ x,f,d,p ≤ 2 * 10^9),以空格分割

输出描述:

输出一个整数, 表示小易最多能独立生活多少天。

输入例子1:

3 5 100 10

输出例子1:

11

[编程题] 堆棋子

时间限制:1秒

空间限制:32768K

小易将n个棋子摆放在一张无限大的棋盘上。第i个棋子放在第x[i]行y[i]列。同一个格子允许放置多个棋子。每一次操作小易可以把一个棋子拿起并将其移动到原格子的上、下、左、右的任意一个格子中。小易想知道要让棋盘上出现有一个格子中至少有i(1 ≤ i ≤ n)个棋子所需要的最少操作次数。

输入描述:

输入包括三行,第一行一个整数n(1 ≤ n ≤ 50),表示棋子的个数

第二行为n个棋子的横坐标x[i](1 ≤ x[i] ≤ 10^9)

第三行为n个棋子的纵坐标y[i](1 ≤ y[i] ≤ 10^9)

输出描述:

输出n个整数,第i个表示棋盘上有一个格子至少有i个棋子所需要的操作数,以空格分割。行末无空格

如样例所示:

对于1个棋子: 不需要操作

对于2个棋子: 将前两个棋子放在(1, 1)中

对于3个棋子: 将前三个棋子放在(2, 1)中

对于4个棋子: 将所有棋子都放在(3, 1)中

输入例子1:

4

1 2 4 9

1 1 1 1

输出例子1:

0 1 3 10

【问答题|20分】

题目描述:网易云音乐的用户量已经超过了2亿,作为一款大众音乐播放产品,请你综合考虑,为他们设计一个好的歌曲推荐算法。

网易云音乐的歌单推荐算法是怎样的?

网易云音乐:3种推荐维度和2种推荐算法漫谈

只是一种猜想:云音乐的推荐算法

上一篇:阿里提前批校招内推offer经历


下一篇:逗号分隔的字符串转换为行数据(collection)