【面试相关】数据分析面试Q&A

机器学习部分:

Q:逻辑回归
Q:SVM
Q:决策树
Q:随机森林
Q:特征工程
Q:建模具体过程
Q:Python常用的包
Q:线性回归中多重共线性是什么?如果发生多重共线性,R2会怎么变?
Q:Auc
Q:模型评估指标的选择
Q:PCA
高维(上万)能不能用pca我也不太清楚,感觉不能,运算应该不会太友好,而且pca主要是消除变量之间的线性相关性,高维数据降维后可能会忽略掉一些重要特征的信息,用lasso应该更好一些。onehot不能用pca,因为onehot生成的特征肯定是线性无关的

统计学部分:

Q:假设检验
Q:置信区间&置信度&置信性
【统计】某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:
Q:显著性水平
Q:辛普森悖论
Q:概率和似然是什么
Q:相关系数和协方差
Q:F检验,z统计量,t统计量
Q:切比雪夫不等式
Q:皮尔逊和斯皮尔曼系数
Q:偏态分布怎么处理
Q:数据倾斜

sql部分:

Q:Union和Join的区别
Q:Sql执行顺序
Q:sql行转列
Q:除了distinct 还有什么方法去重
Q:什么情况下索引不命中
Q:试一下连接数据库

Excel部分:

Q:讲一下Vlookup的用法和每个字段含义

业务方面:

Q:介绍一个数据分析项目
Q:次留,七留
Q:留存率下降怎么办
Q:DAU下降怎么办
Q:怎么衡量短视频生态
Q:Abtest实际经验
Q:APP指标拆解
Q:抖音优缺点,对比快手
Q:第一类错误,第二类错误,怎么降低第一类错误

大数据部分:
Q:Hive,hadoop原理

上一篇:sklearn中的降维算法(PCA)(原理相关)-1


下一篇:机器学习day11降维