大数据基础--R语言（刘鹏《大数据》课后习题答案）

2023-07-24 08:13:04

1.R语言是解释性语言还是编译性语言？

　　解释性语言

2.简述R语言的基本功能。

　　R语言是一套完整的数据处理、计算和制图软件系统，主要包括以下功能：

　　　　（１）数据存储和处理功能，丰富的数据读取与存储能力，丰富的数据处理功能。

　　　　（２）数组运算工具

　　　　（３）完整连贯的统计分析工具

　　　　（４）优秀的统计制图功能

3.R语言通常用在哪些领域？

　　人工智能、统计分析、应用数学、计量经济、金融分析、财经分析、生物信息学、数据可视化与数据挖掘等。

4.R语言常用的分类和预测算法有哪些？

　　（１）Ｋ－近邻算法，如果一个样本与特征空间中的K个最相似（特征空间最近邻）的样本中的大多数属于某一个类别，则该样本也属于这一类别。

　　（２）决策树，是一种依托于分类、训练上的预测树，根据已知预测、归类未来。

　　（３）支持向量机，是一个二分类的办法，即将数据集中的数据分为两类。

5.简述如何利用R程序包进行数据分析、建模和数据预测。

　　数据集加载－＞数据集中的数据分析－＞无效数据处理－＞预测模型的构建－＞模型的评价与选择－＞实际需求预测－＞完成对应用需求的实现预测

6.如何使用“聚类”和“分类”对数据样本进行分组。

　　“聚类”和“分类”都可以从历史数据纪录中自动推导出给定数据的推广描述，从而能对未来数据进行预测。不同的是，“分类”算法需要用训练样本构造分类器，且样本数据集中的每个样本除了具有类别特征向量外，还需要类别标记。而“聚类”的样本没有标记，需要由聚类学习算法来自动确定。

7.SparkR DataFrame的作用有哪些？

　　（１）它允许数据科学家分析大规模数据集，并通过R　Shell交互的在SparkR上运行作业。

　　（２）数据来源非常广泛，可处理多种类型数据。

　　（３）高拓展性，可以轻易用于TB级数据的处理及水平服务器的拓展。

　　（４）会查询优化器自动优化，可为计算加速制定智能的决策。

　　（５）对RDD　API的支持，可高效地进行分布式数据计算与分析，解决大规模数据集带来的挑战。

8.简述SparkR与机器学习的关系。

　　SparkR提供了对机器学习的支持，可实现多种机器学习算法，例如广义线性模型、加速失效时间生存回归模型、朴素贝叶斯模型、K-means模型等。

码农公寓