【SCAU数据挖掘】数据挖掘期末总复习题库选择题及解析

2024-06-14 07:13:58

1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )
A.频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘

解析：数据预处理是数据分析和数据挖掘的重要步骤之一，包括数据清洗、集成、变换、规约（如维度规约、数值规约）等。这些步骤的目的是为了改善数据质量，使其更适合于后续的分析和挖掘任务。
频繁模式挖掘：这是数据挖掘中的一种技术，用于发现数据集中频繁出现的模式或项集。
分类和预测：这是数据挖掘的目标之一，分类是对数据进行分类，预测是预测未来的值或趋势。
数据流挖掘：这是处理连续到达的数据流（如实时数据）的挖掘技术。

2.简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作( B )。
A.层次聚类 B.划分聚类 C.非互斥聚类 D.模糊聚类

解析：划分聚类是将数据集划分为K个（K是给定的）不重叠的子集（或称为簇），每个数据点都属于且仅属于一个簇。
层次聚类：这是一种聚类方法，创建了一个层次化的聚类树，其中每个簇都是树中的一个节点。
非互斥聚类：这不是一个标准的聚类类型术语。在聚类中，数据点通常被分配到唯一的簇中，因此它们是“互斥”的。但有一些聚类方法（如模糊聚类）允许数据点以某种程度属于多个簇，但这与“非互斥”的定义不完全一致。
模糊聚类：这是一种聚类方法，其中每个数据点可以以不同的隶属度属于多个簇。

3.下表是一个购物篮，假设支持度阈值为40%，其中( AD )是频繁闭项集。
TID   项
1   abc
2   abcd
3   bce
4   acde
5   de

A.abc B. ad C.cd D.de

解析：在关联规则挖掘中，频繁项集是指满足最小支持度阈值的项集。支持度是指项集在所有事务中出现的频率。给定支持度阈值为40%，即至少需要在40%的事务中出现才被认为是频繁的。
计算每个项集的支持度，找出频繁项集（即支持度大于或等于40%的项集）：

最后，频繁闭项集是那些没有超集的频繁项集。我们可以看到，de 没有更大的项集（如ade或bde）是频繁的，因此de是频繁闭项集。

频繁闭项集是一个频繁项集，且它的所有超集都不是频繁的。

abc 的超集 abcd 和 abce 都不是频繁的（因为支持度低于40%），所以 abc 是频繁闭项集。
ad 的超集 ade 是频繁的（支持度为 80%），所以 ad 不是频繁闭项集。
cd 的超集 cde 是频繁的（支持度为 60%），所以 cd 不是频繁闭项集。
de 本身就是一个项集，没有超集，且是频繁的，但没有任何超集。

4.Nave Bayes是一种特殊的贝叶斯分类器，特征变量是X，类别标签是C，它的一个假定是：(C )。
A.各类别的先验概率P(C)是相等的
B.以0为均值，sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量
D.P(X|C)是高斯分布

解析：Nave Bayes分类器基于一个关键假设：特征变量（给定类别下）是类别条件独立的随机变量。这意味着，在给定类别的条件下，一个特征的出现概率不会受到其他特征的影响。

Nave Bayes（朴素贝叶斯）分类器是一种特殊的贝叶斯分类器，其中特征变量是X，类别标签是C。
A选项朴素贝叶斯并不要求各类别的先验概率相等。
B选项以0为均值，sqr(2)/2为标准差的正态分布。描述了一个特定的正态分布，但并不是朴素贝叶斯分类器的基本假定。朴素贝叶斯分类器可以处理各种分布的数据，而不仅限于正态分布。
C. 特征变量X的各个维度是类别条件独立随机变量，这是朴素贝叶斯分类器的核心假定。它假设在给定类别C的条件下，特征变量X的各个维度（即各个特征）是相互独立的。这意味着一个特征的出现概率不会受到其他特征的影响，从而简化了模型的计算。
D选项，朴素贝叶斯可以处理不同类型的特征分布，包括但不限于高斯分布。

5.某超市研究销售记录数据后发现，买啤酒的人很大概率也会购买尿布，这属于数据挖掘的哪类问题?( A )
A.关联规则发现 B.聚类 C.分类 D.自然语言处理

解析：买啤酒的人很大概率也会购买尿布是一个典型的关联规则发现问题。关联规则挖掘用于发现数据集中项之间的有趣关系，如“如果购买了A，那么很可能也会购买B”。在这个例子中，A是啤酒，B是尿布。

6.()是一个观测值，它与其他观测值的差别很大，以至于怀疑它是由不同的机制产生的。
A.边界点 B.离群点 C.核心点 D.质心

解析：离群点（Outlier）是一个观测值，它与其他观测值存在显著的差异，以至于怀疑它可能是由不同的机制产生的。

边界点：边界点指的是位于不同聚类边缘或边界上的数据，不属于任何特定的聚类中心，而是位于两个或多个聚类之间的区域，它们只是位于聚类的边缘。
核心点：核心点指的是聚类内部的点，即距离聚类中心较近的点，往往代表了聚类的主要特征和结构，核心点不受到离群点的影响，因为它们位于聚类的中心区域。
质心：质心通常用于描述一个集合（如聚类）的中心或重心。在聚类分析中，质心可以是一个点（如平均值点），用于表示聚类中所有点的中心位置。质心在迭代聚类算法（如K-means算法）中起着重要作用，因为它可以帮助确定新的聚类中心位置。然而，质心本身并不是一个观测值，而是由观测值计算得出的一个统计量。

7.影响聚类算法效果的主要原因有(ABC)。
A.特征选取 B.模式相似性测度
C.分类准则 D.已知类别的样本质量

解析：聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。

聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(Density-Based Methods)、基于网格的方法(Grid-Based Methods)、基于模型的方法(Model-Based Methods)、谱聚类(Spectral Clustering)等,不用的方法(分类准则)对聚类效果存在差异(C正确)

特征选取的差异会影响聚类效果(A正确)。

聚类的目标是使同一类对象的相似度尽可能地大,因此不同的相似度测度方法对聚类结果有着重要影响(B正确)。

由于聚类算法是无监督方法,不存在带类别标签的样本,因此,D选项不是聚类算法的输入数据。

8.在分类问题中，我们经常会遇到正负样本数据量不等的情况，比如正样本有10万条数据，负样本只有1万条数据，以下最合适的处理方法是( ACD)。
A.将负样本重复10次，生成10万样本量，打乱顺序参与分类
B.直接进行分类，可以最大限度地利用数据
C.从10万正样本中随机抽取1万参与分类
D.将负样本每个权重设置为10，正样本权重为1，参与训练过程

解析：在正负样本数据量不等的情况下，通常采取的措施是调整样本的权重，而不是简单地重复样本或随机抽取样本。D选项中将负样本的权重设置为10，正样本的权重设置为1，是一种常用的做法，以平衡正负样本对分类器训练的影响。

A.重采样，改变数据分布消除不平衡

C欠采样，提高少数类的分类性能，可能丢失多数类的重要信息

码农公寓

相关文章