机器学习中的假设和数理统计中的假设检验

文章目录

内容介绍

有监督的机器学习通常被描述为近似目标函数的问题,该目标函数将输入映射到输出。

这种描述的特点是从假设空间中搜索和评估候选假设。

对于初学者来说,机器学习中关于假设的讨论可能令人困惑,尤其是当假设“在统计学中有着不同但相关的含义。统计假设检验)和更广泛的科学(例如科学假设)。

在这篇文章中,你将发现科学、统计学和机器学习中的假设之间的区别。

  • 科学假说是对可证伪观测的临时解释。
  • 统计假设是对数据总体之间关系的解释,可以用概率来解释。
  • 机器学习假设是一种候选模型,它近似于目标函数,用于将输入映射到输出。
    机器学习中的假设和数理统计中的假设检验

本文分为四个部分:什么是假设、统计假设、机器学习中的假设、对假设的审查。

什么是假设?

假设是对某事的解释。

仅仅是一个暂时的想法,一个有规则的猜测,需要一些评估。

一个好的假设是可以检验的,它可以是正确的,也可以是错误的。

在科学中,一个假设必须是可证伪的,这意味着存在一个检验,其结果可能意味着该假设是不正确的。在测试的结果被知道之前,这个假设也必须被设定。

《What Is This Thing Called Science?,》 1999年
not any hypothesis will do. There is one fundamental condition that any hypothesis or system of hypotheses must satisfy if it is to be granted the status of a scientific law or theory. If it is to form part of science, an hypothesis must be falsifiable.
任何假设都不行。有一个基本条件,即任何假设或假设体系如果要获得科学法律或理论的地位,就必须满足这一条件。如果要成为科学的一部分,一个假设必须是可证伪的。

一个很好的假设符合证据,可以用来预测新的观察或新的情况。

最适合证据并可用于预测的假设称为理论,或者说是理论的一部分。

科学假说 符合证据的临时解释,并可予以证实或反驳。

什么是统计学中的假设?

许多统计数据都与观测之间的关系有关。

统计假设检验是用来计算临界值叫“效应“然后可以解释临界值,以确定如果不存在关系,观察效果的可能性有多大。

如果可能性很小,那么它就表明效果可能是真实的。如果可能性很大,那么我们可能观察到了一个统计波动,而且这种影响可能是不真实的。

例如,我们可能有兴趣评估两个样本的均值之间的关系,例如样本是否来自同一分布,它们之间是否存在差异。

一种假设是,根据数据样本,总体均值之间没有差别。

这是一个没有效果的假设,被称为零假设,我们可以使用统计假设检验来拒绝这个假设,或者拒绝(保留)它。我们不会说“接受”,因为结果是概率性的,而且可能仍然是错误的,只是概率很低。

《Statistics In Plain English》 2010 第三版
we develop a hypothesis and establish a criterion that we will use when deciding whether to retain or reject our hypothesis. The primary hypothesis of interest in social science research is the null hypothesis
我们发展一个假设,并建立一个标准,我们将使用时,以决定是否保留或拒绝我们的假设。社会科学研究兴趣的主要假设是零假设。

如果零假设被拒绝,那么我们假设不同的假设之间存在一定的差异。

零假设(H0) 表明没有效果。
交替假设(H1) 暗示了某种效果。

根据观察到的数据样本,统计假设检验不评论效应的大小,只评论在人群中存在或不存在这种效应的可能性。

统计假设关于观测之间存在关系的概率解释。

机器学习的假设是什么?

机器学习,特别是监督学习,可以描述为希望使用可用数据来学习一种将输入最好地映射到输出的函数。

从技术上讲,这是一个叫做函数近似的问题,在这里,我们正在逼近一个未知的目标函数(假设存在这个函数),它可以最好地将输入映射到来自问题域的所有可能的观测结果。

在机器学习中,一个近似目标函数并执行输入到输出的映射的模型的例子称为假设。

算法的选择(如神经网络)和算法的配置(例如网络拓扑和超参数)定义了模型可能表示的可能假设的空间。

机器学习算法包括在选定的假设空间中导航最接近目标函数的最好或足够好的假设。

《Artificial Intelligence: A Modern Approach》 2009年 第二版
Learning is a search through the space of possible hypotheses for one that will perform well, even on new examples beyond the training set.
学习是在可能的假设空间中搜索一个将表现良好的假设,即使是在训练集之外的新例子上。

机器学习的这种框架是常见的,有助于理解算法的选择、学习和泛化问题,甚至是偏差-方差权衡。例如,训练数据集用于学习假设,测试数据集用于评估假设。

  • h(h) 表示给定的特定假设
  • h(H) 表示正在搜索的假设空间。

H(假设) 一种单一的假设,例如一个实例或特定的候选模型,它将输入映射到输出,并可被评估和用于预测。
H(假设集) 可能的假设空间,用于将输入映射到可搜索的输出,通常受到问题框架的选择、模型的选择和模型配置的选择的限制。

算法和算法配置的选择涉及到选择一个假设空间,该假设空间被认为包含一个对目标函数具有良好或最佳逼近性的假设。这是非常具有挑战性的,而且经常更有效地抽查一系列不同的假设空间。

《 Artificial Intelligence: A Modern Approach》2009年 第二版
We say that a learning problem is realizable if the hypothesis space contains the true function. Unfortunately, we cannot always tell whether a given learning problem is realizable, because the true function is not known.
我们认为,如果假设空间包含真正的函数,那么学习问题是可实现的。不幸的是,我们不能总是判断给定的学习问题是否可以实现,因为真正的函数是未知的。

这是一个困难的问题,我们选择限制假设空间的大小和复杂性的假设被评估,以使搜索过程的可控性。

《 Artificial Intelligence: A Modern Approach》2009年 第二版
There is a tradeoff between the expressiveness of a hypothesis space and the complexity of finding a good hypothesis within that space.
在假设空间的表现力和在这个空间中找到一个好的假设的复杂性之间有一种权衡。

机器学习中的假设 近似目标函数的候选模型,用于将输入实例映射到输出。

对假设的审查

我们可以将这三个定义再次归纳如下:

  • 科学假说 符合证据的临时解释,并可予以证实或反驳。
  • 统计假设 关于观测之间存在关系的概率解释。
  • 机器学习中的假设 近似目标函数的候选模型,用于将输入实例映射到输出。

我们可以看到,机器学习中的假设借鉴了科学中更广泛的假设的定义。

就像科学中的假设是一种解释,它涵盖了现有的证据,是可证伪的,可以用来预测未来的新情况,机器学习中的假设也具有类似的性质。

机器学习的假设:

  • 涵盖现有证据 训练数据集。
  • 可伪造的(种类) 预先设计了一个测试工具,用于评估性能,并将其与基线模型进行比较,以确定是否熟练。
  • 可以在新的情况下使用 对新数据作出预测。

看了关于机器学习中的假设是你还有什么的问题吗?

上一篇:CF1481B New Colony 题解


下一篇:hypothesis test