本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中的第2章,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。
第2章 通过理解数据来了解问题
Python机器学习——预测分析核心算法
新数据集(问题)就像一个包装好的礼物,它充满了承诺和希望。一旦你能解决它,你就收获了喜悦。但是直到你打开它,它都一直保持着神秘。本章就是告诉你怎么“打开”新的数据集,看清楚里面都有什么,知道如何处置这些数据,并且开始思考如何利用这些数据构建相应的模型。
本章有两个目的:一是熟悉这些数据集,这些数据集被用来作为解决各种类型问题的例子,主要是利用第4章和第6章介绍的算法;另一个目的就是展示Python中分析数据的工具包。
本章用一个简单的例子来回顾基础问题的架构、术语、机器学习数据集的特性。此节介绍的术语将在本书后续章节中用到。在了解了通用的术语后,本章将会依次介绍几类不同的函数逼近问题。这些问题阐明了机器学习问题的通常变体,这样就知道如何识别这些变化,并且知道如何处理它们(本节提供代码实例)。