读书笔记《集体智慧编程》Chapter 9 : Advanced Classification: Kernel Methods and SVMs

2021-09-22 10:17:38

本章概要

本章介绍了线性分类器和支持向量机（Supprt Vector Machine, short for SVM）。同时，还介绍了一些数据预处理的相关实践。SVM的原理比较高深，本章没有详细的说明，只是介绍了如何采用python中的LIBSVM库，进行SVM的训练和预测。线性分类器虽然简单，但是与SVM还是有一定联系，所以本章最开始介绍了线性分类器。

决策树的不足

本章给出的例子是交友网站上的配对预测，经过数据预处理后，主要是一些数值数据。使用决策树分类，会发现节点基本上是在同一类数据上不同值之间来回变化，比如年龄（如下图）。所以，决策数并不适合数值关系负责，没有明确分割点的数据分类。

数据伸缩

对于一个向量v=(x1, x2)；如果x1的作用域为[1 ~ 100],而x2的作用域为[0~1]，那么比较两个同类向量时，x1的贡献比x2大。但是这是我们不希望看到的，所以可以对x1进行伸缩变换，将其等价的映射到【0~1】中的某个值。

线性分类 & Kernel Method & SVM

上面这几个概念，书上均是通过一些例子讲解，虽然可以看懂，但是感觉还是没有讲到原理。这个可以后续深入研究，目前先有个映像。SVM可以用来分类，而且效果比线性分类好，可以适应复杂数值数据的场景。

本文转自bourneli博客园博客，原文链接：http://www.cnblogs.com/bourneli/archive/2012/11/22/2783201.html，如需转载请自行联系原作者

码农公寓

相关文章