参考https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html#sklearn.ensemble.IsolationForest.fit
class sklearn.ensemble.IsolationForest(n_estimators=100, max_samples=’auto’, contamination=’legacy’, max_features=1.0, bootstrap=False, n_jobs=None, behaviour=’old’, random_state=None, verbose=0, warm_start=False)
孤立森林算法
使用孤立森林算法对每个样本返回异常分数
孤立森林通过随机选取一个特征来“隔离”观察,然后随机选取该选取特征在数据集中最大、最小值之间的某个值做分割值
当递归分区能够被一个树结构表示时,需要用来隔离一个样本的分割值数量等价于从树的根节点寻找到该样本的终端节点经过的路径长度
这个路径长度,是在这样的随机树的森林中平均得到的,是一个衡量标准和我们的决策函数
随机分区为异常生成明显更短的路径。因此当一个随机树森林为某个样本共同生成一个更短的路径长度时,就说明该样本很可能是异常点
New in version 0.18.
参数:
- 1)n_estimators : int, optional (default=100) 指定该森林中生成的随机树数量
- 2)max_samples : int or float, optional (default=”auto”)
- 用来训练随机数的样本数量,即子采样的大小
- 如果设置的是一个int常数,那么就会从总样本X拉取max_samples个样本来生成一棵树iTree
- 如果设置的是一个float浮点数,那么就会从总样本X拉取max_samples * X.shape[0]个样本,X.shape[0]表示总样本个数
- 如果设置的是"auto",则max_samples=min(256, n_samples),n_samples即总样本的数量
- 如果max_samples值比提供的总样本数量还大的话,所有的样本都会用来构造数,意思就是没有采样了,构造的n_estimators棵iTree使用的样本都是一样的,即所有的样本
- 3)contamination : float in (0., 0.5), optional (default=0.1)
- 取值范围为(0., 0.5),表示异常数据占给定的数据集的比例
- 数据集中污染的数量,其实就是训练数据中异常数据的数量,比如数据集异常数据的比例。定义该参数值的作用是在决策函数中定义阈值。如果设置为'auto',则决策函数的阈值就和论文中定义的一样
在版本0.20中有变化:默认值从0.1变为0.22版本中的'auto'
- 4)max_features : int or float, optional (default=1.0)
- 指定从总样本X中抽取来训练每棵树iTree的属性的数量,默认只使用一个属性
- 如果设置为int整数,则抽取max_features个属性
- 如果是float浮点数,则抽取max_features * X.shape[1]个属性
- 5)bootstrap : boolean, optional (default=False)
如果为True,则各个树可放回地对训练数据进行采样。如果为False,则执行不放回的采样。
- 6)n_jobs : int or None, optional (default=None)
在运行fit()和predict()函数时并行运行的作业数量。除了在joblib.parallel_backend上下文的情况下,None表示为1。设置为-1则表示使用所有可用的处理器
- 7)behaviour : str, default=’old’
决策函数decision_function的行为,可以是'old'和'new'。设置为behaviour='new'将会让decision_function去迎合其他异常检测算法的API,这在未来将会设置为默认值。正如在offset_属性文档中详细解释的那样,decision_function变得依赖于contamination参数,以0作为其检测异常值的自然阈值。
New in version 0.20:behaviour参数添加到了0.20版本中以实现后向兼容
behaviour='old'在0.20版本中以经弃用,在0.22版本中将不能使用
behaviour参数将在0.22版本中弃用,将在0.24版本中移除
- 8)random_state : int, RandomState instance or None, optional (default=None)
- 如果设置为int常数,则该random_state参数值是用于随机数生成器的种子
- 如果设置为RandomState实例,则该random_state就是一个随机数生成器
- 如果设置为None,该随机数生成器就是使用在np.random中的RandomState实例
-
9)verbose : int, optional (default=0) 控制树构建过程的冗长性
- 10)warm_start : bool, optional (default=False)
- 当设置为True时,重用上一次调用的结果去fit,添加更多的树到上一次的森林1集合中;否则就fit一整个新的森林
- 属性:
- 1)estimators_ : list of DecisionTreeClassifier
- 构造好的子树的集合
-
2)
estimators_samples_
: list of arrays - 每个子树抽取的样本的子集
- 3)max_samples_ : integer
- 样本的真正数量
- 4)offset_ : float
- offset用来从原始分数开始定义决策函数,其关系是decision_function = score_samples - offset_。假设behaviour == ‘new’,则offset_如下定义:
- 当contamination参数设置为'auto',当inliers的得分接近0且outliers的得分接近-1时,偏移量等于-0.5;
- 当提供与“auto”不同的contamination参数时,则以在训练中获取期望的异常个数的方式来定义偏移量(决策函数< 0的样本)。
- 假设behaviour ==“old”,我们总是有offset_ = -0.5,使得决策函数独立于contamination参数。
- 注意:其实现是基于一系列的ExtraTreeRegressor。每个树的最大深度设置为ceil(log_2(n)),其中n是用于构建树的样本数量
- 方法:
decision_function (self, X) |
基本分类器对样本X的计算得到的平均异常分数 |
fit (self, X[, y, sample_weight]) |
训练函数 |
fit_predict (self, X[, y]) |
对X进行训练,并返回X的标签,即异常或正常;等价于先运行fit()再运行predit() |
get_params (self[, deep]) |
得到该森林的参数 |
predict (self, X) |
预测一个采样是否为异常 |
score_samples (self, X) |
与原文中定义的异常值相反。 |
set_params (self, \*\*params) |
设置该森林的参数 |
初始化:
__init__(self, n_estimators=100, max_samples=’auto’, contamination=’legacy’, max_features=1.0, bootstrap=False, n_jobs=None, behaviour=’old’, random_state=None, verbose=0, warm_start=False)
1.decision_function
(self, X)
基本分类器对样本X的计算得到的平均异常分数
输入样本的异常值计算即计算森林中树的平均异常值。
对于一棵给定的树,观测结果的正常性的度量是包含在该观测结果的叶子的深度,这等于分离这一点所需的分裂次数。当叶片中有几个观察值为n_left时,将添加一个n_left样例隔离树的平均路径长度。
参数:
- 1)X : array-like or sparse matrix, shape (n_samples, n_features)
- 输入样本。将在内部转换为类型dtype=np.float32,如果一个稀疏矩阵被提供给一个稀疏的csr_matrix
- 返回:
- 1)scores : array, shape (n_samples,)
输入样本的异常分数。越低越可能是异常,负数表示为异常,整数表示为正常
estimators_samples_
构造好的子树的抽取的样本的集合
返回一个动态生成的索引列表,该列表标识用于构造森林中每棵树的样本。
注意:在每次调用该属性时都会重新创建该列表,以便通过不存储采样数据来减少对象内存占用。因此,获取属性的速度可能比预期的要慢。
-
2.fit
(self, X, y=None, sample_weight=None) - 训练函数,构建森林
- 参数:
- 1)X : array-like or sparse matrix, shape (n_samples, n_features)
- 输入样本。为得到最大效率使用dtype=np.float32。也支持稀疏矩阵,为得到最大效率使用csc_matrix
- 2)sample_weight : array-like, shape = [n_samples] or None
- 样本权重。如果为None,则每个样本的权重相等
- 3)y : Ignored
- 不使用,表示API的一致性
- 返回:
- self : object
- 3.
fit_predict
(self, X, y=None) - 对样本X训练并返回样本的标签结果,即是异常或正常
- 返回-1表示异常,1表示正常
- 参数:
- 1)X : ndarray, shape (n_samples, n_features)
- 输入数据
- 2)y : Ignored
- 不使用,表示API的一致性
- 4.
get_params
(self, deep=True) - 得到该森林的参数
- 参数:
- deep : boolean, optional
- 如果为True,则将返回此森林estimator的参数以及包含的作为森林estimator的子对象。
- 返回:
- params : mapping of string to any
- 返回映射于其值的参数名
-
5.predict
(self, X) - 预测某个样本是否是异常
- 参数:
- X : array-like or sparse matrix, shape (n_samples, n_features)
- 输入样本。将在内部转换为类型dtype=np.float32,如果一个稀疏矩阵被提供给一个稀疏的csr_matrix
- 返回:
- is_inlier : array, shape (n_samples,)
- 对于每个观测值,根据拟合好的模型,判断是否为一个异常点,返回值为+1或-1。
-
6.score_samples
(self, X)
与原文中定义的异常值相反 - 输入样本的异常值计算为森林中树木的平均异常值。
- 对于一棵给定的树,观测结果的正常性的度量是包含在该观测结果的叶子的深度,这等于分离这一点所需的分裂次数。当叶片中有几个观察值为n_left时,将添加一个n_left样例隔离树的平均路径长度。
- 参数:
- X : array-like or sparse matrix, shape (n_samples, n_features)
- 输入样本
- 返回:
- 输入样本的异常分数。越低越可能是异常
-
7.set_params
(self, **params)
设置该森林(estimator)的参数