task1 异常检测介绍
一、什么是异常检测
异常检测,顾名思义是识别与正常数据不同的数据,与预期⾏为差异⼤的数据。识别如信⽤卡欺诈,⼯业⽣产异常,⽹络流⾥的异常(⽹络侵⼊)等问题,针对的是少数的事件。异常检测的场景有故障检测、物联⽹异常检、测欺诈检测、⼯业异常检测、时间序列异常检测、视频异常检测、⽇志异常检测、医疗⽇常检测、⽹络⼊侵检测等。
二、异常检测的类别
- 点异常 :只有少数样本是异常,总体是正常的;
- 上下文异常 :指的是在特定情境下个体实例是异常的,在其他情境下都是正常的;
- 群体异常 :指的是在群体集合中的个体实例出现异常的情况,而该个体实例⾃⾝可能不是异常。
三、任务分类
- 有监督 :训练集的正例和反例均有标签(注意类别不均衡现象);
- 无监督 :训练集⽆标签(异常检测最常见的数据集类型);
- 半监督 :在训练集中只有单⼀类别(正常实例)的实例,没有异常实例参与训练。
三、异常检测的常用方法
-
传统方法 :
① 统计学方法:遵循大数定律,对数据集进行拟合成为一个概率模型,把概率小的数据归类为异常数据(长尾分布、3q准则);
② 线性模型:使用主成分分析对数据进行降维,降维后的数据能够最⼤程度地保留原始数据的特征(以数据协⽅差为衡量标准)。主成分分析(PCA)的原理是通过构造⼀个新的特征空间,把原数据映射到这个新的低维空间⾥。PCA可以提⾼数据的计算性能,并且缓解"⾼维灾难"。
③ 相似度模型:
基于簇的检测: 聚类算法,将不能被归为某个簇的点视为异常点;
基于距离的检测:如KNN算法,将距离正常点较远的点归类为异常点;
基于密度的检测:如LOF算法,将相对于其邻居的局部密度偏差较大的样本点视为异常点。 - 集成方法 :常⽤的集成⽅法有Feature bagging,孤⽴森林等;
- 机器学习 :在有标签的情况下,可以使⽤树模型(gbdt,xgboost等)进⾏分类,缺点是异常检测场景下数据标签是不均衡的,但是利⽤机器学习算法的好处是可以构造不同特征。
四、学习异常检测的常用API–PyOD
Python Outlier Detection(PyOD)是当下最流行的Python异常检测工具库,包括近20种常见的异常检测算法;支持不同版本的Python,包括2.7和3.5+;支持多种操作系统,windows,macOS和Linux;简单易用且一致的API,只需要几行代码就可以完成异常检测,方便评估大量算法
使用JIT和并行化(parallelization)进行优化,加速算法运行及扩展性(scalability),可以处理大量数据,下面采用官网的一个例子进行练习:
# -*- coding: utf-8 -*-
"""Example of using kNN for outlier detection
"""
# Author: Yue Zhao <zhaoy@cmu.edu>
# License: BSD 2 clause
#from __future__ import division
#from __future__ import print_function
#import os
#import sys
# temporary solution for relative imports in case pyod is not installed
# if pyod is installed, no need to use the following line
#sys.path.append(
# os.path.abspath(os.path.join(os.path.dirname("__file__"), '..')))
from pyod.models.knn import KNN #KNN algorithm
from pyod.utils.data import generate_data #test generation
from pyod.utils.data import evaluate_print #evaluate the result
from pyod.utils.example import visualize # draw the result
if __name__ == "__main__":
contamination = 0.1 # percentage of outliers
n_train = 200 # number of training points
n_test = 100 # number of testing points
# Generate sample data
X_train, y_train, X_test, y_test = \
generate_data(n_train=n_train,
n_test=n_test,
n_features=2,
contamination=contamination,
random_state=42)
# train kNN detector
clf_name = 'KNN'
clf = KNN()
clf.fit(X_train)
# get the prediction labels and outlier scores of the training data
y_train_pred = clf.labels_ # binary labels (0: inliers, 1: outliers)
y_train_scores = clf.decision_scores_ # raw outlier scores
# get the prediction on the test data
y_test_pred = clf.predict(X_test) # outlier labels (0 or 1)
y_test_scores = clf.decision_function(X_test) # outlier scores
# evaluate and print the results
print("\nOn Training Data:")
evaluate_print(clf_name, y_train, y_train_scores)
print("\nOn Test Data:")
evaluate_print(clf_name, y_test, y_test_scores)
# visualize the results
visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
y_test_pred, show_figure=True, save_figure=True)
生成一个适合你的列表
- 项目
- 项目
- 项目
- 项目
- 项目1
- 项目2
- 项目3
- 计划任务
- 完成任务
创建一个表格
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
设定内容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' |
‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" |
“Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash |
– is en-dash, — is em-dash |
创建一个自定义列表
-
Markdown
- Text-to- HTML conversion tool Authors
- John
- Luke
如何创建一个注脚
一个具有注脚的文本。1
注释也是必不可少的
Markdown将文本转换为 HTML。
KaTeX数学公式
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
新的甘特图功能,丰富你的文章
- 关于 甘特图 语法,参考 这儿,
UML 图表
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
- 关于 Mermaid 语法,参考 这儿,
FLowchart流程图
我们依旧会支持flowchart的流程图:
- 关于 Flowchart流程图 语法,参考 这儿.
导出与导入
导出
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
导入
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
-
注脚的解释 ↩︎