Outlier Analysis(part1)

学习笔记,仅供参考,有错必纠
机翻,建议看英文原著



An Introduction to Outlier Analysis


Introduction


离群点是与剩余数据显著不同的数据点。霍金斯定义[249]一个异常值如下:“离群值是一种与其他观察值偏差太大的观察值,以至于让人怀疑它是由不同的机制产生的。”

在数据挖掘和统计文献中,异常值也被称为异常、不协调、异常或异常。在大多数应用程序中,数据是由一个或多个生成过程创建的,这些流程可以反映系统中的活动或收集到的关于实体的观察结果。当生成过程的行为异常时,它会导致异常值的产生。因此,离群值通常包含有关影响数据生成过程的系统和实体的异常特征的有用信息。对这些不寻常特征的识别提供了有用的应用特定的见解。

举例如下:

  • Intrusion detection systems:在许多计算机系统中,收集关于操作系统调用、网络流量或其他用户动作的不同类型的数据。由于恶意活动,这些数据可能会显示异常行为。对这种活动的识别被称为入侵检测;
  • Credit-card fraud:信用卡欺诈变得越来越普遍,因为信用卡号码等敏感信息更容易被泄露。在许多情况下,未经授权使用信用卡可能会表现出不同的模式,如从特定地点疯狂购物或非常大的交易。这种模式可以用来检测信用卡交易数据中的异常值。
  • Interesting sensor events:在许多实际应用中,传感器通常用于跟踪各种环境和位置参数。潜在模式的突然变化可能代表感兴趣的事件。事件检测是传感器网络领域的主要应用之一。正如本书后面所讨论的,事件
上一篇:64个数据分析常用语


下一篇:​使用ImageJ进行运动粒子分析