4.28 数据挖掘技术在电子数据取证中的应用
电子数据取证过程中会获得大量的证据数据,主要来源于三个方面,一是计算机主机系统方面的证据,主要包括来自硬盘、内存、外设中的数据;二是来自网络方面的证据,主要包括实时获取的网络通信数据流网络设备上产生的记录,以及网络安全设备上的日志和登录日志;三是来自其他数字设备的证据,如手机、手持电子设备。这些可疑数据的数据量非常庞大并且不断更新,面对这样庞大的、变化的数据,单纯依靠技术人员的经验去分析、去获取有用的证据是不现实的,需要借助工具从海量的数据中获取有用的证据,或者获取有用的信息来指导下一次的数据分析和检测。数据挖掘就是再合适不过的工具,它能从海量的数据中发现有价值信息。数据挖掘可以发现的模式类型很多,其中关联分析、分类分析是电子数据取证中常用到的方法,这些方法可以运用到电子数据取证系统中去帮助发现证据、发现违法犯罪证据的特征。
数据挖掘[8-12]是一种决策支持过程,主要基于人工智能 (AI)、机器学习、统计学等技术和方法,高度自动化地分析所获取的海量数据,并进行归纳性的推理,从中挖掘出潜在的模式,用以预测分析对象的行为趋势,以帮助决策者或管理者调整策略,做出正确的决策。该技术在违法犯罪行为分析领域中具有很好的应用价值。利用数据仓库和数据挖掘技术,首先解决数据的一致性等问题,建立数据仓库;然后通过所拟定的算法,对大量的违法犯罪行为记录进行分析,从中发现违法犯罪的规律、趋势,了解不同违法犯罪行为之间的关联情况,以及何种状态会导致或诱发何种违法犯罪行为等。因此,采用数据挖掘技术可以在海量数据中发现和特定的违法犯罪有关的数据,这些情况也都是*、司法等相关领域所迫切需要掌握的,所以数据挖掘这类智能计算与分析技术在电子数据取证中的应用具有相当重要的现实意义。
在利用数据挖掘技术的电子数据取证系统中主要包括数据采集模块、预处理模块、入侵检测模块、数据分析模块、证据鉴定模块、证据保全和提交模块(见图 1)。
(1)数据采集模块:该模块完成数据收集功能,其一方面获取来自主机的信息,包括操作系统的审计日志、应用程序日志等;另一方面获取来自网络的数据,主要包括防火墙及入侵检测系统日志、其他网络工具产生的日志等。
(2)预处理模块:可以根据取证分析的需要,对不同来源的日志记录数据预处理,包括数据的清洗、归约、变换、集成等功能。考虑到日志文件大都是有结构信息的文件,所以本系统基于数据库进行数据挖掘,这样数据的预处理、关系模式的设计都显得比较关键。
(3)入侵检测模块:入侵检测是针对向计算和网络资源实施恶意行为的识别和响应过程,是一种主动的安全措施,一旦有非法入侵者进入系统,能根据事先定义的规则(知识库中提取或者专业人员根据经验编写)及时报警,并进行跟踪获取可疑数据,进行主动取证。
(4)数据分析模块:基于数据挖掘的数据分析模块对数据库中的数据进行分析,利用已有的分类规则、关联规则等提取出反映客观事实的、与案件相关的电子数据证据,同时利用相关算法发现新的规则(存入知识库)指导下一次的数据分析和入侵检测。该模块是整个系统的核心模块。
(5)证据鉴定模块:证据鉴定模块对所搜集来的电子数据证据进行CPU、存储设备、网络设备、集线器、交换机等硬件设备来源和软件来源鉴定,发现电子数据证据与违法犯罪事实之间的联系,从而更加有效地定位违法犯罪。
(6)证据保全和提交模块:证据保全和提交模块将数据分析、鉴定出来的证据使用数据加密、数字摘要或签名技术加密传送到证据库;最后将违法犯罪证据生成完整的报告,依法律程序提交法庭。