国科大刘莹老师数据挖掘整理

文章目录

注:课件请去GitHub自取https://github.com/leonodelee/UCAS_Course_2020

文章中的思维导图请到我上传的文件中下载,链接失效可以私聊我

https://download.csdn.net/download/qq_34767784/14075661

Intro

​ 本节主要是课程的介绍,主要信息包括刘莹老师的介绍,参考书籍的介绍,注意本课程将大部分纯英文授课哈,虽然有些不习惯,但是这么好的学习英语的机会,当然是求之不得。
国科大刘莹老师数据挖掘整理

​ 该课程评价指标主要有3个:3次作业(个人),一次课程大作业(组队),以及最终的考试(闭卷)

本课程一直按照下图所示脉络进行讲解,因为其符合数据挖掘的实际流程:
国科大刘莹老师数据挖掘整理

Data_Warehouse

国科大刘莹老师数据挖掘整理

​ 先从底层数据存储讲起,重点在于数据的存储组织形式,在概念层次是数据立方体,在逻辑层次主要有Star schema、Snowflake schema、Fact constellations三种,然后是一些对数据仓库的DMQL语言中的OLAP操作,也是比较重要的,它类似于MySQL的SQL语言。

Preprocessing

国科大刘莹老师数据挖掘整理

​ 获取数据,并将其存储好之后,就应该对其进行一系列预处理操作,主要有需要进行数据预处理的原因,描述性数据摘要(包括平均数、中位数、五点以及作图),数据清洗、数据转换、数据合并、数据压缩

classification

​ 预处理之后就可以通过各种算法对处理后的数据进行处理分析了

国科大刘莹老师数据挖掘整理

​ 分类与预测是数据挖掘最为经典的任务之一,本节主要讲了决策树算法、贝叶斯算法、BP网络以及其它分类算法;至于预测算法,主要讲了线性回归、非线性回归等

Clustering

​ 除了分类,聚类也是一种十分重要的数据挖掘算法
国科大刘莹老师数据挖掘整理

​ 聚类是无监督学习,它希望将数据归为几类,使得类间距离较远,类内点的距离较近;

聚类的重点在于数据的类型与对应的算法;数据可以分为Interval-valued Variables、Binary Variables、Nominal Variables、Ordinal Variables、Ratio-Scaled Variables、Variables of Mixed Types等;主要介绍的聚类算法可以分为下面几个类别:Partitioning approach、Hierarchical approach、Density-based approach、Grid-based approach、Probabilistic Model-based approach;后面还有一个异常点检测的知识点,类似于聚类算法的一个应用

Mining Association Rules in Large Databases

​ 然后在前面所学的基础上,我们终于可以挖掘数据内蕴含的内在联系了,即关联规则;

主要的方法有Aprior、Partition、DHP、DIC、FP-Growth(FP-tree),详情见课件

上一篇:OS L5-2: Base and Limit Approach


下一篇:文本模糊测试的文章记录