文章目录
- Intro
- Data_Warehouse
- Preprocessing
- classification
- Clustering
- Mining Association Rules in Large Databases
注:课件请去GitHub自取https://github.com/leonodelee/UCAS_Course_2020
文章中的思维导图请到我上传的文件中下载,链接失效可以私聊我
https://download.csdn.net/download/qq_34767784/14075661
Intro
本节主要是课程的介绍,主要信息包括刘莹老师的介绍,参考书籍的介绍,注意本课程将大部分纯英文授课哈,虽然有些不习惯,但是这么好的学习英语的机会,当然是求之不得。
该课程评价指标主要有3个:3次作业(个人),一次课程大作业(组队),以及最终的考试(闭卷)
本课程一直按照下图所示脉络进行讲解,因为其符合数据挖掘的实际流程:
Data_Warehouse
先从底层数据存储讲起,重点在于数据的存储组织形式,在概念层次是数据立方体,在逻辑层次主要有Star schema、Snowflake schema、Fact constellations三种,然后是一些对数据仓库的DMQL语言中的OLAP操作,也是比较重要的,它类似于MySQL的SQL语言。
Preprocessing
获取数据,并将其存储好之后,就应该对其进行一系列预处理操作,主要有需要进行数据预处理的原因,描述性数据摘要(包括平均数、中位数、五点以及作图),数据清洗、数据转换、数据合并、数据压缩
classification
预处理之后就可以通过各种算法对处理后的数据进行处理分析了
分类与预测是数据挖掘最为经典的任务之一,本节主要讲了决策树算法、贝叶斯算法、BP网络以及其它分类算法;至于预测算法,主要讲了线性回归、非线性回归等
Clustering
除了分类,聚类也是一种十分重要的数据挖掘算法
聚类是无监督学习,它希望将数据归为几类,使得类间距离较远,类内点的距离较近;
聚类的重点在于数据的类型与对应的算法;数据可以分为Interval-valued Variables、Binary Variables、Nominal Variables、Ordinal Variables、Ratio-Scaled Variables、Variables of Mixed Types等;主要介绍的聚类算法可以分为下面几个类别:Partitioning approach、Hierarchical approach、Density-based approach、Grid-based approach、Probabilistic Model-based approach;后面还有一个异常点检测的知识点,类似于聚类算法的一个应用
Mining Association Rules in Large Databases
然后在前面所学的基础上,我们终于可以挖掘数据内蕴含的内在联系了,即关联规则;
主要的方法有Aprior、Partition、DHP、DIC、FP-Growth(FP-tree),详情见课件