本文您将要了解:
1、数据由什么类型的属性或字段组成?
2、每个属性具有何种类型的数据值?
3、哪些属性是离散的?哪些是连续值的?
4、数据看上去如何?值如何分布?
5、有什么方法可以可视化地观察数据,以便更好地理解它吗?
6、能够看出离群点吗?
7、可以度量某些数据对象与其他数据对象之间的相似性吗?
例如给定温度属性,我们可以确定其均值、中位数、众数。这些是中心趋势度量,使我们了解分布的”中部“或中心。关于每个属性的这种基本统计量的知识有助于在数据预处理时填补缺失值、光滑噪声、识别离群点。分位数图、直方图和散点图都是显示基本统计描述的其他图形方法。
一、数据对象与属性类型
属性是一个数据字段,表示数据对象的一个特征。
1、标称属性:
一些符号或事物的名称。可以用数字符号代替,但并不是定量的。
2、二元属性:
一种标称属性,只有两个类别或状态:0或1,其中0表示该属性不出现,1表示出现。若这两种状态对应true或false,又称为布尔属性。若二元属性是对称的,意思是关于哪个结果应该用0或1编码并无偏好,如男或女。若二元属性是非对称的,我们常用1表示重要数据,如艾滋病阳性。
3、序数属性:
其可能的值之间具有有异议的序或秩评定,但相继值之间的差是未知的。如小中大、助教讲师副教授教授、不满意不太满意中性满意很满意。
标称、二元、序数属性都是定性的。
4、数值属性:
定量的,可度量的值,用整数或实数值表示。可以是区间标度的或比率标度的。
区间标度属性:用相等的单位尺度度量。如温度,时间等,其特点是不能用比率谈论这些数值,如不能说说10度是5度的2倍。没有绝对的零点,即0度不是“没有温度”,0年不表示时间的开始。
比率标度属性:具有固定零点的数值属性。如果度量是比率标度的,则可以说一个值是另一个倍数。
我们将属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。
机器学习的分类算法将属性分为离散的或连续的,每种类型都可以用不同的方法处理。