李航《统计学习》学习第一周(1)
第一章 1.1统计学习方法概论
一. 统计学习主要由监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)组成,有时还包括半监督学习和主动学习
二. 统计学习的方法
统计学习的方法大致可以概括如下,从一组给定的有限的,可重复的训练数据集合中出发,假设数据是独立同分布的,假设要学习的模型属于一个函数集合,称为假设空间(hypothesis space),有一个最优化判断标准(evaluation criterion),从假设空间中选择一个最优模型,使它对已知的训练数据和未知的测试数据在给定的标准下做出最优的预测,其中模型的选择由算法给出,其中统计学习的三要素为策略(strategy),模型(model),算法(algorithm)
三.实现统计学习的步骤如下
(1)得到一组训练数据
(2)确定包含所有可能模型的假设空间,即学习模型的集合
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法,即学习的算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对测试数据进行预测
四.统计学习的分类
1.监督学习
监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习从输入到输出的映射的统计规律
(1)输入空间、输出空间和特征空间
将输入和输出所可能的所有取值构成的空间分别称为输入空间(input space)和输出空间(output space),输入空间和输出空间可以是有限元素的集合,也可以是整个欧式空间。输入空间和输出空间可能是同一空间,也可以是不同空间。一般来说,输入空间要远远大于输出空间。
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)决定,所有特征向量存在的空间称为特征空间(feature space),特征空间的每一维对应一个特征。一般来说,输入空间与特征空间不做区分。
在监督学习中,将输入与输出看做是定义在输入(特征)空间,与输出空间上随机变量的取值。输入输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入变量的取值写作x,输出变量的取值写作y。计输入实例x的变量为
x
=
(
x
(
1
)
,
x
(
2
)
,
.
.
x
(
i
)
.
.
,
x
(
n
)
)
T
,
其
中
x
(
i
)
表
示
x
的
第
i
个
特
征
注
意
x
(
i
)
与
x
i
不
同
,
通
常
用
x
i
表
示
多
个
输
入
变
量
中
的
第
i
个
变
量
也
就
是
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
,
.
.
x
i
(
i
)
.
.
,
x
i
(
n
)
)
T
x = (x^{(1)},x^{(2)},..x^{(i)}..,x^{(n)})^{T},其中x^{(i)}表示x的第i个特征 \\ 注意x^{(i)}与x_{i}不同,通常用x_{i}表示多个输入变量中的第i个变量\\也就是x_{i} = (x_{i}^{(1)},x_{i}^{(2)},..x_{i}^{(i)}..,x_{i}^{(n)})^{T}
x=(x(1),x(2),..x(i)..,x(n))T,其中x(i)表示x的第i个特征注意x(i)与xi不同,通常用xi表示多个输入变量中的第i个变量也就是xi=(xi(1),xi(2),..xi(i)..,xi(n))T
监督学习从训练数据集合(training data)集合中学习模型,从测试数据(testing data)中进行预测。训练数据由输入(或特征向量)和输出对组成,训练集通常表示为
T
=
[
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
.
(
x
N
,
y
N
)
]
T = [(x_{1},y_{1}),(x_{2},y_{2}),....(x_{N},y_{N})]
T=[(x1,y1),(x2,y2),....(xN,yN)]
其中测试数据也有输入输出对构成,输入输出对又称样本点
输入变量X与输出变量Y可以有不同的类型,可以是连续的,也可以是离散的。其中,称X,Y都为连续变量的问题为回归问题。输出变量为有限个离散变量的问题为分类问题。输入和输出变量均为变量序列的问题称为标注问题。
问题的形式化
监督学习分为预测和学习两个过程,分别由预测系统和学习系统来完成,首先给定一个训练数据集
T
=
[
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
.
(
x
N
,
y
N
)
]
,
其
中
(
x
i
,
y
i
)
为
样
本
点
,
x
i
是
输
入
的
观
测
值
,
y
i
是
输
出
的
观
测
值
T = [(x_{1},y_{1}),(x_{2},y_{2}),....(x_{N},y_{N})] ,其中(x_{i},y_{i})为样本点,x_{i}是输入的观测值,y_{i}是输出的观测值
T=[(x1,y1),(x2,y2),....(xN,yN)],其中(xi,yi)为样本点,xi是输入的观测值,yi是输出的观测值
在学习过程中,学习系统通过给定的训练数据集,得到一个模型,表示为条件概率
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)或决策函数
Y
=
f
(
X
)
Y =f(X)
Y=f(X)描述输入变量与输出变量之间的映射关系。在预测过程中,预测系统对于给定的测试样本集中的数据
x
N
+
1
x_{N+1}
xN+1,由模型
y
N
+
1
=
a
r
g
max
a
P
(
y
∣
x
N
+
1
)
y_{N+1} =arg\max\limits_{a}P(y|x_{N+1})
yN+1=argamaxP(y∣xN+1)或
y
N
+
1
=
f
(
x
N
+
1
)
y_{N+1} =f(x_{N+1})
yN+1=f(xN+1)给定输出的
y
N
+
1
y_{N+1}
yN+1