前言
该博客为认知网络课程知识点与例题的总结,其中不乏错误,还望大家指正。
文章的电子版(直接打印)下载链接见文末。
更新:20年最新试题题型有所变动,下载链接见文末。
知识点部分
第一章
1.1认知无线电
1.认知无线电的概念
认知无线电是指具有自主寻找和使用空闲频谱资源能力的智能无线电技术,具有侦测、适应、学习、机器推理、最优化、多任务以及并发处理/应用的性能。
2.认知无线电提出的背景
随着无线通信技术的飞速发展,频谱资源变得越来越紧张。为保护频谱资源,频率管理部门专门分配了特定的授权频段以供特定通信业务使用。与授权频段相比,非授权频段的频谱资源要少很多,而相当数量的授权频谱资源的利用率却非常低。于是就出现了这样的事实:某些部分的频谱资源相对较少但其上承载的业务量很大,而另外一些已授权的频谱资源利用率却很低。因此,可以得出这样的结论:基于目前的频谱资源分配方法,有相当一部分频谱资源的利用率是很低的。
为了解决频谱资源匮乏的问题,基本思路就是尽量提高现有频谱的利用率。为此,人们提出了认知无线电的概念。认知无线电的基本出发点就是:为了提高频谱利用率,具有认知功能的无线通信设备可以按照某种“伺机”的方式工作在已授权的频段内。当然,这一定要建立在已授权频段没用或只有很少的通信业务在活动的情况下。这种在空域、时域和频域中出现的可以被利用的频谱资源被称为“频谱空洞”。认知无线电的核心思想就是使无线通信设备具有发现“频谱空洞”并合理利用的能力。
当非授权通信用户通过“借用”的方式使用已授权的频谱资源时,必须保证他的通信不会影响到其他已授权用户的通信。
3.认知网络的概念
认知网络是具有认知过程、能感知当前网络条件、然后依据这些条件作出规划、决策和采取动作的网络。
4.认知网络的特征
它具有对网络环境的自适应能力,具有对以前决策的评判和未来决策判定的学习能力,决策要达到的都是端到端的目标,即网络目标。
5.认知环的组成
认知环由6部分组成:感知(Sense)、规划(Plan)、决策(Decide)、行动(Act)、学习(Learn)、策略(Policy)。认知网络通过感知器感知周围的环境。
第二章
2.1学习与推理的概念
1.机器学习的定义
对于某类任务T和性能参数P,计算机程序通过经验E不断改善完成任务T的性能参数P,则称该算法具有机器学习的能力。
2.机器学习分类
- 监督学习:利用训练样本学习一个函数。每个训练样本为一对函数的输入输出值。当新的样本(仅有输入值)到来时,可以根据这个函数预测函数输出值。
- 非监督学习:与监督学习相比,训练样本仅有输入值,没有人为标注的输出。常见的非监督学习算法有聚类。
- 增强学习:学习优化任务的动作序列。每个动作都会对环境有影响,学习算法根据观察到的周围环境的反馈来做出判断。
2.2决策树学习
1.决策树的定义
决策树是一种机器学习的方法,一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像—棵树的枝干,故称决策树。
决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
2.决策树父节点定义依据
由增熵原理来决定哪个做父节点,哪个节点需要分裂。对一组数据而言,熵越小说明分类结果越好。
E
n
t
r
o
p
y
=
−
∑
i
[
p
(
x
i
)
×
log
2
(
p
(
x
i
)
)
]
Entropy=-\sum_i[p(x_i)×\log_2(p(x_i))]
Entropy=−i∑[p(xi)×log2(p(xi))]
其中p(xi)为xi出现的概率
具体的节点划分过程见例题
3.决策树过拟合定义
在决策树学习过程中,为了尽可能正确分类训练样本,有时会造成决策树分支过多,这样决策树可能会过分逼近训练样本,若训练样本有误差,会导致泛化误差增加。
4.避免决策树过拟合手段
- 预剪枝:及早停止树的生长。对每个节点是否继续划分进行评估,若当前节点的划分不能提升决策树的泛化性能,则停止划分,并标记为叶结点。
- 后剪枝:利用训练集生成一棵完整的决策树,然后自底向上对非叶子节点进行考察,若该节点不能提升决策树的泛化性能,则将该子树替换为叶结点。
- 留出法:随机抽取一部分数据用作“验证集”以进行性能评估。
tips:剪枝的定义:避免过拟合的重要手段,通过去掉一些树枝,降低过拟合的风险。
2.3贝叶斯推理
1.基础知识
①一维高斯变量X~N(μ,σ2),则概率密度函数
f
X
(
x
)
=
1
2
π
σ
2
e
−
1
2
σ
2
(
x
−
μ
)
2
f_X(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}
fX(x)=2πσ2
1e−2σ21(x−μ)2
②贝叶斯公式
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(AB)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(AB)=P(B)P(B∣A)P(A)
③平均错误概率
P
e
=
P
(
H
0
)
P
(
H
1
∣
H
0
)
+
P
(
H
1
)
P
(
H
0
∣
H
1
)
P_e=P(H_0)P(H_1|H_0)+P(H_1)P(H_0|H_1)
Pe=P(H0)P(H1∣H0)+P(H1)P(H0∣H1)
2.代价因子
判决 | H0 | H1 |
---|---|---|
H0 | C00 | C01 |
H1 | C10 | C11 |
Cij:在发送Hj的情况下判为Hi所付的代价
3.总平均代价
C
‾
=
∑
j
=
0
1
∑
i
=
0
1
C
i
j
P
(
H
j
)
P
(
H
i
∣
H
j
)
\overline{\text{C}}=\sum_{j=0}^{1}\sum_{i=0}^{1}C_{ij}P(H_j)P(H_i|H_j)
C=j=0∑1i=0∑1CijP(Hj)P(Hi∣Hj)
贝叶斯准则,就是在假设Hj的先验概率已知,各代价因子给定时,使平均代价最小的准则。
4.贝叶斯判决式
贝叶斯判决准则
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
>
H
1
<
H
0
P
(
H
0
)
P
(
H
1
)
(
C
10
−
C
00
)
(
C
01
−
C
11
)
\frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}
P(x∣H1)P(x∣H0)<H0>H1P(H1)P(H0)(C01−C11)(C10−C00)
上面这个不等式左边是两个转移概率密度函数(又称似然函数)之比,称为似然比(likelihood ratio),用下面所示的公式表示:
Λ
(
x
)
=
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
\Lambda(x)=\frac{P(x|H_0)}{P(x|H_1)}
Λ(x)=P(x∣H1)P(x∣H0)
不等式右边是由先验概率和代价因子决定的常数,称为似然比检测门限,记为
λ
0
=
P
(
H
0
)
P
(
H
1
)
(
C
10
−
C
00
)
(
C
01
−
C
11
)
\lambda_0=\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}
λ0=P(H1)P(H0)(C01−C11)(C10−C00)
于是由贝叶斯准则得到的似然比检验为
Λ
(
x
)
>
H
1
<
H
0
λ
0
\Lambda(x)\frac{>H_1}{<H_0}\lambda_0
Λ(x)<H0>H1λ0
由其定义式可知,似然比检验需要对观测量x进行处理,即计算似然比,然后跟某个似然比检测门限比较,做出判断。
门限和P(Hj)和Cij有关,为了在不同先验概率和不同代价因子时,都能达到贝叶斯准则下的最小平均代价,就应该按其定义式对门限做出调整。
又由于似然比在很多情况下具有指数函数的形式,因为自然对数是单调的增函数,并且似然比和似然比检测门限非负,所以判决可等价为:
l
n
(
Λ
(
x
)
)
>
H
1
<
H
0
l
n
(
λ
0
)
ln(\Lambda(x))\frac{>H_1}{<H_0}ln(\lambda_0)
ln(Λ(x))<H0>H1ln(λ0)
利用贝叶斯判决准则进行检测的基本步骤:
- 计算两个概率密度函数
- 根据两个假设的先验概率和代价因子,计算判决门限
- 形成贝叶斯检测基本表达式
- 化简
计算判决概率的基本原则:根据化简后的最简判决表达式进行计算
计算判决概率的计算步骤:
- 推导贝叶斯检测准则的最简表示形式
- 根据最简表示形式,计算各种假设下,统计量的概率密度函数P(x|H0)、P(x|H1)
- 计算判决概率
P ( H 0 ∣ H 1 ) = ∫ − ∞ γ p ( x ∣ H 1 ) d x ; P ( H 1 ∣ H 0 ) = ∫ γ ∞ p ( x ∣ H 0 ) d x P(H_0|H_1)=\int_{-\infty}^{\gamma}p(x|H_1)dx;P(H_1|H_0)=\int_{\gamma}^{\infty}p(x|H_0)dx P(H0∣H1)=∫−∞γp(x∣H1)dx;P(H1∣H0)=∫γ∞p(x∣H0)dx
5.介绍贝叶斯准则的两种派生准则
①最小总错误概率准则和最大似然准则
在通信系统中,通常正确判决不付出代价,错误判决付出代价相同,此时的判决式为
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
>
H
1
<
H
0
P
(
H
0
)
P
(
H
1
)
\frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}
P(x∣H1)P(x∣H0)<H0>H1P(H1)P(H0)
假设H0和H1的先验概率相等,则似然比检验为
Λ
(
x
)
=
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
>
H
1
<
H
0
1
\Lambda(x)=\frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}1
Λ(x)=P(x∣H1)P(x∣H0)<H0>H11
此时,可将先验概率准则称为最大似然准则
②最大后验概率准则
在贝叶斯准则中,当代价因子满足(C10-C00)=(C01-C11)时,判决规则变为
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
>
H
1
<
H
0
P
(
H
0
)
P
(
H
1
)
\frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}
P(x∣H1)P(x∣H0)<H0>H1P(H1)P(H0)
或等价写成
P
(
H
1
)
P
(
x
∣
H
1
)
>
H
1
<
H
0
P
(
H
0
)
P
(
x
∣
H
0
)
P(H_1)P(x|H_1)\frac{>H_1}{<H_0}P(H_0)P(x|H_0)
P(H1)P(x∣H1)<H0>H1P(H0)P(x∣H0)
又
P
(
H
1
∣
x
)
P
(
x
)
=
P
(
x
∣
H
1
)
P
(
H
1
)
;
P
(
H
0
∣
x
)
P
(
x
)
=
P
(
x
∣
H
0
)
P
(
H
0
)
P(H_1|x)P(x)=P(x|H_1)P(H_1); P(H_0|x)P(x)=P(x|H_0)P(H_0)
P(H1∣x)P(x)=P(x∣H1)P(H1);P(H0∣x)P(x)=P(x∣H0)P(H0)
故
P
(
H
1
∣
x
)
P
(
x
)
>
H
1
<
H
0
P
(
H
0
∣
x
)
P
(
x
)
P(H_1|x)P(x)\frac{>H_1}{<H_0}P(H_0|x)P(x)
P(H1∣x)P(x)<H0>H1P(H0∣x)P(x)
即
P
(
H
1
∣
x
)
>
H
1
<
H
0
P
(
H
0
∣
x
)
P(H_1|x)\frac{>H_1}{<H_0}P(H_0|x)
P(H1∣x)<H0>H1P(H0∣x)
上式为当观测量x已经获得的情况下,假设H1和H0成立的概率,即后验概率。
2.4Q学习
问题分析
我们可以通过强化学习来解决小鸟怎么飞这个问题。强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体(Agent,指小鸟)会根据当前状态来采取动作,并记录被反馈的奖赏,以便下次再到相同状态时能采取更优的动作。
状态的选择
取小鸟到下一组管子的水平距离和垂直距离差作为小鸟的状态。更准确地说,△x与△y的定义如下图所示,其中△x为水平举例,△y为水平距离。
动作的选择
每一帧,小鸟只有两种动作可选:
- 向上飞一下
- 什么都不做
奖赏的选择
- 小鸟活着时,每一帧给予1的奖赏
- 若死亡,则给予-1000的奖赏
关于Q
Q为动作效用函数(action-utility function),用于评价在特定状态下采取某个动作的优劣。它是智能体的记忆。
在这个问题中, 状态和动作的组合是有限的。所以我们可以把Q当做是一张表格。表中的每一行记录了状态(△x,△y),选择不同动作(飞或不飞)时的奖赏:
状态 | 飞 | 不飞 |
---|---|---|
(△x1,△y1) | 1 | 20 |
(△x1,△y2) | 20 | -100 |
… | … | … |
(△xm,△yn-1) | -100 | 2 |
(△xm,△yn) | 50 | -200 |
这张表一共m×n行,表示m×n个状态,每个状态所对应的动作都有一个效用值。
理想状态下,在完成训练后,我们会获得一张完美的Q表格。我们希望只要小鸟根据当前位置查找到对应的行,选择效用值较大的动作作为当前帧的动作,就可以无限地存活。
训练
初始化 Q = {};
while Q 未收敛:
初始化小鸟的位置S,开始新一轮游戏
while S != 死亡状态:
使用策略π,获得动作a=π(S)
使用动作a进行游戏,获得小鸟的新位置S',与奖励R(S,a)
Q[S,A] ← (1-α)*Q[S,A] + α*(R(S,a) + γ* max Q[S',a]) // 更新Q
S ← S'
其中需注意的地方:
1、使用策略π,获得动作a=π(S);最直观易懂的策略π(S)是根据Q表格来选择效用最大的动作(若两个动作效用值一样,如初始时某位置处效用值都为0,那就选第一个动作)。
2、更新Q表格的公式如下所示:
Q
(
S
,
A
)
←
(
1
−
α
)
Q
(
S
,
A
)
+
α
[
R
(
S
,
α
)
+
γ
max
α
Q
(
S
′
,
α
)
]
Q(S,A)\leftarrow(1-\alpha)Q(S,A)+\alpha[R(S,\alpha)+\gamma\max_\alpha{Q(S',\alpha)}]
Q(S,A)←(1−α)Q(S,A)+α[R(S,α)+γαmaxQ(S′,α)]
其中α为学习速率(learning rate),γ为折扣因子(discount factor)。根据公式可以看出,学习速率α越大,保留之前训练的效果就越少。折扣因子γ越大,maxQ(S’,α)所起到的作用就越大。但maxQ(S’,α)指什么呢?
考虑小鸟在对状态进行更新时,会关心到眼前利益R,和记忆中的利益maxQ(S’,α)。
maxQ(S’,α)是记忆中的利益。它是小鸟记忆里,新位置S’能给出的最大效用值。如果小鸟在过去的游戏中于位置S‘的某个动作上吃过甜头(例如选择了某个动作之后获得了50的奖赏),这个公式就可以让它提早地得知这个消息,以便使下回再通过位置S时选择正确的动作继续进入这个吃甜头的位置S’。
可以看出,γ越大,小鸟会越重视以往经验;γ越小,小鸟只重视眼前利益。
第三章
3.1多目标优化
层次分析法的定义:层次分析法这是一种定性和定量相结合的、系统的、层次化的分析方法。
层次分析法的特点:层次分析法是在对复杂决策问题的本质、影响因素及其内在关系等进行深入研究的基础上,利用较少的定量信息使决策的思维过程数学化,从而为多目标、多准则或无结构特性的复杂决策问题提供简便的决策方法,是对难以完全定量的复杂系统做出决策的模型和方法。
层次分析法的原理:层次分析法根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同的层次聚集组合,形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。
层次分析法的步骤
- 建立层次结构模型;
- 构造判断(成对比较)矩阵;
- 层次单排序及其一致性检验;
- 层次总排序及其一致性检验;
一致性检验
所谓一致性检验是指对成对比较矩阵确定不一致的允许范围
成对比较的不一致情况
一致阵的性质
-
a i j = 1 a j i , a i i = 1 ( i , j = 1 , 2 , . . . , n ) a_{ij}=\frac{1}{a_{ji}},a_{ii}=1(i,j=1,2,...,n) aij=aji1,aii=1(i,j=1,2,...,n)
-
AT也是一致阵;
-
A的各行成比例,则A矩阵转秩为1;
-
A 的最大特征根(值)为λ=n,其余的n-1个特征根均等于0;
-
A的任一列(行)都是对应于特征根n的特征向量,AW=nW;
定义一致性标准
C
I
=
λ
−
n
n
−
1
CI=\frac{\lambda-n}{n-1}
CI=n−1λ−n
其中λ为矩阵的最大特征值,n为矩阵的阶数。
1.CI=0,有完全的一致性;2.CI接近于0,有满意的一致性;3.CI越大,不一致越严重。
定义一致性比率
C
R
=
C
I
R
I
CR=\frac{CI}{RI}
CR=RICI
其中RI可查表获得,如下表所示
n | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
RI | 0 | 0 | 0.58 | 0.90 | 1.12 |
一般,当一致性比率CR<0.1时,认为A的不一致性程度是在容许的范围之内,有满意的一致性,通过一致性检验,可用其归一化特征向量作为权向量。
3.2博弈论基础
在完全信息博弈中,如果在每个给定信息下,只能选择一种特定策略,这个策略为纯策略(pure strategy)。如果在每个给定信息下只以某种概率选择不同策略,称为混合策略(mixed strategy)。混合策略是纯策略在空间上的概率分布,纯策略是混合策略的特例。纯策略的收益可以用效用表示,混合策略的收益只能以期望效用表示。
第四章
4.1频谱感知技术
频谱感知技术是认知无线电应用的基础和前提,也是认知无线电核心技术。频谱感知是在不干扰授权用户的前提下,实时监测可用频段并进行相关分析,从而发现频谱空洞。频谱感知技术必须要保证良好的检测性能,一旦检测概率偏低,就会对授权用户正常的通信造成干扰,而虚警概率偏高则会导致认知用户无法正常接入空闲频谱,降低频谱的利用率。频谱感知分为单节点感知与多节点协作感知。
单节点频谱感知即单个用户独立判决,不涉及复杂的系统结构和数据融合问题,相对简单。但感知性能提升无法突破物理局限瓶颈。在此背景下,协作频谱感知被提出,有效克服了单节点物理局限,提高了频谱感知性能,能更好地适用于更低的信噪比环境。多节点协作通过检测节点间的协作达到系统要求的检测门限,从而降低对单个检测节点的要求,降低单个节点的负担。
频谱感知技术可以归纳为发射机检测 、协作检测和基于干扰的频谱检测,其中发射机检测常用的主要有能量检测法,匹配滤波器法和基于信号循环平稳特性的检测。
能量检测算法计算量小、实现简单、不需要主用户的先验知识,但由于其易受噪声不确定度影响,在低信噪比时检测性能急剧下降;近年来基于随机矩阵理论的方法逐渐应用于频谱感知。这种方法将协方差矩阵的特征值作为信号的检验统计量,再利用统计特征与门限比较从而实现频谱感知。但是这种方法需要计算特征值及对门限的准确估计,而门限估计值的精度严重影响着频谱感知的效果;匹配滤波器法需要对主要用户的信号进行解调,意味着需要主用户信号的先验知识,如调制方式、数据包格式等,主要优点在于它只需要很短的时间就可以获得高处理增益,缺点在于认知无线电对于每种类型的主要用户都要有一个专门的接收器,且需要通过时间和载频同步甚至信道同步来获得与主要用户信号的相关性。
协作感知有两种模式:中心式感知和分布式感知。
中心式感知:
- 一个中心节点收集各个认知节点的感知信息,并最终确定可用的频谱空洞,然后将这一结果广播给所有的认知节点或是由此中心节点直接控制认知无线电的传输。
- 各认知节点的信息收集主要有信息硬合并和软合并两种方式。信息硬合并是指各个认知节点将本地感知结果比特量化后通过控制信道传送给中心节点,中心节点根据这些比特信息直接判断某一频段是否可用。信息软合并是指中心节点收到各个认知节点的感知结果后并不直接给出频段是闲是忙的结果,而是得到一个似然比值,根据这一比值得到频段是空闲的概率。
- 当认知节点数目很大时,若按照原有的方案,每个节点都传输本地感知结果,那么控制信道需要相当大的带宽,这在实际中是不可行的。为了解决这个问题,每个节点将本地感知结果进行一比特量化。
分布式感知:
- 在这种模式下,各个感知节点相互之间共享信息,但是各个节点独立地做出决定哪一频段可供自己使用。相比于前面介绍的中心式感知模式,分布式不需要配置基础网络结构,从而降低了开销。
4.2自组织网络
自组织网络(SON)是指自身能够探测周围环境信息及其变化并能够由此做出自主决策,并拥有自配置和自优化功能的通信网络功能,是解决未来网络维护工作,提高网络服务质量并大幅降低网络维护成本的一条有效途径。无线网占整个设备投资的70%,且是整个网络的“bottle Neck”,因此目前研究主要集中于无线网。
SON系统架构类型
- 集中式:SON功能和算法集中在一个网元中;SON功能可以和O&M功能位于同一个网元内;
- 混合式:不同SON功能存在于不同级别的网元;同一SON功能同时分布在eNB和集中SON网元中;
- 分布式:SON功能分布在各eNB实体中;
集中式SON
- 优点:eNBs控制参数相同;容易支持多供应商环境;容易与现有网管系统集成;便于人工控制。
- 缺点:引入了新的集中式SON网元;算法复杂,很难实现;反馈时间较长;需要定义更多开放的网元间接口。
分布式SON
- 优点:相应速度快;可伸缩性好;结构更加灵活;网络结构简单。
- 缺点:缺乏集中控制,易彼此冲突;不易达到最高效率;难于支持多供应商环境;处理信息量好,算法较简单。
混合式SON
- 优点:同时利用集中式SON和分布式SON的优点;可以兼容供应商各自的特殊解决方案。
- 缺点:网络结构,信令结构都非常复杂;集中式和分布式SON功能之间功能划分较难。
例题部分
简答题
1、认知网络需具备哪些特征?请举例说明这些特征对于提升通信网络性能的意义。
定义:认知网络是具有认知过程,能感知当前网络条件,然后依据这些条件作出规划、决策和采取动作的网络。它具有对网络环境的自适应能力,具有对以前决策的评判和未来决策判定的学习能力,决策要达到的都是端到端的目标,即网络目标。
定义中主要包含两个方面的内涵:1)认知网络中具有端到端的目标,这也是认知网络区别于其他认知技术或自适应技术最根本的特征。2)认知网络具有学习和自适应能力,能对“感知-规划-决策-行动”整个动态自适应过程进行学习,并将学习到的知识用于指导未来的决策。
以认知无线电为例,它是为解决频谱资源匮乏,提高频谱利用率而提出。**核心思想就是使无线通信设备具有发现“频谱空洞”并合理利用的能力。**认知无线电是建立在软件无线电平台上的一种内容认知型的智能无线电。认知无线电技术将连续不断的认知外部环境的各种信息(如授权用户终端和无线电终端的工作频率、调制方式、接收端的信噪比、网络的流量分布等),并对这些信息进行分析、学习和判断,然后通过无线电知识描述语言和其他认知无线电终端进行智能交流,以选择合适的工作频率、调制方式、发射功率、介质访问协议和路由等,保证整个网络能够始终提供可靠的通信,最终达到最佳的频谱利用率。
2、说明增强学习的适用范围,叙述基于模型的增强学习方法。
增强学习的适用范围:增强学习要解决这样的问题:能够感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。这个具有很普遍性的问题应用于学习控制移动机器人、在工厂中学习最优操作工序以及学习棋类对弈等。
首先学习状态转移模型与回报模型。**状态转移模型:**描述行动集与状态集之间的映射关系,描述了各项行动(或输入)对系统状态的影响。**回报模型:**系统的各个状态对期望目标的影响程度,或者说对期望目标的贡献值
对于一个随机系统而言,回报学习是指获得关于状态的回报函数的概率分布,状态为s,采用行动a,获得的回报总数值与状态为s,采用行动a的次数之比。
为了学习状态转移模型,可以做多次试验,例如在状态为s时,采取行动a,系统转移到状态s’的概率
基于模型的增强学习方案:智能体显式地学习对象或环境模型,。需要面临学习与决策的代价折中问题,决策即行动,重规划即模型学习从回报和惩罚中学习。增强学习智能体必须做出决策,可以依据即时的回报、对未来状态的预测,这个策略应便于学习,即从对象或环境中获取信息。
3、最大似然和贝叶斯比较
最大似然估计将参数看做是确定的量,只是其值是未知,通过最大化观察样本概率得到最优的参数——用分析方法。
贝叶斯估计将参数看成服从某种先验概率分布的随机变量,对样本进行观测的过程,就是把先验概率密度转化成后验概率密度,使得对于每个新样本,后验概率密度函数在待估参数的真实值附近形成最大尖峰。
最大似然估计的优点:当样本数目增加时,收敛性质会更好;比其他可选择的技术更加简单
贝叶斯估计的优点:在贝叶斯估计中θ为随机变量
最大似然估计 | 贝叶斯参数估计 | |
---|---|---|
计算复杂度 | 微分 | 多重积分 |
可理解性 | 确定易理解 | 不确定不易理解 |
先验信息的信任程度 | 不准确 | 准确 |
例如p(x|θ) | 与初始假设一致 | 与初始假设不一致 |
4、给出帕累托最优的定义?帕累托最优解适合表征哪类优化问题的最优解?
帕累托最优是指资源分配的一种理想状态,假定固有的一群人和可分配的资源,从一种分配状态到另一种状态的变化中,在没有使任何人境况变坏的前提下,使得至少一个人变得更好, 这就是帕累托改进或帕累托最优化。帕累托最优的状态就是不可能再有更多的帕累托改进的余地,即不可能再改善某些人的境况,而不使任何其他人受损,它是一种资源最优化配置的状态;换句话说,帕累托改进是达到帕累托最优的路径和方法。
帕累托最优解适合表征多目标优化问题的最优解。对于多目标优化问题而言,帕累托最优解只是问题的一个可接受解,一般都存在多个帕累托最优解,这时就需要人们根据价值观来决策了。
5、什么是混合策略博弈,与纯策略博弈相比,混合策略博弈有何优势?
定义:在完全信息博弈中,如果在每个给定信息下,只能选择一种特定策略,这个策略为纯策略。如果在每个给定信息下只以某种概率选择不同策略,称为混合策略。混合策略是纯策略在空间上的概率分布,纯策略是混合策略的特例。纯策略的收益可以用效用表示,混合策略的收益只能以期望效用表示。
优势:对部分博弈而言,有时是找不到纯策略的均衡的,如石头剪刀布游戏,无论双方采用哪种策略组合,输的一方总可以改变策略使自己反败为胜。此时我们应当给每个纯策略分配一个概率,并希望期望的收益最大,期望的收益就是纯策略的博弈结果乘上该结果出现的概率,并对每个博弈结果进行求和。当博弈是零和博弈,即一方所得是另外一方所失时,此时只有混合策略均衡。
6、层次分析法适合于求解哪类优化问题?从通信、图像处理等方面选一优化问题,说明层次分析法的建模与求解过程,不要求具体数值。
层次分析法是一种定性和定量相结合的、系统的、层次化的分析方法,适合于求解含有主、客观因素及要求与期望模糊的多目标优化问题,该类问题具有分层交错的目标系统,且目标值难以定量描述。
此法把决策问题按总目标、各层子目标、评价准则直至具体的备选方案的顺序分解为不同的层次结构,然后利用求判断矩阵特征向量的方法,求得每一层次的各元素对上一层次元素的优先权重,最后再用加权和的方法递阶归并各备选方案对总目标的最终权重,此最终权重值最大者即为层优方案。这里所谓“优先权重”是一种相对的量度,它表明各备选方案在某一特定的评价准则或子目标下优越的相对量度,以及各子目标对上一层目标(或总目标)而言重要程度的相对量度。
简述题
1、设计一个认知多址方案或认知路由方案,要求:
(1)、给出应用场景,说明为什么需要采用认知技术;
(2)、说明方案中各模块的功能;
(3)、给出各模块功能可能涉及的关键技术名称。
答:(1)、
- 应用场景:自组织网络;
- 原因:众所周知,频谱资源十分有限,一些非授权频段占用拥挤,而那些授权频段却经常空闲,因此,可以考虑在授权用户不用自己的频率资源时,让一些非授权用户去暂时性地有效利用该空闲频谱,认知无线电技术就是基于这种想法提出来的一种智能的频谱共享技术,它可以感知无线通信环境,依据一定的学习和决策算法,动态地检测和有效地利用空闲频谱,大大降低了频谱和带宽对无线技术发展的束缚。
(2)、
- 环境感知模块:负责获取网络环境信息,并将业务需求映射为网络端到端的需求,作为路由构建的优化目标。
- 路由决策模块:负责路由的构建、更新与补救。它依据测量信息和优化目标,选择路由策略,如协同路由、多输入多输出(MIMO)路由、跨层路由等。
- 重构模块:负责路由的配置。如采用跨层路由协议,还须配置运输层、链路层和物理层。
- 自学习模块:负责策略评估、修正与生成,以适应网络环境的变化。
(3)、
-
环境感知模块:频谱检测技术,无线参数认知优化技术;
-
路由决策模块:数据传输技术,如OFDM;
-
重构模块:自适应频谱资源分配技术,频谱资源管理技术;
-
自学习模块:认知优化技术
2、举例说明决策树剪枝的必要性
剪枝的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。
举例:给出如下的一组数据,一共有十个样本(学生数量),每个样本有分数,出勤率,回答问题次数,作业提交率四个属性,最后判断这些学生是否是好学生。最后一列给出了人工分类结果。
学生编号 | 分数 | 出勤率 | 是否为好学生 |
---|---|---|---|
1 | 99 | 80% | 是 |
2 | 89 | 100% | 是 |
3 | 69 | 100% | 否 |
4 | 50 | 60% | 否 |
5 | 95 | 20% | 否 |
6 | 98 | 60% | 是 |
7 | 92 | 65% | 是 |
8 | 91 | 80% | 是 |
9 | 85 | 80% | 是 |
10 | 85 | 91% | 是 |
比如以第一个属性为例:设阈值小于70可将样本分为2组,但是分错了1个。如果设阈值小于70,再加上阈值等于95,那么分错率降到了0,但是这种分割显然只对训练数据有用,对于新的数据没有意义,这就是所说的过拟合。决策树是通过分析训练数据,得到数据的统计信息,而不是专为训练数据量身定做,所以决策树剪枝是必要的。
计算题
1、在下图的方格世界中,表示为G的方格为目标方格,目标方格G的立即回报为100,图中的箭头上的度量值表示从一个方格转至相邻方格的折算累计回报,折算因子γ为0.6,要求:
1)列写Q学习算法中的最大折算累计回报(评估函数)Q(s,a)的递归表达式,其中s为状态,a为动作;
2)计算相邻方格间的最大折算累计回报Q(s,a);
3)计算每个方格的状态回报值V*(s)。
解:
1)Q(s,a)=(1-α)Q(s,a)+α[R(s,a)+γmaxaQ(s’,a)]
注解:
其中α为学习速率,学习速率α越大,保留之前训练的效果就越少。(本题中α默认为1);
R(s,a)为在s的状态下采取a动作所获得的回报;
maxaQ(s’,a):s‘为新位置,所以该项即为新位置s’所能给出的最大回报值;
可以将R(s,a)看做眼前利益,将maxaQ(s’,a)视作记忆中的利益。
γ为折算因子,折算因子越大,训练时越重视以往的经验,越小,则越重视眼前利益。
2)将方格从左至右,从上到下依次从小到大进行编号,即左上为方块1,右下为方块8。
计算顺序:
Q(4,4→8)=100;(4表示当前在方块4位置,4→8表示采取的动作为从方块4进入方块8,因为方块8为目标方块,所以获得立即回报100)
Q(7,7→8)=100;原因同上,此时已学习到在方块4和方块7状态下最大都能获得100的回报;
Q(8,8→4)=0+0.6×100=60;从方块8到方块4没有回报,所以R(8,8→4)=0,但记忆中到达方块4时有100的回报,再将此记忆中的回报乘以折算因子算进去,就得到60的回报值。
Q(8,8→7)=0+0.6×100=60;Q(3,3→4)=0+0.6×100=60;Q(3,3→7)=0+0.6×100=60;Q(4,4→3)=0+0.6×60=36;Q(7,7→3)=0+0.6×60=36;Q(2,2→3)=0+0.6×60=36;Q(6,6→7)=0+0.6×100=60;Q(7,7→6)=0+0.6×60=36;
Q(2,2→6)=0+0.6×60=36;Q(5,5→6)=0+0.6×60=36;Q(3,3→2)=0+0.6×36=21.6;Q(6,6→2)=0+0.6×36=21.6;Q(1,1→2)=0+0.6×36=21.6;Q(6,6→5)=0+0.6×36=21.6;Q(1,1→5)=0+0.6×36=21.6;Q(2,2→1)=0+0.6×21.6=12.96;Q(5,5→1)=0+0.6×21.6=12.96;结果如下图所示。
3)V*(s)=maxaQ(s,a),即当前状态下能获得的最大回报,图中各方块内的较小的数字即为在当前方块状态下采取各动作所获的回报,带下划线的数字即为当前状态下能获得的最大回报。
1-7方块状态下所能获得的最大回报依次为:21.6、36、60、100、36、60、100;结果如下图所示。
2、网络中有4个节点,分别为节点a、b、c、d,其中节点a为源节点,节点d为目的节点,从源节点到目的节点有两条路径,路径p1经过节点b到达目的节点,路径p2经过节点c到达目的节点,业务流经过各条链路的时延如下:
Cab(fab)=8fab,Cac(fac)=fac+50,Cbd(fbd)=fbd+50,Ccd(fcd)=8fcd
其中,Cab(fab)为链路ab的代价函数,fab为流经链路ab的流量,其余符号类推。
问题1:假设从源节点到目的节点的业务流有6个,试用博弈论确定两条路径流量的纳什均衡点及各链路上的负荷。
问题2:在节点b与节点c之间增加一条链路,如图2所示,业务流经过该链路的代价为Cbc(fbc)=fbc+10。于是增加了一条路径p3,路径p3经过节点b、c到达目的节点。假设需要传输的业务不变,且各业务流独立选择路径,试用博弈论确定各条路径流量的纳什均衡点,各链路上的负荷。
问题3:增加链路,能否降低业务流端到端传输的代价。
问题1:从源点a到目的节点d,有两条路径,分别为a→b→d和a→c→d。
设a→b→d路径上的流量为f,则a→c→d路径上的流量为6-f。
Cabd=8f+f+50=9f+50;Cacd=(6-f)+50+8×(6-f)=104-9f;
若*竞争,则Cabd=Cacd,即9f+50=104-9f,解得f=3;
所以当两条路径业务流都为3时,达到纳什均衡。
问题2:此时流量共3条路径,因为a→b→d和a→c→d两条路径的代价相同,故*竞争时所获的流量应相同。
设a→b→d和a→c→d两条路径上的流量为f,则a→b→c→d路径上的流量为6-2f;
Cabcd=8×(6-2f)+(6-2f)+10+8×(6-2f)=112-34f;Cabd=Cacd=9f+50;
*竞争下,Cabcd=Cabd=Cacd,即112-34f=9f+50,解得f=62/43。
取f=2为负荷,则负荷分别为2、2、2。
问题三:这是一个布雷斯悖论。
两条路径的总代价为2×(27+50)=154;三条路径的总代价为2×[9×(62/43)+50]+112-34×(62/43)=216.98
当增加一条路径后,反而使总时间(总代价)增大,最优分配仍为不加此条路径时的分配情况。
3、设接收机二元假设检验的观测信号模型为:
H0:yi=A+ni,i=1,2,3,…N
H1:yi=-A+ni,i=1,2,3,…N
其中ni为均值为0,方差为σ2的高斯随机变量,且ni独立于nj,i≠j。两种假设的先验概率分别为P(H0)和P(H1),贝叶斯检测的代价因子分别为C00,C11,C10,C01,求解下列问题:
1)给出上述问题的贝叶斯检测准则基本表达式;
2)推导接收机的检测门限;
3)当c10-c00=c01-c11时,分别给出P(H0)=P(H1)和P(H0)=2*P(H1)的接收机检测门限。
解:
1)
P
(
y
∣
H
0
)
P
(
y
∣
H
1
)
>
H
1
<
H
0
P
(
H
0
)
P
(
H
1
)
(
C
10
−
C
00
)
(
C
01
−
C
11
)
\frac{P(y|H_0)}{P(y|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}
P(y∣H1)P(y∣H0)<H0>H1P(H1)P(H0)(C01−C11)(C10−C00)
又
P
(
y
∣
H
0
)
P
(
y
∣
H
1
)
=
P
(
H
0
∣
y
)
P
(
y
)
P
(
H
0
)
P
(
H
1
∣
y
)
P
(
y
)
P
(
H
1
)
=
P
(
H
0
∣
y
)
P
(
H
1
)
P
(
H
1
∣
y
)
P
(
H
0
)
\frac{P(y|H_0)}{P(y|H_1)}=\frac{\frac{P(H_0|y)P(y)}{P(H_0)}}{\frac{P(H_1|y)P(y)}{P(H_1)}}=\frac{P(H_0|y)P(H_1)}{P(H_1|y)P(H_0)}
P(y∣H1)P(y∣H0)=P(H1)P(H1∣y)P(y)P(H0)P(H0∣y)P(y)=P(H1∣y)P(H0)P(H0∣y)P(H1)
且
P
(
H
0
∣
y
)
P
(
H
1
∣
y
)
=
1
2
π
σ
2
e
−
1
2
σ
2
(
y
−
A
)
2
÷
1
2
π
σ
2
e
−
1
2
σ
2
(
y
+
A
)
2
=
e
2
A
y
σ
2
\frac{P(H_0|y)}{P(H_1|y)}=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(y-A)^2}÷\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(y+A)^2}=e^{\frac{2Ay}{\sigma^2}}
P(H1∣y)P(H0∣y)=2πσ2
1e−2σ21(y−A)2÷2πσ2
1e−2σ21(y+A)2=eσ22Ay
故贝叶斯检测准则基本表达式为
e
2
A
y
σ
2
P
(
H
1
)
P
(
H
0
)
>
H
1
<
H
0
P
(
H
0
)
P
(
H
1
)
(
C
10
−
C
00
)
(
C
01
−
C
11
)
e^{\frac{2Ay}{\sigma^2}}\frac{P(H_1)}{P(H_0)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}
eσ22AyP(H0)P(H1)<H0>H1P(H1)P(H0)(C01−C11)(C10−C00)
不等式两边取对数可得最简判决式
y
>
H
1
<
H
0
σ
2
2
A
l
n
[
P
(
H
0
)
2
P
(
H
1
)
2
(
C
10
−
C
00
)
(
C
01
−
C
11
)
]
y\frac{>H_1}{<H_0}\frac{\sigma^2}{2A}ln[\frac{P(H_0)^2}{P(H_1)^2}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}]
y<H0>H12Aσ2ln[P(H1)2P(H0)2(C01−C11)(C10−C00)]
2)接收机的检测门限为
λ
0
=
σ
2
2
A
l
n
[
P
(
H
0
)
2
P
(
H
1
)
2
(
C
10
−
C
00
)
(
C
01
−
C
11
)
]
\lambda_0=\frac{\sigma^2}{2A}ln[\frac{P(H_0)^2}{P(H_1)^2}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}]
λ0=2Aσ2ln[P(H1)2P(H0)2(C01−C11)(C10−C00)]
3)①P(H0)=P(H1)时,接收机检测门限为0;
②P(H0)=2*P(H1)时,接收机检测门限为
λ
0
=
−
σ
2
A
l
n
2
\lambda_0=-\frac{\sigma^2}{A}ln2
λ0=−Aσ2ln2
4、设二元假设检验的观测信号模型为:
H
0
:
x
=
−
A
+
n
H_0: x=-A+n
H0:x=−A+n
H 1 : x = A + n H_1: x=A+n H1:x=A+n
其中n是均值为0,方差为σ2的高斯随机变量。若两种假设是等先验概率的,而代价因子为c00 =1,c10=4,c11 =2,c01 =8:
(1)试求贝叶斯判决表达式和平均代价C。
(2)若c10=c01=1,c00=c11=0,采用最小平均错误概率准则,试确定判决式,并求最小平均错误概率;
解
1)贝叶斯判决表达式如下:
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
>
H
1
<
H
0
P
(
H
0
)
P
(
H
1
)
(
C
10
−
C
00
)
(
C
01
−
C
11
)
\frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}
P(x∣H1)P(x∣H0)<H0>H1P(H1)P(H0)(C01−C11)(C10−C00)
又
P
(
x
∣
H
0
)
P
(
x
∣
H
1
)
=
P
(
H
0
∣
x
)
P
(
x
)
P
(
H
0
)
P
(
H
1
∣
x
)
P
(
x
)
P
(
H
1
)
=
P
(
H
0
∣
x
)
P
(
H
1
∣
x
)
=
=
1
2
π
σ
2
e
−
1
2
σ
2
(
x
−
A
)
2
÷
1
2
π
σ
2
e
−
1
2
σ
2
(
x
+
A
)
2
=
e
2
A
x
σ
2
\frac{P(x|H_0)}{P(x|H_1)}=\frac{\frac{P(H_0|x)P(x)}{P(H_0)}}{\frac{P(H_1|x)P(x)}{P(H_1)}}=\frac{P(H_0|x)}{P(H_1|x)}==\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-A)^2}÷\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x+A)^2}=e^{\frac{2Ax}{\sigma^2}}
P(x∣H1)P(x∣H0)=P(H1)P(H1∣x)P(x)P(H0)P(H0∣x)P(x)=P(H1∣x)P(H0∣x)==2πσ2
1e−2σ21(x−A)2÷2πσ2
1e−2σ21(x+A)2=eσ22Ax
故贝叶斯判决表达式可改写为下式
e
2
A
x
σ
2
>
H
1
<
H
0
(
C
10
−
C
00
)
(
C
01
−
C
11
)
e^{\frac{2Ax}{\sigma^2}}\frac{>H_1}{<H_0}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}
eσ22Ax<H0>H1(C01−C11)(C10−C00)
不等式两边取对数,将代价因子的值带入,得最简判决式如下:
x
>
H
1
<
H
0
σ
2
2
A
l
n
1
2
{x}\frac{>H_1}{<H_0}\frac{\sigma^2}{2A}ln\frac{1}{2}
x<H0>H12Aσ2ln21
平均代价为:
C
‾
=
∑
j
=
0
1
∑
i
=
0
1
C
i
j
P
(
H
j
)
P
(
H
i
∣
H
j
)
\overline{\text{C}}=\sum_{j=0}^{1}\sum_{i=0}^{1}C_{ij}P(H_j)P(H_i|H_j)
C=j=0∑1i=0∑1CijP(Hj)P(Hi∣Hj)
又
P
(
H
0
∣
H
1
)
=
∫
−
∞
σ
2
2
A
l
n
1
2
P
(
x
∣
H
1
)
d
x
=
∫
−
∞
σ
2
2
A
l
n
1
2
1
2
π
σ
2
e
−
1
2
σ
2
(
x
+
A
)
2
d
x
=
1
σ
2
∫
−
∞
A
σ
−
σ
2
A
l
n
2
1
2
π
e
−
u
2
2
d
u
=
1
σ
2
[
1
−
Q
(
A
σ
−
σ
2
A
l
n
2
)
]
P(H_0|H_1)=\int_{-\infty}^{\frac{\sigma^2}{2A}ln\frac{1}{2}}P(x|H_1)dx=\int_{-\infty}^{\frac{\sigma^2}{2A}ln\frac{1}{2}}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x+A)^2}dx=\frac{1}{\sigma^2}\int_{-\infty}^{\frac{A}{\sigma}-\frac{\sigma}{2A}ln2}\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}du=\frac{1}{\sigma^2}[1-Q(\frac{A}{\sigma}-\frac{\sigma}{2A}ln2)]
P(H0∣H1)=∫−∞2Aσ2ln21P(x∣H1)dx=∫−∞2Aσ2ln212πσ2
1e−2σ21(x+A)2dx=σ21∫−∞σA−2Aσln22π
1e−2u2du=σ21[1−Q(σA−2Aσln2)]
同理
P
(
H
1
∣
H
0
)
=
1
σ
2
Q
[
−
A
σ
−
σ
2
A
l
n
2
]
P(H_1|H_0)=\frac{1}{\sigma^2}Q[-\frac{A}{\sigma}-\frac{\sigma}{2A}ln2]
P(H1∣H0)=σ21Q[−σA−2Aσln2]
其中Q[x]为高斯概率密度函数的累积分布函数,此时带回平均代价的公式即可求得平均代价。
2)由(1),可得此时判决式为
x
>
H
1
<
H
0
0
{x}\frac{>H_1}{<H_0}0
x<H0>H10
最小平均错误概率为
P
e
=
P
(
H
0
)
P
(
H
1
∣
H
0
)
+
P
(
H
1
)
P
(
H
0
∣
H
1
)
P_e=P(H_0)P(H_1|H_0)+P(H_1)P(H_0|H_1)
Pe=P(H0)P(H1∣H0)+P(H1)P(H0∣H1)
其中P(H0)和P(H1)为0.5,P(H1|H0)和P(H0|H1)可由(1)中的计算过程同理求得,此处不再赘述。
5、某博弈中甲乙双方各有三个策略,其相应的支付矩阵如下图所示:
1)甲会不会采用策略A,为什么?
2)请剔除上述支付矩阵里的占劣策略。
3)请找出该博弈的纯策略纳什均衡。
解:
1)甲不会采用策略A,策略A是甲的劣策略,它是劣于C的。
注解:从甲的角度看:若乙采用策略D,则甲采用策略B收益最大;若乙采用策略E,则甲采用策略C收益最大;若乙采用策略F,则甲采用策略B收益最大;综上,甲不会采用策略A。
2)由1的注解可知,对于甲而言,A是一个劣策略,可以剔除。
从乙的角度看:若甲采用A策略,则乙采用策略D收益最大;若甲采用B策略,则乙采用策略E收益最大;若甲采用C策略,则乙采用策略E收益最大。综上,对于乙而言,策略D是一个劣策略,可以剔除。
3)重新从乙的角度看,现在认为甲已剔除它的劣策略A;若甲采用策略B,则乙采用策略E收益最大;若甲采用策略C,则乙采用策略E收益最大;此时F成为乙的劣策略,可以剔除;
此时再从甲的角度看,已知乙采用策略E,则甲采用C策略收益最大。
综上,纳什均衡为(C,E)。
tips:支付矩阵是指在博弈论中,用来描述两个人或多个参与人的策略和支付的矩阵。不同参与人的利润或效用就是支付。
6、利用增熵原理确定决策树的父节点。
Day | Outlook | Temperature | Humidity | Wind | Play Tennis |
---|---|---|---|---|---|
1 | Sunny | Hot | High | Weak | No |
2 | Sunny | Hot | High | Strong | No |
3 | Overcast | Hot | High | Weak | Yes |
4 | Rain | Mild | High | Weak | Yes |
5 | Rain | Cool | Normal | Weak | Yes |
6 | Rain | Cool | Normal | Strong | No |
7 | Overcast | Cool | Normal | Strong | Yes |
8 | Sunny | Mild | High | Weak | No |
9 | Sunny | Cool | Normal | Weak | Yes |
10 | Rain | Mild | Normal | Weak | Yes |
11 | Sunny | Mild | Normal | Strong | Yes |
12 | Overcast | Mild | High | Strong | Yes |
13 | Overcast | Hot | Normal | Weak | Yes |
14 | Rain | Mild | High | Strong | No |
解:记Play Tennis为事件S,则事件S的熵为
E
n
t
r
o
p
y
(
S
)
=
−
9
14
l
o
g
2
9
14
−
5
14
l
o
g
2
5
14
=
0.94
Entropy(S)=-\frac{9}{14}log_2{\frac{9}{14}}-\frac{5}{14}log_2{\frac{5}{14}}=0.94
Entropy(S)=−149log2149−145log2145=0.94
若以Humidity为节点进行分类,结果如下
其中3+,4-表示在Humidity为High时,有3次Play Tennis事件为Yes,4次为No。E=0.985的计算公式如下:
E
=
−
3
7
l
o
g
2
3
7
−
4
7
l
o
g
2
4
7
=
0.985
E=-\frac{3}{7}log_2{\frac{3}{7}}-\frac{4}{7}log_2{\frac{4}{7}}=0.985
E=−73log273−74log274=0.985
余者原理类似,故不再赘述。
G
a
i
n
(
S
,
H
u
m
i
d
i
t
y
)
=
0.94
−
7
14
×
0.985
−
7
14
×
0.592
=
0.151
Gain(S,Humidity)=0.94-\frac{7}{14}×0.985-\frac{7}{14}×0.592=0.151
Gain(S,Humidity)=0.94−147×0.985−147×0.592=0.151
其中第一个7/14表示Humidity中High出现的概率,第二个7/14表示Humidity中Normal出现的概率。
所以Humidity属性能为最终事件S的判定减少0.151的熵。(熵越大,事件的不确定性越大)
同理,可得
G
a
i
n
(
S
,
W
i
n
d
)
=
0.94
−
8
14
×
0.811
−
6
14
×
1
=
0.048
Gain(S,Wind)=0.94-\frac{8}{14}×0.811-\frac{6}{14}×1=0.048
Gain(S,Wind)=0.94−148×0.811−146×1=0.048
G a i n ( S , O u t l o o k ) = 0.94 − 5 14 × ( − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 ) − 4 14 × 0 − 5 14 × ( − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 ) = 0.246 Gain(S,Outlook)=0.94-\frac{5}{14}×(-\frac{2}{5}log_2{\frac{2}{5}}-\frac{3}{5}log_2{\frac{3}{5}})-\frac{4}{14}×0-\frac{5}{14}×(-\frac{2}{5}log_2{\frac{2}{5}}-\frac{3}{5}log_2{\frac{3}{5}})=0.246 Gain(S,Outlook)=0.94−145×(−52log252−53log253)−144×0−145×(−52log252−53log253)=0.246
G a i n ( S , T e m p e r a t u r e ) = 0.029 Gain(S,Temperature)=0.029 Gain(S,Temperature)=0.029
由以上四个属性的增熵结果可知,Outlook对事件S的判定减少的熵最大,故选择Outlook为父节点。
剩下三个节点的选择过程与上述过程类似,读者可尝试自行推导。