部分概念术语及名词理解

学习的理解

学习问题是指依据经验数据选取所期望的依赖关系的问题。
学习过程是一个从给定的函数集中选择一个适当的函数的过程。

主要问题:
对抗样本与鲁棒性、可解释性、数据安全与隐私性、决策因果性、逻辑性、公平性、无偏见。

常见问题:
异常,缺失,不平衡,扩容问题。

神经网络的能力

  • Representation
  • Optimization
  • Generalization

不确定性的知识+所含不确定性度量的知识=有用的知识

Softmax不等于概率,因为不具备泛化能力,在未知数据样本仍然显得过于自信。
数据+特征>算法+模型,经验之谈

CNN:稀疏连接,参数共享,平移不变,是引入无限强的先验。

半监督=监督+无监督,类似主动+迁移学习
自监督,更多是规则,接近强化学习。

感知器是超平面,多层感知器是阶梯平面。
支持向量机因最大化间隔可转化为凸优化问题。
神经网络是带有非线性映射的非线性模型。
卷积神经网络脱离了神经网络,一种规范化的计算单元。

M ∗ N M * N M∗N个数据以一种固定的方式降成 p < M ∗ N p<M * N p<M∗N个数据表示,是特征提取

低维数据映射到高维空间,由于高维空间的结构是特定的,易于构造,这就是核空间。数据内部所需编码位数一定变小。

A-Softmax与L-Softmax的最大区别在于A-Softmax的权重归一化了,而L-Softmax则没的。A-Softmax权重的归一化导致特征上的点映射到单位超球面上,而L-Softmax则不没有这个限制。

集成学习

  • Bagging 装袋,将多个预测结果进行平均,或投票。减小方差。
  • Boosting 提升,准确率高的模型权重大,准确率低则小。减小偏差。
  • Stacking 堆叠,元分类器或回归器异质集成,用元分类器的结果(特征)再分类。提升预测结果。

基学习器:基于变换,产生数据的特征,基于特征产生弱预测结果。
特征子集的选择,特征提取,去除冗余特征
在模型层次研究:复杂性,稀疏性,稳定性

问题:如何解决多实例,多标签,不平衡问题

决策树

ID3,贪心算法,属性能使得信息增益最大的划分,构建根节点,递归构建树,直到叶子节点只有1个属性。
C4.5,区别在于信息增益率,不一定是二叉树。
预剪枝实际不常用,后剪枝根据错误率避免过拟合。
CART:分类回归树,数据不纯度用Gini系数度量。
CART算法考虑到每个节点都有成为叶子节点的可能,对每个节点都分配类别。分配类别的方法可以用当前节点中出现最多的类别,也可以参考当前节点的分类错误或者其他更复杂的方法。

随机森林
随机抽样训练决策树,随机选取属性为节点,重复直到不能分裂,形成大量的决策树。

NLP

语义相似的词趋向于出现在相似的上下文。
部分概念术语及名词理解

词袋
Bag-of-words model (BoW model) 最早出现在NLP和IR领域。该模型忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档。近年来,BoW模型被广泛应用于计算机视觉中。与应用于文本的BoW类比,图像的特征(feature)被当作单词(Word)。Fei-fei Li[3]在中提出了用BoW模型表达图像的方法。他们认为,图像可以类比为文档(document),图像中的单词(words)可以定义为一个图像块(image patch)的特征向量。那么图像的BoW模型即是“图像中所有图像块的特征向量得到的直方图”。建立BoW模型主要分为如下几个步骤:
特征提取。假设有N张图像,第i张图像图像可由n(i)个image patch组成,也即可以由n(i)个特征向量表达。则总共能得到sum(n(i))个特征向量(即单词)。特征向量可以根据特征问题自行设计,常用特征有Color histogram,SIFT,LBP等。
生成字典/码本(codebook)。对上一步得到的特征向量进行聚类(可以使用K-means等聚类方法),得到K个聚类中心,用聚类中心构建码本。
根据码本生成直方图。对每张图片,通过最近邻计算该图片的每个“单词”应该属于codebook中的 “哪一类”单词,从而得到该图片对应于该码本的BoW表示。

embedding将大型稀疏向量转换为保留语义关系的低维空间。

互信息

I(X,Y) = H(X)+H(Y)-H(X,Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)
互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 Y 时 X 的条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,信息增益越大。
互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。

CV图像

非极大抑制:在多候选框,重叠部分多,选择最优框。
NMS: (非最大抑制)来执行重复数据删除,来消除冗余和相关区域的影响。

Warp
Warp这个操作本身可以理解为扭曲,变型,变换;其实就是一种数学运算,是一种统称,一般情况下paper里会定义怎么warp,不同建模warp function不同。对于计算机几何视觉一般有:
1)欧氏变换(SO3,SE3),*度为3或者6,不变的是长度,夹角,体积;
2)相似变换,*度为7,不变的是体积比;
3)仿射变换(Affine),*度12,不变的是平行性,体积比;
4)射影变换,*度15,相交性不变。

变分自编码器

自动编码器 学习 编码函数h(·)和解码函数g(·)且g(h(x)) ≈ x。

编码器可能在隐藏空间不连续,不能完成插值的问题。

VAE则随机生成意味着,即使对于相同的输入,虽然平均值和标准偏差保持不变,但是实际编码会在采样过程中发生些许变化。

直观地,平均向量控制输入的编码的中间位置,而标准偏差控制“区域”,即编码可以改变多少。 由于编码是从“圆”(分布)内的任意位置随机产生的,因此解码器不仅可以获得指向该类样本的潜在空间中的单个点,而且所有附近的点也都是相同的。 这使得解码器不仅能够解码潜在空间中的单个特定编码(使可解码的潜在空间不连续),而且还能够稍微改变,因为解码器作用在相同输入编码。

增量学习

增量学习(Incremental Learning)是指一个学习系统在没有任何先验知识的情况下,对每次观测到的样本进行学习,进行数据更新,学到新的知识,而之前的知识保存在学习系统中,不需要重复处理。
灾难性遗忘:即学习了新的知识之后,几乎彻底遗忘掉之前习得的内容。它使得人工智能体缺乏像生物一样不断适应环境以及增量式(持续)学习的能力。

迁移学习:一个领域或任务的知识应用到不同的领域,从相关领域获取标注或知识,提升目标领域的学习效果。
主动学习:主动提出标注请求,特点是交互式。
增量学习:不断学习新知识,且不会遗忘旧知识。
在线学习:随新样本到来不断更新模型的实时学习。
蒸馏网络:在大的网络上学,在新任务上用小网络部署。

上一篇:实验:BagOfFeature——基于BOW的图像检索


下一篇:java程序初始化 - 副本