一、介绍
Bag-of-words model (BoW model) 最早出现在神经语言程序学(NLP)和信息检索(IR)领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比, 图像的特征(feature)被当作单词(Word),把图像“文字化”之后,有助于大规模的图像检索.也有人把简写为Bag-of-Feature model(BOF model)或Bag-of-Visual-Word(BOVW model).
二、基本思想
1、提取特征:根据数据集选取特征,然后进行描述,形成特征数据,如检测图像中的sift keypoints,然后计算keypoints descriptors,生成128-D的特征向量;
2、学习词袋:利用处理好的特征数据全部合并,再用聚类的方法把特征词分为若干类,此若干类的数目由自己设定,每一个类相当于一个视觉词;
3、利用视觉词袋量化图像特征:每一张图像由很多视觉词汇组成,我们利用统计的词频直方图,可以表示图像属于哪一类。
三、关键步骤
1、特征描述(关键点提取)
在提取特征的时候,根据数据集选择特征,一般最流行的特征是sift、surf特征
- SIFT特征
将一幅图像映射为一个局部特征向量集;特征向量具有平移、缩放、旋转不变性,同时对光照变化、仿射能让投影变换也有一定的不变性。
sift算法的特点:
1) SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性;
2) 独特性(Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配;
3) 多量性,即使少数的几个物体也可以产生大量的SIFT特征向量;
4) 高速性,经优化的SIFT匹配算法甚至可以达到实时的要求;
5) 可扩展性,可以很方便的与其他形式的特征向量进行联合。
Lowe关于sift的经典论文:http://www.cs.ubc.ca/~lowe/papers/iccv99.pdf
代码展示:
- HOG特征
2、聚类算法
- K-means
1)计算每个聚类确定一个初始聚类中心,这样就可以有k个初始聚类中心
2)将样本集中的样本按照最小距离原则分配到最近邻聚类
3)使用每个聚类中的样本均值做为新的聚类中心直到聚类中心不再变化
四、
经典论文:Object retrieval with large vocabularies and fast spatial matching