文笔很怪,看着不连贯
Abstract&Conclusion
相机+YOLO+LSTM+Inception V3+音频
啊,时代真好。
未来加入情感识别和距离检测。
Introduction
RW
早期工作有由避障系统衍生的'virtual white cane'基于激光测距的‘一戳知距’,'Path Force feedback belt'基于3D建模进行力反馈,Smart cane基于超声波的,贵、不准(水)、供电
'Silicon Eyes'基于GPS+GSM+触觉反馈+色反馈集成在手套,'obstacle avoidance using auto-adaptive thresholding method'远距离提醒,近距离导航
'Eye substitution'GPS+GSM+超声波(看意思是'Smart cane'的升级,作者没有指出太多缺点)###
' remote guidance system'相机+GPS+GSM, 批:需要一个人工引导员太局限了
'wearable navigation aid for blind ',震动反馈的,也是需要人工引导
'Pathfinder',基于红外的,针对距离的
技术上有激光的 超声的 红外的,反馈上有bibibi的有震动有热弄个引导的,按作者的意思用image caption做反馈是很新颖的,从时间轴来看不一定特别新。
Methodology
他说有个流程图,也没标号,我也没找到。文字复述下了:
1.使用者扭头到所关注方向
2.按一个按钮拍照
3.输出音频
lakh——十万,印度英语
数据集使用的COCO,进行了数据清洗时删除了词频10以下的词汇。
预处理:
1.图像:YOLO进行检测,一次最多输入八个检测出的目标到描述网络,为了转换成统一大小,使用了Inception V3 和自动特征工程,查了一下和inceptionv3是一样的,就是删掉了最后的softmax,自动特征工程在哪里体现了,不懂。
2.caption:建立了'wordtoix'和'ixtoword'两个字典,分别代表word到index和index到word的对应关系,用1-1652这些整数代表词汇表中全体词汇。
数据准备:
ps:这文笔读着好累,真的是2019的文章么。
因为有一个批处理操作,要求句子是等长的,所以最后有一个padding操作
details:categorical cross entropy,adam,在每个iteration更新梯度。用fit generator(batch_size=16 epochs=20)训练了一个generator function 批:?
词嵌入:
词首先按之前的提到的,用整数进行了一次编码,之后使用GloVe方法嵌入到一个200d词向量,之后送入一个256时序的LSTM进行处理。description的最大长度是50(训练集中最大者)
模型结构:
inputs:1.将图像输入微调的inceptionV3得到的2048d的特征向量 2.前一时序的caption 3.YOLO的输出
inceptionv3得到的特征向量传递到256节点的FC层得到256d向量。两个256时序的LSTM得到256d向量,将三者求和再传递到256节点FC层、6256节点FC层、softmax层。到这里output_shape=(50,6256)
完成最终的caption时使用了greedy search approach (或者说MLE)
推理:
最大似然估计,MLE
音频输出:
用了python的这个库'pyttsx3'
Result and Analysis
开局三组图,剩下全靠编,没看到什么高价值信息
批:这狗我第一眼也没认出来
读后感:磕磕绊绊的读了下来,希望将来自己的文章不要像这样男的女的折磨。只能说从他文章提到的相关工作来看的话,他的组合是比较先进的(视觉+caption+audio)但是在当年这篇文章是否是最早提出这个组合的表示存疑。在技术方面整体也是没太多新鲜的。