preface(me)
不堆数据和算力的情况下,大概是要做特定场景的。Traffic scene 相对于与课题贴合,并且有一定数量的文献,从这个角度切入看看有没有说法。
Abstract&Conclusion
step:
a.object detection and segmentation by clustering
b.element-wise image caption
c.position relation detecting
d.using these elements to construct 3D model
批:
帮助点:
1.在经典的image caption中不太强调scene这个概念,在这里scene应该是一个比element高一级比subregion低一级的概念(读后:一个用来辅助分类的三分类的)
2.相较于关注caption的输出质量,在这里caption只作为辅助用来分类scene和描述语义属性(而不是使用描述了的语义属性)。即关注高层信息时适当降低顺位
3.属性这里分了两类(动静),caption负责语义相关的属性,构建了VRD网络负责位置相关的属性
4.作为特定场景的任务,从几个图来看应该是对据类对谓词进行了范围限制(读后:在graph中对节点和边都进行了限制)
Introduction
contribution
1. Transformer backbone+element-wise 注意力机制+对抗学习+强化学习的image-captioning network for road images to describe the semantic attributes
2. A new VRD network to predict the positional relationship
3. A new two-stage 3D traffic-scene-modeling framework (1.静态元素构建三位走廊模型 2.根据caption&位置关系 插入动态元素 )
以下为选择性阅读。
Related Work
Caption Generation for Road Images
提了一个图文对齐(AoA)和并行度的问题(LSTM,SeqGAN引入的discriminator)
Visual Relationship Detection for Object Pairs
本文的视觉关系使用的是<主谓宾(主系表)>这样的三元组结构,所以Visual Relationship Detecting(VRD)网络负责1.目标检测和对的定位 2.定义对间关系。
对于交通场景的特殊性,提出了针对的VRD。
CAPTION GENERA TION FROM ROAD IMAGES
整个的交通场景建模为两阶段
第一阶段网络包含imag-captioning network 和 VRD networking,负责:“元素检测,子区域分割”旨在提取包含元素语义、聚类子空间、元素语义属性、元素对位置关系等的场景语义信息。
第二阶段网络旨在基于场景分类结果和描述进行场景重构。
Image Captioning Network
网络包含四部分
(1) feature extraction, YOLOv3+COCO
(2) element detection, ResNet101+ImageNet,定义了三类场景:市区 农村 高速(单独训练了最后一个FC做上述三个场景的三分类)
(3) caption generation, Transformer
(4) adversarial reward.
损失函数分成了四个,生成器的的最大似然估计的,element-attention的奖励函数,discriminator的奖励函数,
批:FI就时三个词么?
Element Attention 这一块把提取器的one-hot编码的词进行了嵌入,并且拼接了来自Transformer decoder 的第一个掩码解码器的输出的特征Fs。之后送入线性层获得权重,旨在生成‘主场景元素相关’的句子
VISUAL RELATIONSHIP DETECTION
作为交通场景,做了一个特化的位置关系,即只包含前后左右四个方向
Visual Relationship Detection Network
In:pair of bbox,subregion,binary mask of the subregion
整体网络结构如下
网络中的四个模型如下:
Box Module: 两个三个FC组成的
Visual module是Resnet101, I:occupied subregion O:visual representation feature(即三分类)
Spatial Module: I:subregion的二值图(占1空0) O:给decision making module 一个消除背景干扰的位置关系
Decision Making Module:图比说话快,最后有个激活函数图里没写。
损失函数是个交叉熵。
TRAFFIC SCENE MODELING
Trafic scene description
节点空间限制为:车 人 路 左墙 右墙 背景
边空间设置为:前后左右 立走驶停泊垂直
Traffic Scene Construction
这个graph看起来比较简单一些,Edge一共分为四种,每种的内容独立不同。
这里将之前提到的subregion给了定义,一种是“多元素子域“关注空间关系,另一类是”单目标子域“。
据此根据DBSCAN (“density-based spatial clustering of applications with noise”)对YOLOv3提取的目标(的bbox)进行聚类,子域先经过聚类再送入VRD网络以避免无意义的位置关系。
图有点大 截一部分意思下了。
在后面的没有看,参考性不大。