文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

preface(me)

不堆数据和算力的情况下,大概是要做特定场景的。Traffic scene 相对于与课题贴合,并且有一定数量的文献,从这个角度切入看看有没有说法。

Abstract&Conclusion

step:

a.object detection and segmentation by clustering

b.element-wise image caption

c.position relation detecting

d.using these elements to construct 3D model

批:

帮助点:

1.在经典的image caption中不太强调scene这个概念,在这里scene应该是一个比element高一级比subregion低一级的概念(读后:一个用来辅助分类的三分类的)

2.相较于关注caption的输出质量,在这里caption只作为辅助用来分类scene和描述语义属性(而不是使用描述了的语义属性)。即关注高层信息时适当降低顺位

3.属性这里分了两类(动静),caption负责语义相关的属性,构建了VRD网络负责位置相关的属性

4.作为特定场景的任务,从几个图来看应该是对据类对谓词进行了范围限制(读后:在graph中对节点和边都进行了限制)

Introduction

contribution

1. Transformer backbone+element-wise 注意力机制+对抗学习+强化学习的image-captioning network for road images to describe the semantic attributes 

2. A new VRD network to predict the positional relationship  

3. A new two-stage 3D traffic-scene-modeling framework (1.静态元素构建三位走廊模型 2.根据caption&位置关系 插入动态元素 )

 

以下为选择性阅读。

Related Work

Caption Generation for Road Images

提了一个图文对齐(AoA)和并行度的问题(LSTM,SeqGAN引入的discriminator)

Visual Relationship Detection for Object Pairs

本文的视觉关系使用的是<主谓宾(主系表)>这样的三元组结构,所以Visual Relationship Detecting(VRD)网络负责1.目标检测和对的定位 2.定义对间关系。

对于交通场景的特殊性,提出了针对的VRD。

 

 CAPTION GENERA TION FROM ROAD IMAGES

整个的交通场景建模为两阶段

第一阶段网络包含imag-captioning network 和 VRD networking,负责:“元素检测,子区域分割”旨在提取包含元素语义、聚类子空间、元素语义属性、元素对位置关系等的场景语义信息。

第二阶段网络旨在基于场景分类结果和描述进行场景重构。

Image Captioning Network

网络包含四部分

(1) feature extraction, YOLOv3+COCO

(2) element detection, ResNet101+ImageNet,定义了三类场景:市区 农村 高速(单独训练了最后一个FC做上述三个场景的三分类)

(3) caption generation, Transformer

(4) adversarial reward.

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

损失函数分成了四个,生成器的的最大似然估计的,element-attention的奖励函数,discriminator的奖励函数,

批:FI就时三个词么?

Element Attention 这一块把提取器的one-hot编码的词进行了嵌入,并且拼接了来自Transformer decoder 的第一个掩码解码器的输出的特征Fs。之后送入线性层获得权重,旨在生成‘主场景元素相关’的句子

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

VISUAL RELATIONSHIP DETECTION

作为交通场景,做了一个特化的位置关系,即只包含前后左右四个方向

Visual Relationship Detection Network

In:pair of bbox,subregion,binary mask of the subregion

整体网络结构如下

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

网络中的四个模型如下:

Box Module: 两个三个FC组成的

Visual module是Resnet101, I:occupied subregion O:visual representation feature(即三分类)

Spatial Module: I:subregion的二值图(占1空0) O:给decision making module 一个消除背景干扰的位置关系

Decision Making Module:图比说话快,最后有个激活函数图里没写。

损失函数是个交叉熵。

TRAFFIC SCENE MODELING

Trafic scene description

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

节点空间限制为:车 人 路 左墙 右墙 背景

边空间设置为:前后左右 立走驶停泊垂直

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

Traffic Scene Construction

这个graph看起来比较简单一些,Edge一共分为四种,每种的内容独立不同。

这里将之前提到的subregion给了定义,一种是“多元素子域“关注空间关系,另一类是”单目标子域“。

据此根据DBSCAN (“density-based spatial clustering of applications with noise”)对YOLOv3提取的目标(的bbox)进行聚类,子域先经过聚类再送入VRD网络以避免无意义的位置关系。

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

图有点大 截一部分意思下了。

在后面的没有看,参考性不大。

 

 

 

 

 

 

 

 

上一篇:PAT甲级——1094 The Largest Generation (树的遍历)


下一篇:MLIR与Code Generation