计算机视觉最新进展概览(2021年5月16日到2021年5月22日)

2024-03-12 18:41:32

1、Improved detection of small objects in road network sequences using CNN and super resolution

目前道路网络中大量的现有IP摄像头是利用捕获的数据、分析视频和检测任何重大事件的机会。为了达到这个目的，检测移动的车辆是必要的，直到几年前，传统的人工视觉技术还在执行这一任务。目前，深度学习网络已经取得了显著的改进。尽管如此，目标检测仍被认为是计算机视觉中一个主要的开放问题。目前的情况是不断演变的，新的模式和技术正在出现，试图改善这一领域。特别是在小目标检测方面出现了新的问题和缺陷，这些问题主要对应于道路场景中出现的车辆。所有这些都意味着，尝试提高小元素低检出率的新解决方案是必要的。在不同的新兴研究路线中，这项工作侧重于小物体的探测。特别是，我们的建议旨在从视频监控摄像头捕获的图像中检测车辆。在本研究中，提出了一种基于卷积神经网络(CNN)检测的超分辨率过程检测小尺度目标的新方法。神经网络与负责提高图像分辨率的过程集成，以提高目标检测性能。通过对一组包含不同尺度元素的交通图像进行测试，根据模型得到的检测结果测试效率，证明我们的方案在广泛的情况下都取得了良好的效果。

2、S IMPLE T RANSPARENT A DVERSARIAL E XAMPLES

机器学习即服务(Machine Learning as a Service, MLaaS)视觉API的使用越来越多，因为它们提供多种服务，包括预先构建的模型和算法，否则如果从头构建，会占用大量资源。当这些API被部署到高风险的应用程序时，它们对于不同操作的健壮性是非常重要的。在评估视觉API的健壮性时，最近的工作只关注典型的对抗性攻击。我们提出了两种新的对抗图像生成方法，并对谷歌云视觉API的光学字符识别服务和部署在现实环境中的目标检测API(如sightengine.com、picpurify.com、谷歌云视觉API和微软Azure的计算机视觉API)的鲁棒性进行了评估。具体来说，我们超越了传统的“小噪声”对抗性攻击，引入秘密嵌入和透明对抗性实例作为评估鲁棒性的更简单方法。这些方法非常简单，即使是非专业人士也可以设计这样的攻击。因此，当API被用于高风险的应用程序时，它们构成了严重的威胁。我们的透明对抗实例成功规避了最先进的目标检测API，如Azure Cloud Vision(攻击成功率52%)和谷歌Cloud Vision(攻击成功率36%)。90%的图像都有一个秘密的嵌入文本，成功地骗过了有时间限制的人类的视觉，但被谷歌云视觉API的光学字符识别检测出来。我们的研究结果为稳健性评价提供了简单而非传统的方法。

3、Generalized Few-Shot Object Detection without Forgetting

近年来，针对数据有限的情况，多镜头目标检测被广泛采用。虽然大多数以前的工作仅仅关注于少样本类别的性能，但我们声称检测所有类是至关重要的，因为测试样本可能包含现实应用程序中的任何实例，这需要少样本检测器学习新概念而不忘记。通过对基于迁移学习的方法的分析，我们利用了一些被忽视但有益的特性，设计了一个简单而有效的少样本检测器，保留R-CNN。该算法由Bias-Balanced RPN和Re-detector两部分组成，前者用于对预处理后的RPN进行去偏，后者用于在不忘记先验知识的情况下发现少量射击类目标。在少样本检测基准上的大量实验表明，在所有设置中，保留R-CNN在总体性能上明显优于最先进的方法，因为它可以在少镜头类上实现竞争结果，而且根本不会降低基类性能。我们的方法已经证明了长期渴望的永不遗忘学习者在目标检测中是可用的。

4、Content-Augmented Feature Pyramid Network with Light Linear Transformers

与经典的卷积网络提取局部接受域内的特征不同，变压器可以使用自注意机制自适应地从全局视图聚合相似的特征。在目标检测方面，特征金字塔网络(FPN)提出了跨层的特征交互，并证明了它的重要性。但是，它的互动方式仍然是局部的，还有很大的改进空间。由于变压器最初是为自然语言处理任务而设计的，将处理对象直接从文本转换到图像将会造成难以承受的计算和空间开销。本文利用线性化的注意函数来解决上述问题，构建了一种新的结构——内容增强特征金字塔网络(CA-FPN)，提出了一种全局内容抽取模块，并通过轻线性变压器将其与FPN深度结合。此外，光变变换器还可以进一步简化多头注意机制的应用。最重要的是，我们的CA-FPN可以很容易地插入现有的基于fpn的模型。在具有挑战性的COCO目标检测数据集上进行的大量实验表明，我们的CA-FPN在没有附加功能的情况下显著优于竞争基线。

5、Fast and Accurate Quantized Camera Scene Detection on Smartphones, Mobile AI 2021 Challenge: Report

摄像头场景检测是智能手机上最常见的计算机视觉问题之一。虽然许多自定义解决方案是由电话供应商开发的，但迄今为止没有一个设计的模型是公开可用的。为了解决这个问题，我们引入了第一个移动AI挑战，目标是开发基于深度学习的量化相机场景分类解决方案，可以在智能手机和物联网平台上展示实时性能。为此，研究人员向参与者提供了一个大型CamSDD数据集，该数据集包含超过11K张属于30个最重要场景类别的图像。所有模型的运行时间都在流行的苹果仿生A11平台上进行了评估，该平台可以在许多iOS设备中找到。所提出的解决方案与所有主要的移动AI加速器完全兼容，可以在最近的大多数智能手机平台上展示100-200 FPS以上，同时实现超过98%的前3名精度。本文详细描述了该挑战中开发的所有模型。

码农公寓