一周AI最火论文 | 新冠病毒数据开源，Kaggle发布新冠病毒挑战赛

2022-03-01 04:00:51

本周关键词：NLP、3D建模、对象检测

本周最火学术研究

新冠病毒科研资料开源

由企业家保罗·艾伦创办的艾伦研究所（Allen Institute）和世界领先的科研小组合作，创建了一个新的、结构化的开放研究数据集（CORD-19），全世界的机器学习社区都可以使用它，来推进新冠病毒（COVID-19）的研究。该数据集是一个统一的免费资源，包含超过四万四千篇学术文章、超过两万九千篇有关COVID-19和冠状病毒家族的病毒的资料全文，供全球研究团体使用。它旨在动员研究人员应用自然语言处理技术的最新进展，为对抗这种传染病提供新的认知。随着新研究每周发表在同行评审的出版物上，语料库将随之更新。

参加CORD-19挑战：Kaggle组织了一个关于新冠病毒的开源研究数据集挑战，旨在激励社区使用CORD-19的数据集，以寻找有关CORD-19的新发现。

报名链接：

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

数据集：

https://pages.semanticscholar.org/coronavirus-research

适用于多种人类语言的Python自然语言处理工具包

本文介绍了Stanza，一个支持66种人类语言的开源Python自然语言处理工具包。与现有的其他工具包相比，Stanza具有用于语言分析的不定语言全神经管道，包括标记化、多词标记扩展、词形化、词性和形态特征标记、依赖项解析和命名的实体识别等特征。

研究人员表示，他们对Stanza进行了共计112个数据集的训练（包括Universal Dependencies树库和其他多语种语料库），来证明相同的神经体系结构可以很好地泛化并在所有测试的语言上表现优异。此外，Stanza还使用了一个与Java Stanford CoreNLP软件相连接的本地Python接口，这个接口进一步扩展了原有功能，从而能够涵盖其他任务，例如共引用解析和关系提取。

Stanza的神经管道不仅涵盖广泛的人类语言，由于其结构设计与语言无关、只靠全神经网络，因此也能在所有任务上都准确无误地使用。

源代码、文档和已经训练好的模型（适合66种语言）：

https://stanfordnlp.github.io/stanza/

原文：

https://arxiv.org/abs/2003.07082v1

Structured3D：用于结构化3D建模的大型照片数据集

在这项工作中，研究人员展示了一个大型的合成数据集：Structured3D。它具有21835个房间丰富的地面真实3D结构注释，和超过19万6千个逼真的2D渲染。

这一数据集为大型的逼真图像提供了丰富的3D结构注释，可以用于各种结构化3D建模任务。

这个数据集还有许多潜在用途，研究人员从不同方向，进一步证明了它在增加真实数据和促进房间布局估计任务的域适应方面的优势。

研究人员认为，这项工作是构建智能机器重要且令人兴奋的一步，这种机器可以实现人类水平的整体3D场景理解。他们也将合成数据集与真实图像结合使用，训练深层网络进行房间布局估算，并展示了基准数据集的改进性能。

模型：https://arxiv.org/abs/1908.00222v2

原文：https://arxiv.org/abs/1908.00222v2

OpenImage 2019第一名-对象检测和实例分割

本文介绍了OpenImage Challenge 2019中两个冠军团队的项目：分别是用于检测轨道的“MMfruit”和用于分段轨道的“MMfruitSeg”。

在竞赛中，研究人员观察到，即使具有共享特征，一个对象中的不同位置在两项任务上的表现也完全不一致。例如，显著位置的特征通常有利于分类，而对象边缘周围的特征则有利于回归。

从这个发现出发，他们提出去耦头（DH）通过自学习的最佳特征提取来解开对象的分类和回归，从而带来了很大的改进。此外，他们将soft-NMS算法调整为adj-NMS，以获得稳定的性能提升。最后，他们通过对边界框的位置和置信度进行分析，提出了一种精心设计的集成策略。他们的工作还介绍了几种训练/推理策略以及一些技巧，这些技巧可对检测器进行较小的改进。

原文：

https://arxiv.org/abs/2003.07557v1

使用MediaPipe在移动设备上进行实时3D对象检测

Google AI最近发布了MediaPipe Objectron，这是一种用于日常3D对象的实时移动检测方法。它可以检测2D图像中的对象，并通过在新创建的3D数据集上训练的机器学习（ML）模型来估计其姿势和大小。Objectron在MediaPipe中实现，MediaPipe是一个开放源代码的跨平台框架，能够用于构建处理不同形式感知数据的程序，Objectron可以在移动设备上实时计算所面对物体的3D边界框。

为了鼓励研究人员和开发人员根据我们的算法进行实验和原型设计，Google在MediaPipe中发布了其设备上的ML管道，其中包括端到端演示移动应用程序（见链接）以及两个经过训练的模型。

开发者希望通过与广泛的研究社区共享解决方案，并推进新的用例，新的应用程序和新的研究工作。他们计划将模型扩展到更多类别，并在未来进一步改善我们的设备性能。

GitHub链接：

https://github.com/google/mediapipe/

Demo：https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

原文:

https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

其他爆款论文

在医学图像的背景下更深入地了解对抗性示例，了解基于深度学习的医学图像分析系统的对抗性攻击：

https://arxiv.org/abs/1907.10456v2

基于转换器的、端到端的、语音识别语义掩码：

https://arxiv.org/abs/1912.03010v2