一周AI最火论文 | 分离听不清的七嘴八舌,只需一张面部快照

本周关键词:GANs、Julia+R、AI数据库

本周最火学术研究

FaR-GAN单次面部重现

随着生成模型,尤其是生成对抗网络(GAN),在计算机视觉中的快速发展,人们越来越关注具有挑战性的任务,例如生成逼真的照片,图像到图像翻译,文本到图像翻译以及超分辨率等。

面部重现是这些具有挑战性的任务之一,它需要对面部的几何形状和运动进行3D建模。它在图像编辑,增强和交互式系统中具有许多应用,例如使用自然的人体姿势/表情为屏幕上的主体设置动画。

这篇文章在以下几个方面做出了贡献:

开发一种基于GAN的方法,解决单次面部重现的任务
所提出的的FaR-GAN能够组合外观和表情信息进行有效的面部建模
与对照方法相比,通过本方法产生的重新成像图像具有更高的图像质量

原文:
https://arxiv.org/pdf/2005.06402v1.pdf

JuliaConnectoR:将Julia集成到R中

就像许多考虑使用新编程语言Julia的小组一样,一些程序员也面临着从R访问他们在Julia中开发的算法的挑战。为解决此问题,他们开发了R包JuliaConnectoR。

为了可维护性和稳定性,他们基于TCP,使用优化的二进制格式交换数据。该软件包还专门包含允许在R中方便交互使用的功能。这便于使用Julia轻松开发R扩展或简单地从R中调取Julia软件包。

通过其面向功能的设计,JuliaConnectoR避免了在R工作区中不可见的Julia状态,从而实现了简洁的编程风格。研究人员通过代码示例进一步说明了程序包的功能,并讨论了相比替代程序包JuliaCall和XRJulia的优势。最后,通过使用备受关注的最新深度学习技术领域的神经常微分方程,他们用更广泛的示例来演示了该程序包的用法。该示例还为将Julia的深度学习技术集成到R中提供了更普遍的指导。

Github:
https://github.com/stefan-m-lenz/JuliaConnectoR
原文:
https://arxiv.org/abs/2005.06334v1

实现视听语音分离,你只需要一张静止图像

韩国研究人员在本文中提出了一种新的视听语音增强方法,该方法可以通过使用面部图像表示的条件嵌入,将特定说话者与其他说话者同时产生的语音隔离开来。

与使用视频剪辑上的嘴唇移动或预先注册的演讲者信息作为辅助条件的传统方法不同,该方法只需要目标演讲者的单幅面部图像。

通过自我监督,可以从潜在空间中的面部图像检索说话者,然后将其用于调节语音增强网络。这种方法克服了纯音频源分离中不可避免的置换问题,并始终根据目标身份重建语音。实验结果证实了其在语音增强任务上的有效性。

视频示例:
https://www.youtube.com/watch?v=ku9xoLh62E4&feature=youtu.be
原文:
https://arxiv.org/abs/2005.07074v1

Google AI:发布大型AI数据库

Google AI日前发布了一个大型数据库,这将很有可能成为训练和评估模型的新基准。这个复合型数据集由各种数据集组成,并提出了更为现实的任务。它由10个可公开获得的自然图像(包括ImageNet,CUB-200-2011,Fungi等)、手写字符和涂鸦数据集组成。

这个项目的研究人员尝试了流行的基准和大型数据集上的元学习,以及他们其中的的对抗性方法。他们根据测试任务的各种特征来分析性能,并检查模型利用各种多样化的数据来改善其概括性的能力。他们还提出了一组新的基线,用于增强量化元数据集中的元学习。经过广泛的研究和实验,他们发现了具有重要价值的方向性难点,适用于未来的研究。

演示如何在TensorFlow和PyTorch中使用元数据集的笔记本可以在此处访问:
https://github.com/google-research/meta-dataset/blob/master/Intro_to_Metadataset.ipynb

代码:
https://storage.googleapis.com/meta-dataset-source-code/meta-dataset-iclr2020.tar.gz

原文:
https://openreview.net/attachment?id=rkgAGAVKPr&name=original_pdf

一个通用文本解析模型的软件工具包

此工具包由jiant于3月首次推出,是一种开源工具包,适用于对英语NLU任务进行多任务和转移学习实验。Jiant在最近进行了更新,新版本中提供了一个配置驱动的界面,该界面使用一组包含50多种NLU任务,混合最有效的句子编码器模型以及多任务、多阶段的训练方法,来定义转换学习、演示学习实验等。

此外,开发人员证明了jiant拥有能够实现各种NLU任务上较优的性能。jiant的任务和句子编码器组件的模块化设计,使得用户无需编辑源代码即可快速轻松地尝试大量任务,模型和参数的配置。

jiant的设计还使添加新任务变得容易,并且它的体系结构使扩展jiant来支持新的句子编码器变得更简单。研究人员还证明了,jiant可以在BERT和RoBERTa等各种任务和模型里,实现较优的性能。

jiant代码是开源的,他们邀请贡献者在Github上的jiant项目库中,提交问题或申请提交代码修复问题:
https://github.com/nyu-mll/jiant
原文:
https://arxiv.org/abs/2003.02249v2

其他爆款论文

一个生物医学机器阅读理解的数据库,BIOMRC:
https://arxiv.org/abs/2005.06376v1

一种开放式机器人学习方法, DREAM架构:
https://arxiv.org/abs/2005.06223v1

人工智能和机器人应用中行为树的综合研究:
https://arxiv.org/abs/2005.05842v2

S2IGAN:通过对抗性学习生成语音到图像:
https://arxiv.org/abs/2005.06968v1

规范可能无法解释的深度学习中隐式正则化:
https://arxiv.org/abs/2005.06398v1

AI大事件

全球最复杂的主板,安培(Ampere)为大型AI模型提供动能:
https://www.zdnet.com/article/nvidias-ampere-plus-worlds-most-complex-motherboard-will-fuel-gigantic-ai-models/

Kite开发的的AI自动代码完成工具,现已适用于更多语言:
https://www.zdnet.com/article/javascript-programming-language-developers-this-is-kites-new-free-ai-code-completion-tool/

索尼:创建世界上第一个内置AI的图像传感器:
https://www.bloomberg.com/news/articles/2020-05-14/sony-builds-ai-into-latest-image-sensor

NVIDIA最新的AI超级计算机加入了对抗COVID-19大军:
https://www.engadget.com/nvidia-gtc-2020-ai-health-covid-19-130031390.html

Adobe的Experience Cloud推出了新的智能服务,旨在帮助企业使用AI对数据集进行预测建模:
https://www.zdnet.com/article/adobe-intros-new-intelligent-services-for-experience-cloud/

上一篇:18禁警告!一万张照片投喂,这个叛逆RNN项目能自动画丁丁,数据集还开源了


下一篇:“机甲战士”外卖小哥现身上海!负重一百斤一口气爬五楼,饿了么回应:落地时间未知