本周关键词:步态分析、移动端机器学习模型、3D纹理重建
本周最佳学术研究
人工智能的下一个十年:迈向强人工智能的四个步骤
我们能做些什么来开发更“聪明”的智能AI系统?
研究自然和人工智能的研究员加里·马库斯(Gary Marcus)的答案是:我们当然能!
马库斯(Marcus)最近发布了一篇新论文,该论文针对人工智能系统的四个步骤进行了设计,有助于实现更强大的AI系统。该论文是对他去年在加拿大蒙特利尔与Yoshua Bengio进行讨论的反思,那次辩论是由蒙特利尔AI的Vince Boucher组织的。
他认为,最近在AI和机器学习方面的研究很大程度上强调了通用学习和越来越大的训练集以及越来越多的计算。
而与这种潮流相反,他提出了一种以认知模型为中心的,知识驱动的,基于推理的方法,该方法可以为比当前功能更丰富,更鲁棒的AI提供资源。
Marcus提倡遵循以下四个步骤来开发 AI 系统,他认为这将有助于我们在未来十年开发出更丰富、更智能的AI系统:
● 混合神经符号体系结构的初步开发;
● 构建丰富的、部分固有的认知框架和大规模的知识数据库;
● 开发用于此类框架的抽象推理的工具;
● 用于表示和归纳认知模型的更复杂的机制。
原文:
https://arxiv.org/ftp/arxiv/papers/2002/2002.06177.pdf
使用医疗保健领域的移动远程机器人进行基于RGB摄像机的单个步态分析
如今,用于监视非临床环境中用户健康的高级医疗设备发展得很快。此类设备可以进行实时医疗保健监控,让用户参与到监控之中并为他们提供长期医疗支持。此外,它们还减少了用户们花费在治疗上的时间以及需要去医院的时间。
其中一些健康技术有助于进行步态分析,这一程序已广泛用于关节矫正和评估主要针对老年人的下肢或脊柱问题。为了使此类技术更有效地发挥作用,必须提高它们所依赖的软件和硬件的工作效率。
在近日的一项研究中,研究人员试图改善步态分析的硬件和软件组件。他们使用安装在移动遥控机器人上的低成本RGB摄像头设计了一种新型的无标记步态分析设备。远程机器人是半自动机器人,可以使用无线网络进行远程控制。该设备支持远程控制、实时视频聊天、自动应答和自平衡。
他们还使用了最新的2D和3D人体姿势估计算法Openpose和VNect来说明如何在资源匮乏的环境中运行机器学习模型。
在使用手动标记的2D和3D地面真实数据测试了该方法后,结果表明,与商用多摄像机运动捕捉系统相比,该方法具有竞争优势,并且硬件成本更低
这是朝着在家庭环境中进行稳健的步态分析迈出的一大步,这反过来又可以实现早期医疗干预并减少用户的医疗费用。
一个Demo产品已经完成了开发,可以用于演示移动机器人是如何促进这一技术在现实生活中的应用。研究人员认为,未来的工作应集中在提升人类下肢估计的准确性和改善机器人性能上。
iOS App的代码已经开源:
https://github.com/ziyangwang007/Realtime-Openpose-on-iOS-with-Double-Robot
原文:
https://arxiv.org/abs/2002.04700v2
一个用于智能视频重编的开源框架
谷歌AI最近宣布推出AutoFlip,即一种用于智能视频的开源框架。 AutoFlip是建立在MediaPipe框架的基础上的,MediaPipe框架支持开发用于处理时间序列多模式数据的管道。以视频和目标尺寸(风景,正方形,肖像等)为输入,AutoFlip会分析视频内容,制定最佳的跟踪和裁剪策略,并以所需的宽高比生成具有相同持续时间的输出视频。
AutoFlip利用先进的对象检测和跟踪技术来智能地理解视频内容,从而为智能视频重新格式化提供了一种全自动解决方案。AutoFlip会检测表示场景变化的构图变化,以便隔离场景进行处理。在每个镜头中,视频分析会通过选择针对内容优化的相机模式和路径,在重新构图之前识别出明显的内容
Google研究人员还在不断改善AutoFlip,并呼吁开源社区中的开发商和电影制片人为这一框架做出贡献。
原文:
https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html
移动端机器学习模型缺乏保护
在手机软件中,模型保护的应用有多广?他们的鲁棒性有多强?窃取一个模型的成本是多少?
这篇论文试图解答以上这些问题。这个问题值得讨论的原因在于,现在数以亿计的未受保护设备在使用现有的机学习模型,而这些模型都是开源的,这就导致这些设备有可能受到攻击。
研究员们建立了一个简单的应用程序来作为数据分析管道,并用此分析了46,753个流行应用程序。他们发现了1468个包含机器学习的应用程序。
以下是他们的发现:41%使用机器学习的应用程序根本不保护其模型,并且其他人可以从应用程序包中窃取这些模型。即使一部分应用程序使用了模型保护或对模型加密了,研究人员也能够通过简单的动态分析手段从其中的66%程序里拿到原模型。提取的模型类型主要来自商业产品,用途上包括面部识别、活动检测、ID /银行卡识别和恶意软件检测。这些模型如果泄漏,其财务影响可能达数百万美元。
系统安全在现在的系统里是至关重要的一部分。这项研究表明,设备上的未加密或简单加密的机器学习模型目前有泄露的高风险,由于其经济效益,攻击者极有可能窃取这些模型。本文讨论了使用机器学习模型的设备安全性问题,并讨论了其中的技术难点。
这项工作致力于启发未来的研究人员,希望他们能开发出针对手机端的,具有更强鲁棒性和实际性的机器学习模型。
原文:
https://arxiv.org/abs/2002.07687v1
使用单视图RGB图像对人体进行3D纹理的重建
PeelNet是一种端到端的生成对抗性框架,这篇论文旨在使用PeelNet解决从单个RGB图像对人体进行纹理3D重建的问题。
目前,从单个图像对人的形状和姿势进行3D重构仍然是一个巨大的挑战。造成这个难点的原因包括,严重的遮挡、多样化的服装以及亮度的变化等问题。
研究的主要贡献:
-
提供了一种处理自我遮挡问题的新方法:通过剥离的深度和RGB贴图来表示3D人体;
- 提供了一个完整的端到端的处理方式,这种方式使用了对抗性方法,在给定单个RGB图像的情况下重建具有纹理的3D人体。
3D人体的人体形状、姿势和纹理,在娱乐业,电子商务,医疗保健(物理疗法),基于移动的AR/VR平台等方面都有很高应用。如果带纹理的3D人体重建技术提高,这些平台可以从中受益。
这篇论文中提出的端到端框架效率更高,推理时间更短,并能生成可靠的3D重建。但是,由于缺少影像证据的3D切点,技术效率低下的问题目前没有得到解决。
研究人员计划通过加入一个人体网络模板来解决这个问题,可以在将来恢复这些3D切点。
原文:
https://arxiv.org/abs/2002.06664v1
其他爆款论文
关于鲁棒性的量化:
https://arxiv.org/abs/2002.06664v1
合成数据生成可提高机器学习模型训练数据的多样性:
https://ai.googleblog.com/2020/02/generating-diverse-synthetic-medical.html
Pseudo-LiDAR ++将遥远物体的检测精度提高了40%:
https://arxiv.org/abs/1906.06310v3
使用深度学习,从2D视频生成多人3D动画的小型有效解决方案:
https://arxiv.org/abs/2002.02792v1
资源放送
Excel中的计算机视觉基础:
https://github.com/amzn/computer-vision-basics-in-microsoft-excel
AI大事件
了解AI方向最新的十大重量级人物:
https://www.verdict.co.uk/top-ai-influencers/
怎样告别世界上最成问题的致病细菌?
https://news.mit.edu/2020/artificial-intelligence-identifies-new-antibiotic-0220
通过深度神经网络AI,来重建毕加索绘画中隐藏的神秘影像:
谷歌云更新了Dialogflow,以实现Better Contact Center AI的代理:
https://www.zdnet.com/article/google-cloud-updates-diagflow-for-better-contact-center-ai-agents/
五角大楼发布了其使用人工智能的准则:
优秀的文本生成工具,重写Wikipedia文章中的不准确句子,并同时保留人性化的语法和样式:
https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212