2022 年初,我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析,试图找到 2021 年度,对 AI 开发者最具价值的「Pop SOTA!」工作。但面对超过 2 万篇的「SOTA」工作,我们产生了疑惑 —— 自称「SOTA」的工作就一定是先进的吗?对广大 AI 开发者来说,什么样才是先进的技术工作?是思路具有启发性?还是跑出的实验分数高?是易于实现,对数据资源、计算资源的需求可控?还是放出的代码实现即插即用,可用性强?
带着这些问题,2022 年 1 月 19 日我们通过机器之心公众号推文向机器之心的老伙计们请求了援助,开展了为期 6 天的「Pop SOTA!List for AI Developers 2021」评价活动,邀请老伙计们帮助我们就自己熟悉的工作的「引领性」、「启发性」和「应用可行性」对「Pop SOTA!」项目组预选的 TOP 256 个年度价值工作共同再进行一轮价值评价,形成一份更具代表性的 2021 年度价值工作名录。
现在,我们来公布社区评价结果了!
首先,我们来看看基于社区评价形成的「Pop SOTA!List for AI Developers 2021」年度价值工作 TOP8 ——
#1 DeepMind 开源 AlphaFold2,预测出 98.5% 的人类蛋白质结构
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
20 |
6.88 |
14.18 |
3.27 |
19.85 |
64.18 |
与预选排序一致,经过社区评价的排序在列表第一位的工作是 DeepMind 开源 AlphaFold2。
DeepMind 开源的 AlphaFold 2 在去年入选 Science 年度十大突破,被称作结构生物学 “革命性” 的突破、蛋白质研究领域的里程碑。
2018 年的 AlphaFold 使用的神经网络是类似 ResNet 的残差卷积网络,到了 AlphaFold2 则借鉴了 Transformer 架构。
AlphaFold2 利用多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。它的出现,能更好地预判蛋白质与分子结合的概率,从而极大地加速新药研发的效率。该工作收到了 10 份有效评价。
该工作在「工作价值性认可度」维度的「影响力范围」评价指标得到了满分。该指标由该工作在机器之心等多家 AI 媒体内发布当日综合报道流量经过规范化计算所得;在「工作可用性认可度」的「应用可行性」评价指标上,该工作也得到了相较其他工作非常出色的分数。
我们猜测或许是 AlphaFold 2 的应用领域较为垂直且 Deepmind 在 AlphaFold 方面的工作在 2020 年就已引起了世界关注,社区对该工作的思路已经较为熟悉,故在「工作价值性认可度」维度的「工作启发性」评价指标上评价相对平淡。但这并不影响 AlaphFold 2 在经过社区评价后依然获得了年度第一的工作的位置。
#2 微软亚洲研究院提出 Swin Transformer,在 COCO 等数据集上超越 CNN
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
2.794 |
6.17 |
17.45 |
16.36 |
14.31 |
57.09 |
经过社区评价总分第二名的工作是 ICCV 马尔奖(最佳论文)《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》。这篇论文的作者主要包括中国科学技术大学的刘泽、西安交通大学的林宇桐、微软的曹越和胡瀚等人。该研究提出了一种新的 Vision Transformer,即 Swin Transformer,它可以作为计算机视觉的通用骨干。
相比之前的 ViT 模型,Swin Transformer 做出了以下两点改进:
1、引入 CNN 中常用的层次化构建方式构建分层 Transformer;2、引入局部性(locality)思想,对无重合的窗口区域内进行自注意力计算。
在 Swin Transformer 论文公开没多久之后,微软官方也在 GitHub 上开源了代码和预训练模型,涵盖图像分类、目标检测以及语义分割任务。该工作得到了 10 次有效评价,其中,Swin Transformer 在 AI 社区的三个问题的得分平均得分超过了 16。
论文地址:https://arxiv.org/pdf/2103.14030.pdf
#3 OpenAI 发布 CLIP,支持文本图像跨模态检索,可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
6.78 |
5.34 |
15.52 |
9.65 |
17.75 |
55.04 |
经过社区评价之后,总分计算排在第三的工作是 Open AI 发布的 CLIP。
CLIP 建立在零样本迁移、自然语言监督和多模态学习方面的大量工作之上,是一种在大量图像和文本对上训练的神经网络。作为这种多模态训练的结果,CLIP 可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像。这使得 CLIP 在图像和文本搜索中非常有用。
该工作得到了 13 次有效评价。
#4 德国马克斯 · 普朗克智能系统研究所等提出 GIRAFFE,可在不影响背景或其他目标的情况下移动图像中的目标
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
0.146 |
0 |
20 |
20 |
14.54 |
54.69 |
经过社区评价之后,总分计算排在第四的工作是 CVPR 2021 最佳论文「长颈鹿」,来自德国马克斯 · 普朗克智能系统研究所和图宾根大学两位学者的文章《GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields》。
这篇获奖论文工作的一项关键性假设是在生成模型中加入组合式三维场景表征,以使图像合成更加可控。将场景表示为组合生成性神经特征场,使我们能够将一个或多个物体从背景中分离出来,并在不需要额外监督的情况下,从非结构化和未处理的图像集中学习单个物体的形状和外观。
深度生成模型允许以高分辨率进行高真实感图像合成。但对于许多应用程序来说,这还不够:内容创建还需要可控。
虽然近来一些工作研究了如何解开数据中变化的潜在因素,但其中大多数是在 2D 场景下运行的,而忽略了现实世界是 3D 的。此外,只有少数研究考虑了场景的构图性质。而该研究的关键假设是将组合 3D 场景表征结合到生成模型中,以生成更加可控的图像合成。
通过将场景表征为组合的生成神经特征场,该研究能够从背景中分离出一个或多个目标以及单个目标的形状和外观,同时从非结构化和未定位的图像集合中学习,而无需任何额外的监督。该研究通过将场景表征与神经渲染 pipeline 相结合,得到了快速且逼真的图像合成模型。实验表明,该模型能够分离出单个目标,并允许在场景中平移和旋转它们以及改变相机位姿。
在进行规范化后,该工作在「工作引领性」、「工作启发性」上均得到了最高的分数。由于本年度「Pop SOTA!」评价小应用在选用的随机算法上草率了,该工作在评价过程中仅得到了 3 次有效评价,评价分值可能存在一定的偏差。
论文地址:https://arxiv.org/abs/2011.12100
#5 何恺明一作论文提出 Masked Autoencoders(MAE),可用作计算机视觉的可扩展自监督学习器
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
12.54 |
1.81 |
17.73 |
7.27 |
15 |
54.34 |
经过社区评价之后,总分计算排在第五的工作是何恺明一作论文提出的 Masked Autoencoders。
11 月 12 日,一篇由 Facebook AI 研究院完成、何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》成为了计算机视觉圈的热门话题。
这篇论文展示了一种被称为掩蔽自编码器(masked autoencoders,MAE)的新方法,可以用作计算机视觉的可扩展自监督学习器。MAE 的方法很简单:掩蔽输入图像的随机区块并重建丢失的像素。它基于两个核心理念:研究人员开发了一个非对称编码器 - 解码器架构,其中一个编码器只对可见的 patch 子集进行操作(没有掩蔽 token),另一个简单解码器可以从潜在表征和掩蔽 token 重建原始图像。
该工作得到了 12 次有效评价。
论文地址:https://arxiv.org/abs/2111.06377
#6 GitHub 用户 babysor 发布语音克隆项目 MockingBird
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
3.652 |
16.31 |
10.9 |
15 |
8.08 |
53.94 |
经过社区评价之后,总分计算排在第六的工作是 GitHub 用户 babysor 发布的语音克隆项目 MockingBird,能够在 5 秒之内克隆任意中文语音,并用这一音色合成新的说话内容,这个项目更是一度登上 GitHub 趋势榜第一。
由于本年度「Pop SOTA!」评价小应用在选用的随机算法上草率了,该工作在评价过程中仅得到了 4 次有效评价,评价分值可能存在一定的偏差。
项目地址:https://github.com/babysor/MockingBird
#7 京东开源 PyTorch 人脸识别工具包 FaceX-Zoo,覆盖最强模型
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
0.51 |
1.09 |
18.18 |
18.18 |
15.39 |
53.35 |
经过社区评价之后,总分计算排在第七的工作是京东开源的 PyTorch 人脸识别工具包 FaceX-Zoo。
2021 年 1 月,来自京东的研究人员面向人脸识别技术开发社区提出了全新的开源框架 FaceX-Zoo。依靠高度模块化和可扩展的设计,FaceX-Zoo 提供具备多种多种 supervisory head 和骨干网络的训练模块,以实现效果最优的人脸识别。此外,它还具备标准化评估模块,以便在大多数情况下测试模型效果。
该工作得到了 3 次有效评价。由于本年度「Pop SOTA!」评价小应用在选用的随机算法上草率了,该工作在评价过程中仅得到了 3 次有效评价,评价分值可能存在一定的偏差。
论文地址:https://arxiv.org/abs/2101.04407
#8 英伟达更新 GauGAN 2.0,输入文字和简单的绘图就能创建逼真的图像
工作价值性认可度 |
工作可用性认可度 |
总分值 |
|||
工作影响力范围 |
官方实现认可度 |
工作引领性 |
工作启发性 |
应用可行性 |
|
7.74 |
0 |
15.45 |
12.73 |
16.92 |
52.85 |
经过社区评价之后,总分计算排在第八的工作是英伟达更新的 GauGAN 2.0。
在 2019 年举办的 GTC 大会上,英伟达展示了一款新的交互应用 GauGAN:利用生成对抗网络(GAN)将分割图转换为栩栩如生的图像。
在 2021 年,英伟达官方推出了 GauGAN 的继任者 GauGAN2,允许用户创建不存在的逼真风景图像。GauGAN2 将分割映射、修复和文本到图像生成等技术结合在一个工具中,旨在输入文字和简单的绘图就能创建逼真的图像。
英伟达表示:「与类似的图像生成模型相比,GauGAN2 的神经网络能够产生更多种类和更高质量的图像。」用户无需绘制想象场景的每个元素,只需输入一个简短的短语即可快速生成图像的关键特征和主题。
该工作得到了 6 次有效评价。由于没有找到官方的代码实现,该工作的官方实现认可度为 0,拉低了该工作的整体分值。
项目地址:http://gaugan.org/gaugan2/
由于微信图文容量有限,我们不在本文对完整名录中的工作及其详细分值进行一一介绍了,对于总分计算排序在前 128 的工作的详细情况感兴趣的老伙计,可通过点击「阅读原文」链接,查看经过社区评价之后的「Pop SOTA!List for AI Developers 2021」完整情况及社区评价明细。
讨论 1:社区评价后排序发生了什么变化?
我们发现,在我们预选名录名列前茅的一些工作,在经过社区评价之后离开了 TOP 8。在经过社区评价之后,以下三个理论性工作的排序发生了显著变化,分别从预选排序中的 Top 3 到 Top 152、Top5 到 Top 29、Top 7 到 Top 47:
-
「Percy Liang、李飞飞等 100 多位研究者系统阐述了大规模预训练模型背后的机遇与风险,并统一给这些模型取名为 Foundation Model」
-
「MIT 新研究为逼近矩阵乘法任务引入了一种基于学习的算法,运行速度是精确矩阵乘积的 100 倍,是当前近似方法的 10 倍」
-
「Facebook 科学家 Sho Yaida 撰书从第一性原理解释深度神经网络,LeCun 表示这是首批致力于深度学习理论的书」
2021年度技术工作 |
预选评价后分值排序 |
社区评价后分值排序 |
DeepMind 开源 AlphaFold2,预测出 98.5% 的人类蛋白质结构 |
1 |
1 |
何恺明一作论文提出 Masked Autoencoders(MAE),可用作计算机视觉的可扩展自监督学习器 |
2 |
5 |
Percy Liang、李飞飞等 100 多位研究者系统阐述了大规模预训练模型背后的机遇与风险,并统一给这些模型取名为 Foundation Model |
3 |
152 |
微软亚洲研究院提出 Swin Transformer,在 COCO 等数据集上超越 CNN |
4 |
2 |
MIT 新研究为逼近矩阵乘法任务引入了一种基于学习的算法,运行速度是精确矩阵乘积的 100 倍,是当前近似方法的 10 倍 |
5 |
29 |
谷歌推出 1.6 万亿参数语言模型 Switch Transformer,预训练速度最高可达 T5 的 7 倍 |
6 |
138 |
Facebook 科学家 Sho Yaida 撰书从第一性原理解释深度神经网络,LeCun 表示这是首批致力于深度学习理论的书 |
7 |
47 |
谷歌大脑推出结合卷积和注意力的新模型 CoAtNet,模型具有更强的学习和泛化能力 |
8 |
99 |
讨论 2:经过社区评价后,分值排序在前 128 的价值工作总体情况
我们试图从 3W1H 的角度来分析经过社区评价后的「Pop SOTA!List for AI Developers 2021」 的 TOP 128 工作总体情况,解答以下问题:
-
Where - 这些工作来自哪些国家?分布情况怎么样?
-
Who - 主要由哪些机构贡献的这些价值性工作?与顶会的分布是否一样?
-
How - 这些工作分别是如何为社区带来的价值?不同类型的工作比例如何?
-
What - 不同类别的 Top 价值工作分别是哪些?
讨论 2.1 Where?
我们基于每一项技术工作核心团队的主要人员所在机构归属国家对技术进展的来源地进行标注,得到以下统计。需要注意的是,在排名前 128 位的工作中,美国、中国的工作占据了绝大部分,其中有 5 项工作是中美合作的。
讨论 2.2 Who?我们为每一条技术进展做了机构的标注,并结合 NeurIPS 2021 年大会官网给出的各机构投稿论文的数量进行比后。
通过对比我们发现,微软、谷歌、MIT、Facebook、清华大学、斯坦福等在高投稿量同时,也有非常多高质量的论文。OpenAI、英伟达等相较论文数量不多,但是每一篇对 AI 社区来说都有不小的价值。华为、清华大学、北京智源人工智能研究院、百度、北京大学等在产出我国高质量工作上颇有建树。
我们结合 NeurIPS 2021 年大会官网给出的各机构投稿论文的数量进行对比后发现,微软、谷歌、MIT、Facebook、清华大学、斯坦福等在高投稿量同时,也有非常多高质量的论文。OpenAI、英伟达等相较论文数量不多,但是每一篇对 AI 社区来说都有不小的价值。华为、清华大学、北京智源人工智能研究院、百度、北京大学等在产出我国高质量工作上颇有建树。
讨论 2.3 How?与机构、国家类似,我们还为每个工作都打上了「新模型」、「新实现」、「新思路」、「新工具」、「新数据集」的标签,每个工作同时可以有多个标签。在前 128 个工作中、「新模型」、「新实现」依然是 AI 社区更加关注的范围,同时新思路也可以为 AI 开发者带去更多的灵感,新工具可以帮助开发者更快地进行工程落地。
讨论 2.4 What?
以下为在「新模型」、「新实现」、「新思路」、「新工具」、「新数据集」各细分类别下总分排序获得 TOP3 的工作汇总,总计 9 个:
技术工作 |
新模型 |
新实现 |
新思路 |
新工具 |
新数据集 |
DeepMind 开源 AlphaFold2,预测出 98.5% 的人类蛋白质结构 |
Y |
Y |
Y |
- |
- |
微软亚洲研究院提出 Swin Transformer,在 COCO 等数据集上超越 CNN |
Y |
Y |
Y |
- |
- |
OpenAI 发布 CLIP,支持文本图像跨模态检索,可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像 |
Y |
Y |
Y |
- |
- |
GitHub 用户 babysor 发布语音克隆项目 MockingBird |
- |
- |
- |
Y |
- |
京东开源 PyTorch 人脸识别工具包 FaceX-Zoo,覆盖最强模型 |
- |
- |
- |
Y |
- |
上海交大开源多智能体并行训练框架 MALib,支持大规模基于种群的多智能体强化学习训练 |
- |
- |
- |
Y |
- |
OpenAI 公开 GitHub Copilot 背后代码生成模型 Codex 论文及数据集 HumanEval |
Y |
- |
- |
- |
Y |
MIT、微软推出编程挑战题库数据集,可用于教 AI 编程并评估 AI 的编程能力 |
- |
- |
- |
- |
Y |
Facebook 提出 TextStyleBrush,可模仿用户笔迹 |
- |
- |
- |
- |
Y |
讨论 2.5 GitHub Star
我们还统计了前 128 工作和所有 256 个工作在 GitHub 上获得 Star 的数量。我们惊讶地发现,尽管一些工作没有官方实现,前 128 个工作平均 GitHub 数量接近 1500 Star,所有 256 个工作的平均 Star 数也接近 1000 Star。
Github Star 总量 |
每个工作平均 GitHub Star |
|
TOP 128 工作 |
191299 |
1494.5 |
TOP 256 工作 |
249278 |
973.7 |
本次 2021 年度「Pop SOTA!List for AI Developers 2021」社区评价提交情况截止 1 月 25 日上午 10 点评价结束,我们收到了千余份社区评价,感受到了机器之心老伙计们的热情。
在此,衷心感谢百余位老伙计们对项目组的支持与对社区贡献。平均每位参与评价贡献的老伙计完成了 11 次评价,最高评价工作数量为 88 道题。
以下是所有完成了对自己较为熟悉的 16 个以上工作评价的贡献者名单,完成 16 个以上工作评价的 43 位老伙计们还将收获来自机器之心 SOTA!模型的一份气氛组贴纸小礼包(邮寄中,请耐心等待) ~
社区评价提交贡献者分布
本次形成有效工作评价的人数共有 103 人。参与评价的贡献者以职算法工程师 / 算法科学(34%)、在校学生(本科 / 硕士)(31%)、在职高校博士研究生 / 博后(15%)为主。其余评价参与者的身份为在职高校教授、在职工程师和在职技术高管。
大部分评价者具有 3-5 年的 AI 专业领域从业经验,1 年以内和 10 年以上的人群占比较小分别为 10% 和 6%。其中具有 3-5 从业经验的社区评价贡献者占 39%;1-2 年占 28%;6-10 年的占比约 17%。
社区评价提交分布情况在上周公布的 256 个预选工作中,约 96.9% 的技术工作都得到了 AI 社区的有效评价,平均每条进展获得了 5 次评价,其中「微软亚洲研究院升级 Swin Transformer,新版本 SwinTransformer V2 具有 30 亿个参数,在四个具有代表性的基准上刷新纪录」这条技术进展得到了 16 次的评价。
但由于本年度「Pop SOTA!」评价小应用在选用的随机算法上草率了,有评价过程中获得的有效评价不足 5 次,这些工作的评价分值可能存在偏差。
社区反馈情况在「Pop SOTA!List for AI Developers 2021」评价过程中,我们也收到了一些老伙计们的反馈,认为一些工作不应该出现在预选名录中,我们尝试对老伙计们的反馈进行了总结,具体如下:
-
一些技术工作并没有实际解决问题,噱头大于价值
-
一些技术工作确实有一定的工程贡献,但并无实质性的创新
-
一些技术工作的类似工作也有很多,缺少和其他工作的比较
同时,我们还发现,社区评价过程中还对以下类别的工作的价值存在较大分歧,或许值得思考一下——
-
领域综述性工作
-
工具类技术工作
-
工程优化型工作
-
提出的模型设想,但尚未形成详细设计及实现的工作
同时,社区也给我们推荐了一些我们在预选名录形成过程中遗漏的工作。由于收到这些工作推荐时,社区评价已启动,如临时加入评价流程会对影响评价过程的稳定,于是我们决定以年度工作附录的形式将补充推荐的工作单独列出(* 以推荐收到时间排序) ——
提交时间 |
技术工作 |
工作类型 |
2022-01-19 13:04:31 |
北大团队自研AI框架“河图”(Hetu)正式开源 |
新工具 |
2022-01-19 15:31:00 |
微软亚洲研究院提出 Graphormer,获得了 KDD 2021 图神经网络比赛冠军,以及 Open Catalyst Challenge 比赛冠军,被 MILA 的研究员称为:赢得了Graph ML 领域 2021 年大满贯。开源的 Graphormer 工具包支持通用的分子建模,为 MSRA 在交叉学科领域第一个开源工具包。 |
新模型;新实现;新工具 |
2022-01-20 14:44:41 |
开源云原生神经搜索框架 Jina,新工具 |
新工具; 新思路; 新实现 |
2022-01-21 23:21:43 |
RepVGG,是清华和旷视提出的极简卷积网络基本模型。官方GitHub(https://github.com/DingXiaoH/RepVGG)已经得到2200stars,是同届 CVPR 的前几名。曾得到 Andrej Karpathy 推荐。RepVGG论文中提出的结构重参数化方法论是一种新的基本理论和基本方法论。 |
新思路; 新模型; 新工具 |
2022-01-23 13:39:13 |
微软亚洲研究院所发表的 TAPEX 是一个全新的表格预训练思路。以前的表格预训练方法通常都需要爬取网页获得大规模语料,而 TAPEX 的预训练语料是合成的数据。仅通过在合成数据上进行继续预训练,该模型在四个非常有名的表格问答数据集上取得了比 Google/Facebook 等知名机构最先进的预训练模型好 4 到 5 个点的效果。目前该论文也已高分被 ICLR 2022 接收。 |
新思路; 新实现 |
2022-01-24 01:06:41 |
浙江大学、阿里巴巴达摩院提出文档级关系抽签模型 Docunet |
新思路; 新模型 |
2022-01-24 01:09:12 |
浙江大学、阿里巴巴发布自动化细粒粒度概念知识图谱 AliCG |
新思路; 新数据集; 新实现 |
2022-01-24 19:46:45 |
北航和加拿大渥太华大学的学者提出了模型参数对抗扰动算法 AMP。该算法具有严谨的理论依据,并可以被证明其更偏好平坦的损失函数局部最优解。在 CIFAR10,CIFAR100 和 SVHN等图像数据集上取得了比 Mixup、Dropout 等正则化方法更高的分类准确率。 |
新思路 |
2022-01-25 14:29:58 |
快手提出用于任意风格化人脸生成的 BlendGAN,可以根据单张参考风格图或随机风格采样实现任意风格的自然人脸-风格化人脸图像对的生成,同时提出了高清艺术化人像数据集 AAHQ |
新模型; 新实现; 新数据集 |
One more thing ——
在 2021 年度「Pop SOTA!List for AI Developers 2021」中,你是否发现有不少自己似乎不太了解的技术工作?