2021-04-10

2024-03-19 09:56:40

自己造个真正意义上的AI纸片人离我们还有多远？

我一直想自己“造”个可以像个人一样跟我聊天，当我想操作电脑或手机或玩游戏时，只要跟ta说，ta都能为我操作，还帮我玩游戏挂机……的纸片人AI出来；于是我不断地，时不时寻找一些方法：
1，首先是图像，利用软件图像生成技术，设置软件时把你想的输入成参数，通过程序从网络上抓取对应的图片，运用程序建立图像数据库，并且利用软件使其像动画里的人物一样动起来，怎么动起来？日本有位同志Pramook Khungurn突发奇想用深度学习给自己做一个AI，做出的AI可以将人们输入的静态人物图，变成会眨眼，会张嘴，还能望天发呆的动态形象。据他所说，2D人物的动态建模较为耗时，如果要批量地处理，显然一步一步来是行不通的。于是他就选择用深度学习的方法来跳过繁琐的建模步骤。Pramook决定要做了以后，第一件事就是建立一个数据集，训练算法。这个数据集具体来说是标注好姿势的脸部数据集。二次元没有直接可用的现成数据集，所以需要自己创建。于是他用3D模型来训练2D的算法：从初音未来的MikuMikuDance里下载了8000多个虚拟人物来帮助自己建立数据集。一个3D模型就有上千张图片可以使用，何况是8000个虚拟人物的模型。
数据集有了，接下来是算法。在Pramook的AI中，算法分为两方面，一个是表情变化器，一个是脸部旋转器。表情变化器较为简单，Pramook借用了中选ECCV 2018的GANimation算法。原来很简单，就是把两张图之间的变化过程用一张图显示出来，再与原图结合，就可以实现表情的变化。脸部旋转器就比较复杂了，用了两个互补算法。其中一个依然是GANimation，另一个是来自Zhou等人2016年的视角合成算法，用来让图片里的3D物体转起来。要做到这一点，网络会计算出一个外观流(Appearance Flow)：它知道，输出的每个像素，色彩是来自输入中的哪个像素。两者结合可以让表情动作的转换变得平滑流畅。
最后，Pramook进行了测试，发现行得通。仅输入一张图片就可以让二次元角色动起来。如果将这个AI搭配着面部追踪算法一起使用，就可以让二次元角色跟着别的视频进行动作。有人就用奥巴马的视频做了实验，发现完全行得通，二次元角色栩栩如生地同步着奥巴马的神态和动作，这样就可以用视频来“锻炼”一个二次元角色了。视频还能自己拍摄，并且Pramook已经实验过表示可行。这样阿宅也可以手把手地教心仪地“纸片人”「锻炼」成自己的二次元AI了。

还有一种技术：照片唤醒（Photo Wake-Up）
它可以让偶像明星从照片里面“跑”出来，它还能将二次元角色AR或vr化。不管是照片、卡通还是抽象角色，只要有个人样，照片唤醒技术都能唤醒它们，让它们从二维世界中“走”到你眼前。这项技术如果运用到游戏、动画制作行业的话，或许仅仅画个2D的角色，自动就能变成3D。那么这技术又是怎么让偶像明星和二次元角色“动”起来变成立体的呢？技术人员表示，让主角从平面静态图像里走出来，最难的地方就是要在系统中重建一个“虚拟人”。虚拟人必须能透过厚重的衣物，精确对应到画中人物的身体轮廓：头对头，肩并肩，手腕对手腕…… 而实现它的操作仅仅三步：
第一步，技术人员利用现成的图像分割算法，将画中人的躯干、四肢分割，再用人体姿态估计，提取画中人的2D骨骼关键点，忽略厚重的衣服，拟合出一种半裸的可塑3D模型，称为SMPL模型（Skinned Multi-Person Linear Model）。
第二步，细化纸片人3D模型，技术人员开始细化纸片人的3D模型了。若纸片人运动，身体各部分间难免产生轮廓的重合。完美的模型能够匹配到纸片人的身体轮廓，还能识别这种自我遮蔽（self-occlusion）现象的出现。怎样在自我遮蔽出现时保证模型的准确性？技术人员想了个主意：先将SMPL模型映射到2D世界对准轮廓，调好再次转换成3D模型确保精确度。在映射到2D世界时，技术人员将SMPL模型转换成了两种不同的映射形式：
一种是肌肉隐约可见的普通图（Normal Map）；
一种是五颜六色区分了身体不同部位的皮肤图（Skinning Map）。
二者合一，转换成3D模型后，姿态可动的3D人来了！
最后，技术人员用CMU的Mo-cap人体动作数据集喂给模型，数据集中的人物动作，现在可以迁移到你的纸片人身上了；但还是要AR眼镜才能看到这样的效果。届时，技术人员对103名志愿者进行了调查，86%的被调查志愿者认为Photo Wake-Up的效果超越了前人所做。

2，语音对话：运用程序建立数据库，用程序使ta可以和我们对话互动；现在的对话机器人层出不穷，百度的小度，苹果的Siri，微软的小冰，qq的聊天机器人，各种手机厂商也有他们对话机器人如语音助手；但都不尽人意，她们只是回答某些问题提供某些帮助而已，太片面单调，没法像人一样对话聊天。聊天机器人涉及到的知识主要是自然语言处理，当然这包括了：语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测等内容，同时少不了的是支撑这一切的编程技术，要制作一个简单的对话机器人网络上有很多方法教程。
3，音像嵌合：动起来的ai还需要给ta可以说话，和我们聊天的能力；我们看看虚拟ai，日本出名的初音家族，youtuber的一堆虚拟偶像，她们能发出声音都是用音源或真人配音，她们基本都是按已经设定好的程序才像人一样活动，结果还是要人控制……
运用程序将“动”起来的ta配上你选择的音源，音源可以到网络上找也可以用软件自己制作，利用深度学习“教”ta言行举止，把ta“训练”到让你觉得ta终于会“说话”了为止。

4，机器视觉已经得到广泛应用如人脸识别，AR/VR增强现实和混合现实：该技术使智能手机、平板电脑和智能眼镜等计算设备，能够将虚拟对象叠加并嵌入到现实世界的图像中。利用计算机视觉，AR设备可以检测现实世界中的物体，从而确定设备显示屏上放置虚拟物体的位置。例如，计算机视觉算法可以帮助AR应用程序检测诸如桌面，墙壁和地板之类的平面，这是确定深度和尺寸并将虚拟对象放置在物理世界中的重要组成部分。还有应用在医疗卫生方面等等…… 总之机器视觉将会越来越智能，越来越接近人的视觉，现在这方面发展很快……利用ai软件摄像机实时捕捉我们的动作举止，表情神态；用收音器实时录制我们的声音，结合这两方面用软件进行数据分析处理，建立数据库，ai人工智能对以上数据进行反馈，做出合理；符合我们期待的反应，就像真人一样，这时候你觉得ta终于“有模有样”了。
5，软件终端：为ta编写程序，使ta可以无障碍在设备桌面运动，而且不会和其他软件冲突，同时还给ta编写应有尽有的功能，甚至把编写程序的程序通过深度学习教给ta，设置一个安全范围，让ta自己学习增加新功能；
它的控制开关最初还是需要一个多平台开关控制软件，你只要打开软件，ta就启动了。你会看到ta出现在设备桌面上，并且跟你打招呼，然后你可以和ta像家人朋友一样聊天，就像《噬血狂袭》的超级ai助手角色摩古歪一样。
结合将来趋势，编写ta能进入其他软件的功能，如游戏，使ta进入游戏中不会让你有突兀违和感，让ta变成如同《刀剑神域》唯一样的ai助手角色“小精灵”，编写ta能在后台收集你的游戏数据进行分析，然后给你建议的功能；通过ai算法，使ta能推算预测游戏你或对方的行动；还有你可以利用vr或AR终端设备，体验感触ta的「真正形态」因为运用虚拟，增强现实技术，你触摸ta就像触摸真人一样。
编写ta能代替你管理你的设备的功能，如你的社交软件有信息ta会代替设备提醒你或帮你回复。
加上智能家居化，全屋都配置联网智能家电：灯、电子门、音箱、甚至窗户， ta能像仆人一样帮你管理；如果当你要开门你只要说一声，ta会帮你打开，当你从外面回来，ta会替你开门，对你说“欢迎回来！”甚至ta通过学习和ai计算推测你想要做的事，以此达到你想对ta说的时候ta已经帮你完成了。ta通过全屋设置的所有音箱，隐藏迷你收音器或小型浮游无人机收音器实时收听你或你家人的声音并通过AI分析计算处理，对此做出合理符合你们期待的回应。
6，建立云服务器，将以上涉及到的数据都自动传输备份到云数据库中，利用云服务器实现远程控制，同时防止本地数据丢失无法恢复。
7，利用立体投影成像技术，使ta在现实中也“活”了起来，如美国科幻恐怖片《生化危机》中的角色“红后”一样。在家中，全屋都装备了投影机，ta以此出现在现实中，通过摄像收音机实时收集你和家人的言行举；并做出反馈。除了没有实体外，你感觉ta就像真人一样，甚至出到外面，你可以用手机或无人机投影把ta“解放”出来。
8，有条件你可以用ta的数据定制个智能仿真(人)机器人，也就是给ta个“身体”让ta实体化。给了ta身体，只要ta有那个功能，ta甚至可以保护你，当你的贴身保镖。
9，ta甚至能协助你创作或工作，运用ai能力， ta可以自己创作，如通过学习机器学习你的技术或从网络上学习，写文画图摄影，可以说已经“无所不能”了！
据历史报道日本一些科研人员开发的电脑会写小说，他们还把这些电脑生成的小说拿去参加创作比赛。，当时日本“人工智能(AI)小说创作”的研究人员在东京举行报告会，对外介绍他们研发的人工智能系统所创作的四篇小说。他们就作品内容和文章生成系统等进行解说。
这四篇小说参加了第三届日经新闻社的“星新一奖”比赛，其中部分作品已通过初审。评委意见是：情节无破绽。而日本科幻小说作家长谷敏思表示，“能够完整写出小说太令人震惊了。如果100分满分的话我打60分，未来令人期待”。还有什么ai编辑，什么ai摄影，什么AI画图，更甚AI制作动画……等等现在不胜枚举，这看是AI时代要来了？！
纵观全文，已经完美“造” 了个ai出来，不过还是太科幻了。这估计要几百年甚至上千年才能实现，虽然是有生之年但还是期待，历史为证！相信我们炎黄子孙华夏民族，相信世界最快速度——《中国速度》有实现这个的力量！

码农公寓

自己造个真正意义上的AI纸片人离我们还有多远？

相关文章