18禁警告！一万张照片投喂，这个叛逆RNN项目能自动画丁丁，数据集还开源了

2023-10-27 18:48:52

最近，由于国外尚在社交隔离，寂寞的成年人们按捺不住内心的躁动了，于是一个名叫#ShampooChallenge的活动在推特上掀起了热潮。

不止推特，连Reddit的RNN技术社区也沦陷了。这不最近，文摘菌就在Reddit上发现了一个谜一样的项目：Dick-RNN，一个可以画丁丁的RNN？？？

因为内容太过18禁，点开Reddit网页还需要手动进行年龄确认。

首先映入眼帘的就是一个demo网址，下面介绍说，Dick-RNN和其他网页上的绘画板一样，不管你在上面画了什么图形，最终系统都能把它变成丁丁，如果不手动制止，系统会永不停息地为你画出各种形状的丁丁。

文摘菌第一反应是：
但是又好想看看到底系统能怎么画出个什么丁丁来，做好了思想工作，文摘菌就鼓起勇气在绘画板上开始创作了，结果如下图所示：

可以看到，不管是手工画一个蛋蛋还是两个蛋蛋，系统都能补充画出完整的丁丁图。不过就是不知道画出来的丁丁敢不敢接受#ShampooChallenge的挑战呢？

有网友进行了深入尝试之后总结道，从蛋蛋入手画最容易生成一根逼真的丁丁。不过，也有人反馈到，在绘画的过程中，系统可能会生成你之前没有见过的丁丁形状，但是别担心，还是那句话，大家都是成年人，都见怪不怪了（手动狗头）。

demo网址链接先双手奉上，大家快去试试你的丁丁，哦不，你画出来的丁丁是什么样子：
https://dickrnn.github.io/

用一万张丁丁照片投喂，这个项目其实很有反叛精神！

不知道大家有没有先去创作。

反正文摘菌是被系统丰富的想象力惊艳到了，佩服得那是一个五体投地，研究者到底上哪儿去找到这么多丁丁数据的？

研究者坦言，为了喂养这个循环神经网络（recurrent neural network），大概用了一万张丁丁照片数据进行投喂，这个数据集也开源在了GitHub上。

数据集链接指路：
https://github.com/studiomoniker/Quickdraw-appendix

看到这么多丁丁，文摘菌已经眼花缭乱了，但是，在深入了解这个项目之后，文摘菌不得不要为它正名一下：这其实是个很严肃、很有反叛精神的项目。

首先，必须承认，画丁丁这件事在古罗马时期就有了，那时候的人们就对这件画丁丁这件事表现出了极大的喜好和热爱，这不仅是男性健壮的体现，还是某种求好运的表现。
有图有真相：纽卡斯尔大学的考古学家在Hadrian's Wall附近的一个采石场发现了这种公元207年的丁丁涂鸦。

根据该项目的参与者Roel Wouters表示，其实团队最开始也是抱着玩玩的心态，但是越到后面他们开始思考，在这个时代，人们每天在互联网上大部分的内容都受到科技巨头们的把关，但我们究竟为什么要受制于此？我们是否应该对这些公司预设的道德标准表示质疑？

Wouters补充道，在谷歌Sketch-RNN的系统中，AI无法自动填补出丁丁涂鸦似乎也不是世界毁灭级的大事，但这也确实彰显了谷歌这种科技巨头在社会规范下的强大力量。

正如此前Facebook和Instagram曾禁止“女性裸露乳头”，却允许男性这么做，引起不少女性在软件上进行*。“你是否曾质疑过，Instagram的‘社区准则’能够强加于全世界所有公民和文化，这点其实有待商榷？”

比如，研究团队表达出了对谷歌“Quick，Draw！”项目的热爱，他们也经常使用使用TensorFlow来构建替代方案。但是他们也指出，随着越来越多的人使用AI管理在线平台，错误的*，甚至不自觉的自我审查的可能性都随之增加，我们将失去表达的欲望和动机，这是很可怕的。

但也没必要把Dick-RNN拔高到“言论*”的高度上，团队表示，这个项目在玩乐的同时，也是在提醒人们警惕“科技的有害力量和*家长式的管理”。

“对我们来说，丁丁涂鸦是反叛行为的象征。”

项目灵感来源于谷歌的Sketch-RNN，谷歌：雨我无瓜

其实这个项目最开始并不是这么少儿不宜的东西，而是基于谷歌的Sketch-RNN，但是在进行了诸多改进和训练之后，就变成了专门为丁丁定制的系统，谷歌看了都要流泪。

说到Sketch-RNN，还得要追溯到17年4月，当时谷歌的研究团队提出了一个绘制普通物体简笔画的生成性循环神经网络，旨在以训练人类的方式训练机器绘画和概括抽象概念的能力。

论文：
https://arxiv.org/pdf/1704.03477.pdf

根据论文介绍，在手绘简笔画的数据集中，每张简笔画都表示着手握笔动作的一个序列：往哪个方向移动，什么时候提笔，什么时候停笔等等。根据这些数据，研究人员就创建出了具有广泛应用潜力的模型。

在图像生成性建模上，神经网络当时就做了大量工作，其中大部分聚焦于把光栅图像建模为2D像素网格。但是问题就来了，由于2D像素网格的高维度性，如何保证图像结构的连贯和完整。例如，有时候系统会产生一些慎人的图像，像是3只眼睛的猫或多只头的狗。

于是就必须向更低维度的向量进行审查，Sketch-RNN基于seq2seq自编码器框架，包含变分推理并将超网络用作循环神经网络细胞。同时，研究团队还刻意在隐向量中添加了噪音，通过将噪声引入到编码器和解码器之间的通信通道中，模型就必须学会以噪音隐向量的形式捕捉简笔画中的特质。

这个过程中，重建的猫简笔画不是输入简笔画的简单复制体，而是全新的、具有和输入图片相似特征的简笔画。也就是说，系统已经学会了人类画画的部分技巧。

比如，我们输入三眼猫的简笔画后，模型生成的图像是类似的轮廓，但可以看出模型输出的图像只有两只眼睛，这意味着模型已经明白猫只有两只眼睛。而如果我们输入的是一个牙刷，可以看到，模型输出的图像仍然可以看到猫的影子，同时又尽可能地维持着牙刷的形状。这表明该网络已经学会了解码输入简笔画的内容，将其转换成抽象的猫的概念，编码成隐向量，同时还有能力从这些向量中重建全新的简笔画。

游走于技术和艺术之间的公司Moniker

开发Dick-RNN的团队Moniker，用他们自己的话说，是一家致力于研究技术的社会影响的公司。点进公司主页，可以看到不少带有些许艺术感的项目。

比如feeldforplay，这其实是一个用于开放性关系或单身人士的约会应用程序，旨在催发有关性欲的对话。当点进页面时，用户会以一个浮动水滴的形状进入一个数字房间，你可以在这个房间与其他三位的参与者进行交互，相遇是随机的，整个过程可以激发视觉、听觉，甚至触觉。

这被视为是约会的一种前戏的可能形式，它挑战了固定的性身份和经常在网上约会中嵌入的规定性互动的观念，毕竟性在某种意义上正是游戏的体现。

网站链接：
https://t.co/lXGJTIdvqb?amp=1

再比如，为了让人们更好地应对隔离带来的孤独感，公司开发了一个对话网站click。

进入网站之后，用户会发现自己位于一个白色的网站上，屏幕*只有一个绿色按钮。而正是在这个空白的屏幕上，用户的每一个小动作都将经过测量、记录和估价，随后在屏幕上以文字的形式滚动给出反馈。

在这些“客观”测量之上，叙述的声音也会根据用户的行为对用户进行判断，得出一些结论，比如用户是否无聊？是否处于异常的心理状态？可能是女性？

网站链接：
https://clickclickclick.click/

不过，也正如Moniker的工作人员所说，享受技术便利的同时我们无需将技术神化，对技术保持更多的警惕和初心，尝试着打破现有的技术行规，或许会有不一样的收获。

码农公寓

相关文章