【摘要】 前段时间微信里有个小程序“猜画小歌”特别火,你可以在手机上画简笔画让机器识别,还可以和朋友一起比赛,看看谁是灵魂画手。
实际上猜画小歌并非中国首发,早在去年11月,谷歌就上线了一款叫“Quick,Draw!”的线上游戏,也就是“猜画小歌”的网页原版。这款游戏中,玩家需要在20秒内画出要求的图案,比如篮球或电视等物体的简笔画。
谷歌“Quick,Draw!”与“猜画小歌”的区别主要是在于“Quick,Draw!”是用鼠标作画,而“猜画小歌”可以直接在屏幕上用手指作画,如果你感兴趣,可以点击这个链接进入游戏:https://quickdraw.withgoogle.com/,感受一下用鼠标画图的难度,绝对比手指画要艰难许多了。
Quick,Draw!游戏主页
这个游戏非常火爆,吸引了许多玩家参与,大方的谷歌并没有私吞这些网友智慧的结晶,谷歌开放了玩家在这个游戏过程中画的数据集,这个数据集包含电视、篮球、短裤等在内的345个类别。全球有超过1500万玩家贡献了近五百万张绘画。
quick draw数据集包含的部分类别
Google将这个有趣的数据集公开给大众,为所有开发人员,研究人员和艺术家提供了探索,学习和研究的机会。
我获得这个有趣的数据集后,进行了一些分析,得到了一些有趣的结果。
游戏过程中要求玩家在20秒时间内完成作画,在这么短的时间里作画,实际上画出来的东西基本上都是自己内心潜意识对这个物体的认知,我试图通过图像堆叠的方法,探索出不同地区国家对不同的物体进行描述时的共性与差异。
图像堆叠方法在堆叠过程中,不同国家不同画画主题对应的图片数目是不一致的。我过滤了少于1000条的数据,如果一个国家地区某一主题的画大于1000条,则从中随机抽出1000条进行堆叠操作。得到的结果大致如下;
法国应该是对埃菲尔铁塔最熟悉的国家了,我们用上面堆叠的图片对比一下真实的埃菲尔铁塔,可以看出,铁塔的基本外形已经描绘出来了,而且铁塔的底部还有个三角形空白呢,看来在大家的潜意识里,爱尔菲铁塔就是一个三角形,下方空白的结构。
堆叠出来的图像看起来还蛮有意思的,有种在数据中剥茧抽丝的感觉。不同的主题,堆叠起来的效果不一样,根据主题复杂度的差异,堆叠出的图像辨识度存在差异。
五角星这个类别顾名思义就是五个角,各国人民对五角星的认知应该都是统一的,因此画出来的五角星大同小异。
冰淇淋在世界范围内也广泛存在,经典的冰淇淋结构应该就是下面是蛋皮,上面是冰淇淋机拉出来的冰淇淋,轮廓非常固定,而且结构简单,不同的人画起来基本上不会有太大的差别,但是有一些类别不同人画起来就会存在较大的分歧。
老虎这个类别,结构非常复杂,不同的人对老虎的认知存在较大的差异,也许有人画虎头,上面也许还会有个大大的“王”字,另外一些人却把整只老虎的外形都画出来。堆叠起来特征就非常不明显了。
除了老虎这种结构本来就很复杂的类别,有些类别因为太过于简单,堆叠的时候也不容易看出特征,“河流”就是其中之一。
由于重力,岩石,海拔差异等原因,世界上很难找到一条笔直的河流,在人们的脑海里,河流通常都是弯曲的,因此不同的人作画的时候,容易在不同的位置描绘河流,而且所描绘的河流的弯曲度,宽度也存在较大差别,这就造成了堆叠的“河流”图片辨识度不高。
堆叠图像的差异图像堆叠以后,我惊喜地发现了一些有意思的事情,首先是人们描绘的图像区域存在一定的偏好,也许是谷歌在收集涂鸦轨迹数据的时候以右上方作为原点,我观察到的几乎所有堆叠图像,都是右边与上方两个方向的线条描绘得更多。
这种现象究竟是不是谷歌统计轨迹的方式造成,我没有找到答案。但这种现象给我们堆叠图片提供了遍历。
涂鸦朝向虽然涂鸦是非常简单的线条来描绘结构,但在描绘的过程中,不同的人会对不同的方位进行涂鸦,这种现象就像是大学《工程制图》里的三视图一样。
经典的三视图
椅子是生活中常见的东西,对不同的角度进行涂鸦有着不一样的结构,下面列举了4个例子。
不同国家对椅子的涂鸦
可以看出澳大利亚和阿联酋都是朝向左边,中国*则朝向右边,南非画的椅子中规中矩,两边都不偏向,朝中间!
涂鸦的显著特征除了椅子等物体的朝向不一致,我还发现在涂鸦的过程中,人们会对物体的关键特征进行重点描绘。比如在画螃蟹的时候,两个大钳子就是非常明显的特征,几乎所有的国家都对螃蟹大钳子进行了加粗处理。
螃蟹这种大钳子特征应该属于比较粗略的区分特征,在画这种物体的时候,应该重点对明显的特征进行涂鸦,系统就可以很快识别啦!
涂鸦的局部纹理纹理信息对于识别物体而言,是非常重要的。quick draw数据集里包含了许多的球类,比如:篮球、足球,棒球等。这些球的表面都存在一定的线条,让人一看就知道是篮球还是棒球。
棒球
这三种球类在世界范围内都是非常受欢迎的运动,三者的外形都是球形
篮球的纹理类似竖着切西瓜一道一道的纹理,几乎所有的篮球上的纹路都是这样。
而足球的纹理则是典型的五边形与六边形拼接,一个足球总共由20个正六边形和12个正五边形。
足球的结构和C60的结构有着惊人的相似度,C60是一种碳原子簇,它由60个碳原子构成像足球一样的32面体,包括20个六边形,12个五边形。这60个C原子在空间进行排列时,形成一个化学键最稳定的空间排列位置,恰好与足球表面格的排列一致。
相比篮球与足球的复杂纹理,棒球的结构就要简单得多。
棒球内部通常有硬核,球心的外皮通常是牛皮制作的,工人用带孔的“8”字型模具按压皮革,得到
一个“皮衣”,在皮衣的内侧印上产品编号和出厂日期,之后将皮衣内侧涂上胶水。接下来就是制作棒球的最后一步。
工人将两片皮革包裹在球心上粘好并固定住,开始缝球!压制皮革时留下的孔就是在这时起作用了呢!每个棒球要人工缝制108针!是不是很厉害!
缝好球之后,只需将球通过压力机,再印上商标,一个超帅气的棒球就可以出厂了呢!
在对这三种表面纹理复杂度不一致的球类进行涂鸦的时候,纹理辨识度就很容易产生差别。我在数据集里找了三个国家“菲律宾”、“韩国”、“美国”来观察这三个国家在对这三种球类进行涂鸦时的规律
可以看到,三种球类中,识别度从高到低的排序是“棒球”>”篮球”>”足球”,这个结果跟上面对三种球类纹理复杂度的分析结果基本吻合。
看来要想在quick draw游戏中尽可能被快速识别,纹理特征也是非常关键的!
最后,私货时间:
华为云618大促火热进行中,全场1折起,免费抽主机,消费满额送P30 Pro,点此抢购。
本文发表在李思原博客“机器在学习”