【深度学习创作】用《权力的游戏》前五部训练RNN生成第六部（原理解析）

2021-08-05 05:03:03

《权力的游戏》（英语：Game of Thrones）是一部中世纪史诗奇幻题材的美国电视连续剧。该剧以美国作家乔治·R·R·马丁的奇幻文学《冰与火之歌》系列作为基础改编创作。

按照作者计划，《冰与火之歌》系列将有7部，目前出版至第5部。

也就是说，从2011年开始，读者对第六部《凛冬的寒风》的等待已经超过了6年。

近日，一位名叫Zack Thoutt的工程师在开源社区Github上发起了这样一个项目：基于《冰与火之歌》前面五部作品，训练RNN（循环神经网络）模型，进而生成第六部作品。

【深度学习创作】用《权力的游戏》前五部训练RNN生成第六部（原理解析）

训练：你可能需要一块GPU和TensorFlow1.0.

Zack在Github页面上说：你是否已经受够了一直在等待下一本《权力的游戏》（GOT）图书的出版？至少我是这样的。所以我决定根据前五本《权力的游戏》图书训练一个RNN模型，使用该神经网络的预测生成第六部。

他也表示，如果大家想训练这一模型，你可能会需要一块GPU和TensorFlow1.0.

他使用的是FloydHub和以下命令：

用于训练的前5部作品的文字资料在网上都能找到。

在这部由深度学习模型完成的“新作”中，还有许多问题没有回答：琼恩真的是一个兰尼斯特-坦格利安人？那些狗如何统治7国？为什么瓦里斯要毒害丹妮莉丝？

作者在项目介绍的最后也欢迎大家都一起来参与制作，共同唱响“冰与火之歌”。开源地址：https://github.com/zackthoutt/got-book-6。

为什么是RNN？深度学习的基础模型之一

RNN无疑是深度学习的主要内容之一，它允许神经网络处理序列数据，如文本、音频和视频。它们可以用于将序列编码至不同层级的理解（抽象层次不同的知识表示）、标注序列，甚至从头开始生成新序列。一个 RNN cell在处理序列数据时一直被重复使用，Share Weights。

RNN的核心特征是“循环”，即系统的输出会保留在网络里，和系统下一刻的输入一起共同决定下一刻的输出。

这一点符合著名的图灵机原理。即此刻的状态包含上一刻的历史，又是下一刻变化的依据。这其实包含了可编程神经网络的核心概念，即，当你有一个未知的过程，但你可以测量到输入和输出，你假设当这个过程通过RNN的时候，它是可以自己学会这样的输入输出规律的，而且因此具有预测能力。

这里A被称作 controller（图中是在处理序列数据，有个错误，最后应该是x3，y3）, 可以是FNNs（feedforward neural networks），也可以是RNNs，但RNNs能实现更多操作，因为它是 Turing Complete 的。

上文提到，RNN具有“记忆”能力，这也是为什么它能实现预测的重要原因。具体到《权力的游戏》图书的生成，正式因为在前5部作品的训练过程中的“循环”和“记忆”，让模型具备“预测”第六部作品的能力。

RNN在语言研究中得到广泛的采用。去年，谷歌就曾发布了一项名为“探索RNN极限”的研究，开源大规模语言建模模型库，含有大约 10 亿英语单词，词汇有 80 万，大部分是新闻数据。

精彩内容分享：奈德依然活着，琼恩是兰尼斯特人！

这本由RNN生成的图书的前五章目前已经公开，书中的情节与我们此前熟悉和喜爱的前五本一样：包含了许多的转折。

以下是一些对话的摘录：

珊莎实际上是拜拉席恩家族的人，詹姆很怕她，因为她是次子团的成员之一：

我害怕珊莎主人，大人”，詹姆提醒她说。“他们拜拉席恩家族是要道之一。也就是你的次子团。”

里克仍然是一个烦人的人：

“对你来说，有些事情是必须的”，一个女人慵懒的声音响起，“天呐，里克。”

一个名叫Greenbeard的新主角出现在了剧情中：

“是的，佩特”，高大的男人举起剑，将他挡在身后，并将巨大的铁王座推向女孩冲过来的方向。

阿多回来了，现在，他除了“Hodor”，还会说一些新的单词。

阿多看着他们低声吼道，“你回家要走哪条路。”

奈德依然活着，并且琼恩是兰尼斯特人！

双方都回来之后，他们立刻想到了希望他回答问题的方式。当琼恩缓慢后退时，奈德在脑海中看到了他的斧头和左手。

瓦里斯毒死了丹妮莉丝和另外一个人：

瓦里斯毒死了丹妮莉丝和另外一个人。当他醒来时，听到一首舒缓的歌曲。

琼恩骑着一条龙，开始变得有些狂躁：

琼恩骑着龙，在天空极速绕圈。龙喷出的火焰在沙漠中形成一个个燃烧的大坑。

詹姆杀掉了瑟曦，琼恩变成狼：

詹姆杀死了瑟曦，他非常冷血，一直在自言自语，琼恩认为他是现在的狼……

他们决定让狗来做决定：

“问那些狗。”

整本书以一段怪异的描述结尾：

在一场冬季的暴风雪中，琼恩作为坦格利安人的一面得到全面的展示 ……

正如开源项目作者本人在提到，在这部由深度学习模型完成的“新作”中目前只完成了前五章，还有许多问题没有回答：琼恩真的是一个兰尼斯特-坦格利安人？那些狗如何统治7国？为什么瓦里斯要毒害丹妮莉丝？……

如果你想尝试一下，去Github找他，或许你可以生成《红楼梦》的续集呢？

文章转自新智元公众号，原文链接

码农公寓