1 前言
Cora 数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。在数据集中,论文被分为以下七类之一:
- 基于案例
- 遗传算法
- 神经网络
- 概率方法
- 强化学习
- 规则学习
- 理论
论文的选择方式是,在最终语料库中,每篇论文至少引用一篇论文或被至少一篇论文引用(即至少有一条出边或至少有一条入边,也就是样本点之间存在联系,没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点,则这是一个连通的图,不存在孤立点)。整个语料库(cora.content)中有 2708 篇论文。在词干堵塞和去除词尾后,且文档频率小于10的所有单词都被删除后,只剩下 1433 个独特的单词。
2 文件介绍
Cora 数据集中主要包含两个文件:cora.content
和 cora.cites
2.1 cora.content
cora.content
共有 2708 行,每行代表一个样本点,即一篇论文。一行由三部分组成:论文编号(raw_data 的编号并非 0~2708)。接下来 1433 列是论文的词向量。最后一列为论文类别,如 Neural_Networks
。
31336 0 0..... 0 0 0..... Neural_Networks 1061127 0 0..... 0 0 0..... Rule_Learning 1106406 0 0..... 0 0 0..... Reinforcement_Learning
2.2 cora.cites
cora.cites 共有 5429 行,每一行有两个论文编号,表示第一个论文先写,第二个论文引用第一个论文。如果将论文看做图中的点,那么这 5429 行便是点之间的 5429 条边。
35 1033 35 103482 35 103515