中文作者识别自建数据集

自用中文作者识别数据集,包涵六位不同时代的作者

巴金: 《家》、《秋》

贾平凹:《秦腔》、《古炉》

老舍:《骆驼祥子》、《四世同堂》

鲁迅:《呐喊》、《华盖集》、《彷徨》、《朝花夕拾》、《而已集》、《南腔北调》、《二心集》、《花边文学》

路遥:《平凡世界》

莫言:《红高粱家族》、《丰乳肥臀》

构建四类数据集:

六分类数据集->Author_6_class

鲁迅莫言二分类数据集->Author_LX_MY

老舍巴金二分类数据集->Author_LS_BJ

路遥贾平凹二分类数据集->Author_LY_JPW

按单句进行划分构建数据集,其中训练集、验证集、测试集比例均为6:2:2,各数据集作者文本分布均为1:1。

百度网盘 请输入提取码

提取码:tg5g

上一篇:动态SQL


下一篇:适配器模式和迪迦奥特曼不得不说的故事