文本分类
数据制作
煤矿安全规程转为文本
每章文本类别标签为章节名称
总数据量:281条,6个类别
文本转为向量
文本长度的填充为数据中最长的文本长度
标签映射为数字,再转为向量
one-hot
模型
LSTM
embedding层
BiLSTM层
Dense层/全连接层
softmax
loss:category_crossentropy
Transformer
预训练模型选择:roberta
超参数设置
部署
读取存储的模型
lstm需进行分词后预测,transformer不需要
训练结果
均达到99的准确率
lstm所需资源及时间较少,transformer反之