文本分类模型

2024-01-09 23:11:40

文本分类

数据制作
煤矿安全规程转为文本
每章文本类别标签为章节名称
总数据量：281条，6个类别
文本转为向量
文本长度的填充为数据中最长的文本长度
标签映射为数字，再转为向量
one-hot

模型
LSTM
embedding层
BiLSTM层
Dense层/全连接层
softmax
loss：category_crossentropy
Transformer
预训练模型选择：roberta
超参数设置

部署
读取存储的模型
lstm需进行分词后预测，transformer不需要

训练结果
均达到99的准确率
lstm所需资源及时间较少，transformer反之