LOTClass 的中文实验、学习、应用。提供中文新闻多分类案例和数据
- 原始论文完全不适合于中文,因为中文BERT目前大都是基于字的,因此不能直接换BERT来拿来主义的套用到中文BERT。
- 好在有追一科技提出了词汇级BERT,WoBERT,不过是keras的,不适合Pytorch,于是自己训练了一个:WoBERT。
- 最后稍微自定义了BERT中的分词器,实现了中文版的LOTClass:https://github.com/425776024/LOTClass
2024-03-22 11:29:16