分类任务中样本不均衡解决方案

2023-10-15 22:55:22

基于SimBERT生成相似文本和检索相似文本的能力，我们会在文本分类任务中通过SimBERT来获取更多的伪标签语料。通过SimBERT根据现有的标注语料来生成相似文本，或者构建搜索库从搜索库中检索相似文本可以获取很多语义相关性较好的伪标签语料数据。这在实际的业务中也证明了可以有效提升我们分类器的效果。

参考地址1：https://zhuanlan.zhihu.com/p/321323696

参考地址2：https://zhuanlan.zhihu.com/p/352102967

参考地址3：https://zhuanlan.zhihu.com/p/259710601?utm_source=wechat_session&utm_medium=social&utm_oi=27198249500672#ref_6

预训练语言模型：https://github.com/ZhuiyiTechnology/pretrained-models

码农公寓

相关文章