情感数据标注情感标签的策略分析和直观感受

2024-04-09 21:09:47

0. 说明

需要标注已有数据集的情感, 而不是重新录制

不好表, 数据不均衡
7 种情感并不太适合

1. 辅助标注法

用预训练好的 SER 先打上与标签, 做指导, 然后再标
由于数据差应比较大, 没有通用的 SER, 通用的一般就会不准确, 或者同意有偏差到某一个地方 (虽然可以用蔡雄滴, 但是毕竟比普通的有那么一丢丢复杂, 也可以研究下跨域的 SER ?)
使用之前已经标注过的 30% 训一个小的模型, 或者 SVM, 然后作为参考
如何解决 5 个人标数据, 每个人的标准差异性大的问题

2. 二分类法

不直接归类为 7 类
最终仍然可以归类为 7 类, 但是要设计 N 个二分类的方面, 比如喜悦度, 讨好度, 批评度, 文本一致度, 消极度, 使对方消极度, 不礼貌度, 爆粗口度, 开车度
这些 N 个程度, 每次去二分类, 或者 -1 到 1 的程度去打分, 听一次这句话, 只需要回答其中一个度的一个程度
然后综合都回答完句子得这 N 个程度, 由系统的 (规则性和专家知识) 来对应到 7 类情感中
希望这样的二分类一是有利于标注, 二是对于直播数据, 讲课数据等 Domain 特性更好把控, 三是做实验时也好建模和评测; 兼而有之