普通公司的敏感词审核度制,从三个方面来划分:敏感词的程度、审查策略、人工审查策略。大公司还会将用户类别、所在地区进行划分。
一、依据敏感词程度分成违禁词、高危敏感词、中低危敏感词。
违禁词依据限制还可划细分为“禁止发布”和“禁止搜索”,或二者皆有。
文章或留言踩中一些高危敏感词,如涉政涉爆信息,直接进到删除状态(或私密状态),然后人工审核;若是踩中低危敏感词,会进入默认通过的状态,然后审核员会用先审后放或是先放后审两种策略对待。
先审后放,“先审”即人工审查前,内容在通过人工审查前无法被查看。
先放后审,与先审后放模式相反,内容在经过人工审查前的默认状态为可见。
二、审查策略有三种:1、机审;2、人工审核;3、用户举报 。
机审+用户举报:在普通小公司小平台上很适用。在《敏感词过滤方案那些事》中,我阐述了小平台对敏感词过滤要求很低的原因,这里不再重复了。
三、人工审查策略
对帖子内容进行审查,具体操作主要有删帖、私密、禁言、封号等。
删帖: 是指删除论坛、平台上的帖子。如不少论坛向少数热心于论坛建设的志愿者赋予了一部分网络管理的权限(版主),其中包括可以根据一定的价值判断标准(例如版规)。删除违规内容的权限。
私密: 指被“私私密”的内容仅作者自己可见,是社交网络最常用的“删帖”方式。相对于删除处理,私密更难被用户察觉,但对平台上的其他用户,该内容等同于被删除。
禁言: 或称暂时封号,禁言后用户会被限制使用发言功能,也可能同时不能修改用户名、头像、简介等,待解封后恢复。
封号: 当用户账号被封,将无法进行登录,同时该账号所产生的所有内容会被一并清除。
四、将用户分成四类,分别是一般用户、敏感用户、绿色用户、被禁用户。
敏感用户又会分为普通敏感用户和VIP敏感用户。少数敏感用户会被手动划入VIP敏感组。该用户组为影响力较大的经常讨论公共议题,或发布第一手消息的VIP用户,本身能为平台带来巨大流量。平台需要对其发布的所有内容进行全量审核,还将其划给高级编辑进行审查。
五、地区划分国内与国外、或更细:
有一个术语叫“海外私密”,指内容海外用户仍然可见,实际为仅对中国用户私密。
后记:
ToolGood.Words(开源项目):https://github.com/toolgood/ToolGood.Words
Go版本的文本匹配会更新,C++版本的也要提上日程。