因为早年做过相关的开发,我大致了解搜索引擎的基本原理。不过这些年来我发现,这种原理完全可以用在其它地方,比如识别信息质量,比如识破诡辩术。
搜索引擎要解决的核心问题是,如何在浩如烟海的文档中,找出来用户最关心的那部分。换句话说,当用户希望了解某个话题或事物时,如何识别出对他/她最有价值,最让他/她感兴趣的那些资料(这里不讨论竞价排名)。为此,无数的科学家、工程师、程序员都做了大量的工作,才有了现在大家觉得“理所当然”的搜索引擎。
最近几年,网络上的信息越来越多,不同意见也越来越多样化。那么如何找到真正靠谱的、有价值的信息,如何识破各种诡辩?这已经成了人人都要面对的一个问题。其实,这个问题也是可以从搜索引擎中得到启发的。
不要以为这“原理”相当深奥,普通人只需要知道“最基本最简单”的TF-IDF,就能理清很多东西了。
TF,即Term Frequency,指一个“语词”(term,也可以简单理解为“单词”,WTO、感冒、华为 都是“语词”)在文档(document,也可以理解为“文章”,对应到搜索结果中的一条)中出现的频率。
通常,在判断文档相关性时,TF与结果正相关(未必是“成正比”)。这个道理也不难理解,如果有两篇篇幅类似的文章,一篇“华为”出现了10次,一篇“华为”只出现了2次,那么我们可以推断,前者与“华为”的关系更密切,用户在搜索“华为”时,前者应当出现在更靠前的位置。
IDF,即Inverse Doc Frequency,有中文翻译为“逆向文件频率”,理解起来稍微麻烦一点:文档总数与包含该语词的文档数目的比值。有许多人相当认为这是个“含量”,所以比值应当小于1,这是把分子和分母搞反了,也是“逆向”的意思所在。
通常,在判断文档相关性时,IDF也与结果正相关(未必是“成正比”),而且弥补了TF的片面性。如果单纯以TF来考察相关性,比如“的”这个字是各种文章中出现频率都极高的,其TF相当高,但不能用来说明信息质量。因为其IDF很低,接近于1(注意IDF是“倒过来算的”,所以如果只有1/10的文档中出现了了这个语词,其IDF是10)。
再比如,如果某个资料库都是关于中国的,其中包含了政治、军事、经济、文化各种主题的许多资料。那么可以肯定,基本每篇资料都包含“中国”这个语词,而包含“国防”的资料只占其中的一部分。显然,“国防”比“中国”更容易区分出相关的资料,在搜索时也更容易找到对应的结果。对应的,“国防”的IDF值显然远高于“中国”。
好了,技术内容就谈到这里。简单说,以特定语词搜索时,文档中特定语词出现“密度”越高,文档和语词的关联度就越高;该语词的“普适性”越低,筛选出高质量文档的几率就越高。
下面可以引申开来:如果我们要做的不是搜索,而是讨论某个主题,获得相关的信息,并判断信息的靠谱程度,是否可以从TF-IDF中得到一些启发?
答案应当是肯定的。
如果某篇文章“看起来”是关于某个主题的,那么这篇文章毫无疑问应当紧扣这个主题。倘若内文其实并没有太多紧扣主题的论述和分析,那么借鉴TF的思想,这篇文章的参考价值相当有限。
如今有不少面目可疑的文章正是走的这个路子。标题吓死人,态度很明确,结论斩钉截铁。但是仔细看内文,发现作者能给出的确定事实很少,他们既不做实地调查,也省掉多方比较(许多时候作者甚至对问题领域缺乏基础的认知),只能玩帽子戏法,东拉西扯一堆看似有关的材料,或者讲几个“让读者以为相关”的历史故事,最后移花接木,绕回到标题上来。
这真是“暖风熏得游人醉,直把杭州作汴州”,但是怎么避免呢?其实很好办,就是清醒认识,抵御各种“暖风”——在阅读时不要被各种段子、故事、表情包、配图给熏醉了,时刻记住主题。
如果面对相对专业的主题,作者之前又没有相关领域的积累,应当尤其小心,因为此时不专业的读者非常容易被不专业的作者蒙蔽。比如马航MH370坠毁事件,仔细看那些言之凿凿的不靠谱文章,作者基本都拿不出任何与当次飞行有关的确切信息(大概也不知道上哪里去找确切信息),所以只能依赖想象和猜测(《大西洋月刊》近期封面文章《“晚安。马航370”》,很好地解释了什么是“信息质量”)。
社会历史、政治经济类的文章,看起来是大众话题,也不能放松大意。因为这类问题要真正谈好,作者的驾驭能力要相当高,必须依赖大量的阅读和反复的思考。而许多“爆款”文章看起来内容丰富,有众多闻所未闻的故事“拱卫”主题,仔细分析就发现存在逻辑断层,无法证明“历史故事与当前主题是逻辑一致的”,所以其实无非是勉力拼凑而已。
还有一些主张、论断,它们听起来铿锵有力,但借鉴IDF的思想就会知道,如果这些主张、论断对于任何主题都可以适用,那么从IDF的角度来看,其信息价值是相当有限的。
姜昆和李文华曾经说过一段深受大家喜爱的相声《如此照相》,讽刺的是特殊年代里生活中做任何事情都要先背诵一句语录的现象。凡事都要“背语录”,那么它就好像上文提到的每篇文章中的“的”字,或者关于中国的资料库里的“中国”一样,区分度很低,无法证明其有效性。事实证明,广大人民群众不背语录,照样不影响正常生活。
当然,这种“IDF极低”的现象还有很多,比如网络上的“杠精”常用的诘问也是如此。使用这些“万精油”式诘问,对知识储备、逻辑思维等等没有任何要求,随时可以祭出:你怎么知道你知道的就是真的?你以为就你看得多,多看了点东西就了不起?没有什么是绝对的好事,没有谁是圣人,一切都要辩证地看……
如果我们从信息价值的角度来分析,就会发现这些诘问其实也没什么信息质量也提供不了什么信息价值。
没有人能确认自己知道的绝对“就是真的”,重要的是在比较甄别中接近客观真相。如果既不能找出对方论述中的重要错误,也不能提供信息含量更高的信息,那么“你怎么知道你知道的就是真的?”本身是没有意义的。
在讨论问题时,“看得多”和“了不起”是没有关联的。如果对问题背景有充分的了解,对问题领域有持续的关注,那多半是比其他人“看得多”。如果认可判断的依据是信息和知识,自然的结论就是,多看点之后下的判断往往更靠谱。所以与其反问“多看了点东西就了不起”,不如自己多读多看,多提供一点有价值的信息出来。
事和人确实都没有绝对的好坏,但这不意味着我们无法对事和人作出确切的判断。如果大家的判断不一致,应当摆出事实来,进行细致(最好是可以量化)的分析。一个人做了件好事造福了一百万人,不能简单拿“它也损害了三五个人”来否定,一个做了一万件好事的人,也不能简单用“他也做过两三件坏事”来否定。
同样道理,一个人或一个国家做事可能出于利益考虑,也可能出于道德考虑。真正有意义的讨论必然是具体而具体的,做这件事是出于道德考虑还是利益考虑?或者二者兼而有之,但其中哪种因素更重要?如果当时确实是出于道德考虑,或者更多出于道德考虑,那么通过简单的“没有谁是圣人”或者“没有国家讲道德”得出粗陋的结论,只会扰乱认知,把讨论变成口舌之争。
最后需要注明的是,上面的论述都是从基于“信息质量”,而不是基于“热闹”或者“话题性”而展开的。世界很大,大家看中的因素各不相同。有些人在乎的就是热闹,而不在乎信息质量,这本身无可厚非,说清楚即可。
而且在这个时代,如果你注重提升自己的信息质量,或多或少会有一些副作用,要放弃一些热闹的话题,甚至伤了某些人的面子。不过冷静下来想想,坚持做下来的话,收获还是比付出要多,总的来说还是划算的,对吧?