从搜索引擎原理，看信息质量和诡辩术

2023-11-27 15:01:58

因为早年做过相关的开发，我大致了解搜索引擎的基本原理。不过这些年来我发现，这种原理完全可以用在其它地方，比如识别信息质量，比如识破诡辩术。

搜索引擎要解决的核心问题是，如何在浩如烟海的文档中，找出来用户最关心的那部分。换句话说，当用户希望了解某个话题或事物时，如何识别出对他/她最有价值，最让他/她感兴趣的那些资料（这里不讨论竞价排名）。为此，无数的科学家、工程师、程序员都做了大量的工作，才有了现在大家觉得“理所当然”的搜索引擎。

最近几年，网络上的信息越来越多，不同意见也越来越多样化。那么如何找到真正靠谱的、有价值的信息，如何识破各种诡辩？这已经成了人人都要面对的一个问题。其实，这个问题也是可以从搜索引擎中得到启发的。

不要以为这“原理”相当深奥，普通人只需要知道“最基本最简单”的TF-IDF，就能理清很多东西了。

TF，即Term Frequency，指一个“语词”（term，也可以简单理解为“单词”，WTO、感冒、华为都是“语词”）在文档（document，也可以理解为“文章”，对应到搜索结果中的一条）中出现的频率。

通常，在判断文档相关性时，TF与结果正相关（未必是“成正比”）。这个道理也不难理解，如果有两篇篇幅类似的文章，一篇“华为”出现了10次，一篇“华为”只出现了2次，那么我们可以推断，前者与“华为”的关系更密切，用户在搜索“华为”时，前者应当出现在更靠前的位置。

IDF，即Inverse Doc Frequency，有中文翻译为“逆向文件频率”，理解起来稍微麻烦一点：文档总数与包含该语词的文档数目的比值。有许多人相当认为这是个“含量”，所以比值应当小于1，这是把分子和分母搞反了，也是“逆向”的意思所在。

通常，在判断文档相关性时，IDF也与结果正相关（未必是“成正比”），而且弥补了TF的片面性。如果单纯以TF来考察相关性，比如“的”这个字是各种文章中出现频率都极高的，其TF相当高，但不能用来说明信息质量。因为其IDF很低，接近于1（注意IDF是“倒过来算的”，所以如果只有1/10的文档中出现了了这个语词，其IDF是10）。

再比如，如果某个资料库都是关于中国的，其中包含了政治、军事、经济、文化各种主题的许多资料。那么可以肯定，基本每篇资料都包含“中国”这个语词，而包含“国防”的资料只占其中的一部分。显然，“国防”比“中国”更容易区分出相关的资料，在搜索时也更容易找到对应的结果。对应的，“国防”的IDF值显然远高于“中国”。

好了，技术内容就谈到这里。简单说，以特定语词搜索时，文档中特定语词出现“密度”越高，文档和语词的关联度就越高；该语词的“普适性”越低，筛选出高质量文档的几率就越高。

下面可以引申开来：如果我们要做的不是搜索，而是讨论某个主题，获得相关的信息，并判断信息的靠谱程度，是否可以从TF-IDF中得到一些启发？

答案应当是肯定的。

如果某篇文章“看起来”是关于某个主题的，那么这篇文章毫无疑问应当紧扣这个主题。倘若内文其实并没有太多紧扣主题的论述和分析，那么借鉴TF的思想，这篇文章的参考价值相当有限。

如今有不少面目可疑的文章正是走的这个路子。标题吓死人，态度很明确，结论斩钉截铁。但是仔细看内文，发现作者能给出的确定事实很少，他们既不做实地调查，也省掉多方比较（许多时候作者甚至对问题领域缺乏基础的认知），只能玩帽子戏法，东拉西扯一堆看似有关的材料，或者讲几个“让读者以为相关”的历史故事，最后移花接木，绕回到标题上来。

这真是“暖风熏得游人醉，直把杭州作汴州”，但是怎么避免呢？其实很好办，就是清醒认识，抵御各种“暖风”——在阅读时不要被各种段子、故事、表情包、配图给熏醉了，时刻记住主题。

如果面对相对专业的主题，作者之前又没有相关领域的积累，应当尤其小心，因为此时不专业的读者非常容易被不专业的作者蒙蔽。比如马航MH370坠毁事件，仔细看那些言之凿凿的不靠谱文章，作者基本都拿不出任何与当次飞行有关的确切信息（大概也不知道上哪里去找确切信息），所以只能依赖想象和猜测（《大西洋月刊》近期封面文章《“晚安。马航370”》，很好地解释了什么是“信息质量”）。

社会历史、政治经济类的文章，看起来是大众话题，也不能放松大意。因为这类问题要真正谈好，作者的驾驭能力要相当高，必须依赖大量的阅读和反复的思考。而许多“爆款”文章看起来内容丰富，有众多闻所未闻的故事“拱卫”主题，仔细分析就发现存在逻辑断层，无法证明“历史故事与当前主题是逻辑一致的”，所以其实无非是勉力拼凑而已。

还有一些主张、论断，它们听起来铿锵有力，但借鉴IDF的思想就会知道，如果这些主张、论断对于任何主题都可以适用，那么从IDF的角度来看，其信息价值是相当有限的。

姜昆和李文华曾经说过一段深受大家喜爱的相声《如此照相》，讽刺的是特殊年代里生活中做任何事情都要先背诵一句语录的现象。凡事都要“背语录”，那么它就好像上文提到的每篇文章中的“的”字，或者关于中国的资料库里的“中国”一样，区分度很低，无法证明其有效性。事实证明，广大人民群众不背语录，照样不影响正常生活。

当然，这种“IDF极低”的现象还有很多，比如网络上的“杠精”常用的诘问也是如此。使用这些“万精油”式诘问，对知识储备、逻辑思维等等没有任何要求，随时可以祭出：你怎么知道你知道的就是真的？你以为就你看得多，多看了点东西就了不起？没有什么是绝对的好事，没有谁是圣人，一切都要辩证地看……

如果我们从信息价值的角度来分析，就会发现这些诘问其实也没什么信息质量也提供不了什么信息价值。

没有人能确认自己知道的绝对“就是真的”，重要的是在比较甄别中接近客观真相。如果既不能找出对方论述中的重要错误，也不能提供信息含量更高的信息，那么“你怎么知道你知道的就是真的？”本身是没有意义的。

在讨论问题时，“看得多”和“了不起”是没有关联的。如果对问题背景有充分的了解，对问题领域有持续的关注，那多半是比其他人“看得多”。如果认可判断的依据是信息和知识，自然的结论就是，多看点之后下的判断往往更靠谱。所以与其反问“多看了点东西就了不起”，不如自己多读多看，多提供一点有价值的信息出来。

事和人确实都没有绝对的好坏，但这不意味着我们无法对事和人作出确切的判断。如果大家的判断不一致，应当摆出事实来，进行细致（最好是可以量化）的分析。一个人做了件好事造福了一百万人，不能简单拿“它也损害了三五个人”来否定，一个做了一万件好事的人，也不能简单用“他也做过两三件坏事”来否定。

同样道理，一个人或一个国家做事可能出于利益考虑，也可能出于道德考虑。真正有意义的讨论必然是具体而具体的，做这件事是出于道德考虑还是利益考虑？或者二者兼而有之，但其中哪种因素更重要？如果当时确实是出于道德考虑，或者更多出于道德考虑，那么通过简单的“没有谁是圣人”或者“没有国家讲道德”得出粗陋的结论，只会扰乱认知，把讨论变成口舌之争。

最后需要注明的是，上面的论述都是从基于“信息质量”，而不是基于“热闹”或者“话题性”而展开的。世界很大，大家看中的因素各不相同。有些人在乎的就是热闹，而不在乎信息质量，这本身无可厚非，说清楚即可。

而且在这个时代，如果你注重提升自己的信息质量，或多或少会有一些副作用，要放弃一些热闹的话题，甚至伤了某些人的面子。不过冷静下来想想，坚持做下来的话，收获还是比付出要多，总的来说还是划算的，对吧？

码农公寓

相关文章