前言
统计会犯错——如何避免数据分析中的统计陷阱
在那本非常著名的统计读物《统计数字会撒谎》(How to lie with statistics)的最后一章中,作者哈弗(Darrell Huff)告诉我们“任何带有医学味道的言论”或者“由科学实验室和大学发布的信息”都是值得我们相信的,虽然不是毫无条件地相信,但是肯定比“媒体”或者“*”公布的事实可靠的多。哈弗的整本书中充满了媒体和*利用误导性的统计信息弄虚作假的例子,但很少涉及经过专业学习的科学家所做的统计分析也可能产生误导。科学家应该追求的是对事物本质的理解,而非对付政治对手的子弹。
统计数据分析是科学的基础。随便翻开一本你喜欢的医学杂志,你就会被统计术语淹没:t检验、p值、比例风险模型、风险比率、逻辑回归、最小二乘拟合以及置信区间。统计学家为科学家们在复杂的数据集中发现知识和规律提供了强有力的工具,科学家们毫不怀疑欣然地接受了这些工具。