费希尔和皮尔逊的统计观点
卡尔·皮尔逊的统计方法与费希尔的统计方法存在哲学上的差异。卡尔·皮尔逊认为统计分布是对他所分析的实际数据集合的描述。费希尔则认为真正的分布是抽象的数学公式,人们所收集的数据只能用于估计真实分布的参数。由于所有这种估计都会引入误差,因此费希尔提出了使这类误差程度最小化或使估计值距离真实分布最近的工具。20世纪30年代,费希尔似乎赢得了这场争论。到了70年代,皮尔逊的观点再度兴起。到本书写作时,统计学界在这个问题上分成了两个阵营,尽管皮尔逊很难对他这一派门徒的观点表示认同。费希尔用清晰的数学头脑将大部分困扰皮尔逊的问题梳理整齐,将皮尔逊观点的内在本质显露出来。后来人们在复兴皮尔逊方法时仍然需要使用费希尔的理论成果。我准备在本书的数个章节探讨这些哲学问题,因为统计方法在现实中的应用存在严重的问题。现在我要开始第一次讨论。
皮尔逊将测量值的分布看作真实存在的事物。在他的方法中,在给定情形里,存在一个巨大但有限的测量值集合。理想情况下,科学家可以收集所有这些测量值,确定分布参数。如果无法收集所有测量值,那么你可以收集一个具有代表性的巨大子集。根据这个具有代表性的巨大子集计算出的参数与整个集合的参数是一样的。此外,用于计算整个集合参数值的数学方法也可以用于计算具有代表性子集的参数,不会带来严重的误差。
对费希尔来说,这组测量值是从所有可能的测量值集合中随机选择的。因此,根据这种随机选择得到的任何参数估计值都是随机的,具有某种概率分布。为区别实际参数,费希尔将这种估计值叫做“统计量”,现代的说法通常叫“估计量”。假设我们有两种方法获得估计给定参数的统计量。例如,老师希望确定学生掌握的知识(参数),进行了一组测试(测量值),得到了平均值(统计量)。他应该将中值作为统计量,还是将这组测试中的最高分和最低分的平均分作为统计量,抑或是去掉最高分和最低分、将其余测试的平均值作为统计量呢?
由于统计量是随机的,因此谈论统计量的某个值多么准确是没有意义的。这和谈论一次测量的准确度没有意义是一样的道理。我们需要的是统计量的概率分布标准,正如皮尔逊认为需要评估的是一组测量值的概率分布而不是个体观测值。费希尔提出了良好统计量的几个标准:
一致性:你得到的数据越多,你计算出的统计量越有可能接近参数真值。
无偏性:如果你对不同数据集多次使用某个统计量,这个统计量的平均值应接近参数真值。
有效性:统计量的值不会与参数真值完全相等,但在估计一个参数的众多统计量当中,大多数统计量与真值的差异不会很大。
这些描述有些模糊,因为我已将精确的数学公式翻译成了简单的文字。在实践中,人们可以用适当的公式评估费希尔的标准。
在费希尔之后,统计学家又提出了其他标准。费希尔本人在之后的工作中也提出了一些辅助标准。在这些复杂的标准中,最重要的一点在于考虑到统计量的随机性,良好的统计量具有良好的概率特性。我们永远无法知道一组数据的统计量的值是否正确,只能说使用某种程序得到了满足这些标准的统计量。
在费希尔提出的三个基本标准中,无偏标准吸引了公众的注意力。这很可能是因为“偏差”这个词具有某种令人无法接受的暗示。似乎没有人希望获得拥有偏差的统计量。美国食品和药品管理局的官方指导告诫人们使用“无偏”方法。一种叫做“意向性治疗”的非常奇怪的分析方法(第27章会详细讨论)开始主导许多医学试验,因为这种方法可以保证结果的无偏性,尽管这种方法在效率上的表现可能并不好。
实际上,有偏统计量常常具有很高的有效性。在费希尔的努力下,用于确定市政水源净化用氯气浓度的标准方法依据的就是一个有偏(同时也是一致而有效的)估计量。这完全可以看作社会学的某种教训——它们显示了人们为清晰定义某一概念而使用某一词语时如何无意中将无关的情绪带到科学上,从而影响人们的行为。