第十一章 数字的理解与误解
前一章末了的讨论应当已经使我们明白,即使我们知道,例如,三十岁到四十岁之间的公共汽车司机100个有90个有胃病,我们也没有理由作结论,开公共汽车和得胃炎之间有某种特殊联系,如果我们所知道的就只有这一情况。我们还需要知道在三十岁到四十岁之间的非公共汽车司机的人中间的胃病发病率。在进行后一种人的取样的时候,既要有从事相近的职业的,如卡车司机等等,又要有从事迥不相同的职业的,如国会议员、教师、律师等等,还要有没有固定职业的,如失业者和“无所事事的有钱人”。这种办法合乎常识,也符合逻辑。如果发现在非公共汽车司机的人中间,患胃病的人的比例比公共汽车司机中间的比例低,那就有理由说在开公共汽车和得胃病这二者之间有特殊联系。这并不意味着所有的公共汽车司机都有胃病;它只意味着公共汽车司机有得胃病的倾向。前一章里讨论了一个同类的问题,其目的就在于强调A有B的倾向这一形式跟所有的A都是B和有的A是B这两种形式有根本性的区别。我说这种区别是根本性的,因为“A有B的倾向”给予我们的信息跟“所有的A都是B”和“有的A是B”是不同类的。如果我们说“A有B的倾向”,比我们说“有的A是B”提供更多的信息,虽然前者包含后者。另一方面,“A有B的倾向”又不等于“所有的A都是B”。把话说得细致些,“A有B的倾向”的意思就是“虽然有的A不是B,有的非A是B,然而A之中的B的比例大于非A之中的B”。稍稍思考一下,我们就会懂得,这样的信息是有用的;而且在人类事务中有一定重要性、引起人们关心的问题上,我们所能得到的有关事物之间的联系的信息往往只能是这种形式的信息。很少既真实又合于我们需要的话能够采取“所有的A都是B”的形式,如果A代表变化多端的事物,如人,政府形式,职业种类,处罚种类等等。
我们说到某种职业病的时候,意思是从事这种职业的人有得那种病的倾向。这一发现应当引导我们去考察导致这种疾病的条件。也许会发现这些条件可以改变,因而消除或至少是减少得这种病的倾向,不至于要求人们完全脱离那种职业。无须多举例子来说明我们必须弄清楚两种特征之间有一定的联系还是仅仅偶然同时出现;另一方面,由于这些特征难于从乱七八糟的一堆情况里分离出来,我们无法直接研究它们的联系。公共汽车司机中间得胃病的多这个问题就属于这种情形。我们面对一堆复杂的情况,不能决定这些人如果不当公共汽车司机是否同样会得胃病。处理这类问题,必须运用统计方法。在这类问题上,我们既无法观察一切可能的案例,又不能做实验。要做实验,必得能够控制有关的条件,一次变换一个因素。如果做不到这一点,变换一个因素的结果将被各种别的变化的影响所扰乱。统计方法就是帮助我们对多种原因的事例作有效处理的。确实没有别的方法可以分清这些因素。
详细说明统计考查的性质不在本书的范围之内,讨论统计法的技术问题就更不用说了。我们的讨论限于陈述和解说统计结果所遇到的某些困难。很多无效思维是由于没有认识到,如果我们要从统计结果中得出正确的结论,如果我们要避免由统计结果的某种表现方式所引起的误解,我们就必须在某些方面提高警惕。
有效思维的障碍之一是,我们有时候没有认识到我们的结论建立在不完全的数据之上,我们本当应用一种粗浅的统计方法。前一章末了提到瘪下巴的人有性格懦弱的倾向就属于这类问题。我们往往会从一个例子或几个例子,其中A是B,一跃而得出凡A皆B的结论。我们忘了要留意反面的例子,因而很容易被人家只用一个A不是B的例子就把我们驳倒。可是,我们已经在前面说过,虽然有A不是B的例子,我们不是只能满足于“有的A是B,有的A不是B”这种软弱的陈述。可能有A往往是B这种倾向。读者还记得,要确立这一论断,必须区分四类。用字母A和B来表示,这四类是:AB类;A 类; B类;类。如果B中之A的比例等于非B中之A的比例,那么这两类是不相干的。A没有是B的倾向,B也没有是A的倾向。例如,据我所知,蓝眼珠的人没有脾气好的倾向,脾气好的人也没有蓝眼珠的倾向。如果事实是如此,我们就应该说,蓝眼珠和好脾气之间没有联系。我曾经听人说,海军中的人有蓝眼珠的倾向,我怀疑这种信念起源于海军人员与蓝色的海之间的联系,而这种信念又为虚构所加固。可是如果这种信念有事实根据,我们就得说,当海军和有蓝眼珠之间有正面的联系。两种特征之间的联系可以有各种程度,从完全联系到完全不联系即互不相干。
上面只是关于平均数的非常初步的说明。关于各种平均数和统计方法的充分讨论可以在许多教科书里找到。我的注意力放在报纸的普通读者会遇到的某些困难上,这些困难往往不引起注意。首先我们可以注意,算术的平均数不能表示一组之中任何一个个体的情况。可能没有一个个体恰好符合这个数;即使有,这个数目也不是表示那个个体的;平均数表示组的特征。例如,如果我们知道一个板球击球手的平均得分是50,我们不能认为他恰巧有得五十分的任何机会。相反,他可能是不稳定的人,第一次失了手,当他注意了球的时候,可能扳回了一百分。另一种危险是把话说得准确到超过事实所允许。例如要求一个学生把他一个星期之内用于学习的小时数说出来。他也许说是8,7,7,5,6,8,8。算术平均数是6小时,用小数记下来是6.8591。计算是正确的,但不能就此认为得数是准确的。学生提供的是整数,小时的数目是对的。但可能多几分钟,少几分钟。例如他说的是7小时,实际是6小时52分。这是个无关紧要的例子,但是可以用来说明对精确数字结果的信赖往往是可笑的,除非那些数据是以同样的数据取得精密度。重要的是不要让我们上虚假的精确性的当。我们太容易轻信统计结果,因为我们相信统计人员的数学能力。A.N.怀特海教授说得好:“因为有了长时间的准确的数学计算,就认为把计算结果用于某些自然界事实是绝对可靠,没有比这更常见的错误了。”(1)
下面也许是伪准确的一个例子:“1930至1935年,日本本国居民从64,450,005增加到69,254,148人。1935年出生超过死亡在一百万以上。”(2)我们不知道作者是否把1930年12月31日午夜前一分钟出生的(如果有)和1930年12月31日午夜后一分钟出生的之间的线画得准确。如若不然,我们倒想知道那末位数5是怎么得来的。在人口统计上,平均数的价值是不大的,除非考查延续相当多的年份。常识告诉我们,如果我们的考查只有三四年,我们没有根据说一个国家的出生率在下降。也许在这一段时间之内有什么特殊的、不再现的原因起了作用。常识——可惜太稀罕了——告诉我们一条规律,平均数的可靠性与所依据的观察的次数多寡成正比例。还有,有了一个以一定次数的观察为根据的平均数,从它产生的推论的可靠程度要看那些数据的分布是否分散在两个极端。一定要记住,“平均数”是“极端之间的变异的度量”。可以把它当做有代表性的数。
虽然多数没有研究过这门学问的人会说“平均”意味着“算术平均数”,我想一般人嘴里说的“平均”(the average man)只能认为指“众数人”(the mode或modal man),意思是“典型人”(3)。我们在前一章讨论罗素的话,他说的“平均的妇女”(一般妇女)就是用的这个意思。无疑,“典型妇女”(如果有)是具有最常常跟妇女联系在一起的那些特征的妇女。我想这个解释合于罗素的用法。可是也可能他并不打算说得这么精确。正如《滑稽》(Punch)报里的一个角色说过的,“我相信五十个女人里边不会有比一个更多的平均女人。”在两极端相距很远的时候,一个受教育比较少的人很难认识到还是有一个平均数。有时候我们大家都感觉困难,除了专业的统计学家。我们全都很难记住,通过平均数,甚至通过一般的统计结果,给予我们的信息是何等稀少,只有专业的统计学家他们不糊涂。
很多人都知道,有时候从调查表的答案里产生出来的数据经过统计得出重要的结论。1935年的有名的和平投票就是用的这个方法,更早几年两家伦敦报纸举行的关于宗教信仰是否衰颓的调查也是用的这个方法。很明显,没有很可靠的信息可以用这种方式取得。一般的做法是要求对一些问题用简单的即无条件的“是”和“非”来回答。然而在这类问题上要设计出非常明晰的问题、可以用“是”和“非”来回答,几乎是不可能。其次,只有某一种类型的人会回答这些问题;别的人会拒绝回答,或者因为讨厌这种调查法,或者因为懒,或者因为有别的事情缠住。在这种情况下,要划清被调查者的范围就非常困难。然而这是正确使用统计法的首要条件。结果的性质如此有赖于每一个提问的措辞周密、问题总的覆盖面、其答案将构成数据的人的类型,以致在我看来,这种调查表的可靠性非常小,尤其是通过报纸或通过派人登门收集。调查表的方法只能在考查者本人能适当控制的情况下应用才能有点用处。
我要从米里森·法瑟特女爵士1912年出版的《妇女选举权》上引一个例子。(4)她说英国反妇女选举权同盟十分强调从市县选举妇女投票人那里收集到很多请愿书、抗议书反对国会选举中的妇女选举权。但是米里森女爵士指出,拥护选举权者“在同一群众中就同一问题举行的调查”,其结果与反对选举权者所获得的结果“全然不同”。她引用了“拥护选举权者在1909年和反对选举权者在1911年分别举行的雷丁市妇女选举人意见调查”,结果如下:
拥护妇女选举权同盟1909年调查:
反对妇女选举权同盟1911年调查:
米里森女爵士的结论是:“这两次调查的结果相差如此之大,不进一步考查双方所用方法,没有可能作结论。”
另一种性质的错误是有时候讲到一组的百分比,可是不说明这一组的人数。例如,如果一位教师说他的学生百分之百考试及格,而另外一位教师的学生只有百分之六十及格。这给人一个显明对比的印象。可是如果我们发现第一位教师只辅导了一个学生而第二位却辅导了十位,我们的看法就要修改了。没有文化的人讲到百分数的时候有时候会犯非常可笑的错误。下面这个故事是极端可笑的例子。《曼彻斯特卫报周刊》(1938年5月27日)从一家法国报纸转载一位法国人在苏格兰旅行时遇到的一件事。一只小火轮的船长卖明信片。“两分钱一张,”他说。“我是薄利推销,只收取百分之一的利润。您看,我一分买来,二分卖出。”
我不担保这个故事的真实性,但这是跟本章内容有点关系的。
有一个相反的错误的例子。一个小学生夸口说上学误火车只有一次,而隔壁那个孩子误了四次。事实是第一个孩子才上了一个学期的学,而第二个孩子则已经上了两年学了。
数量的比较常常用图形来表示,这也要注意防止错觉。现在我面前有一张这样的图,是发表在一家伦敦报纸上的(《旗帜晚报》,1938年3月28日)。这幅图是用来表示三个数量的比较的:(1)英国从苏联进口的货物;(2)从英国转口到苏联的货物;(3)苏联从英国进口的货物。这三项的价值分别为:(1)29,096,536镑;(2)16,432,55镑;(3)3,083,025镑。图画的标题是“十比一的逆差”。我们得承认,用图画来表示,读者对于数量的比较能获得更鲜明的印象。这一幅图里画着三条船,每条船上写出类别和钱数。船的形状是宽而不高,有点像欧罗巴型,船身全黑。这三条船的高度是按照上述的三个钱数定的,但是读者的眼睛不可避免的既看到高度,也看到面积。除非他特别小心,否则他会拿每个图形的整体作比较。最高的那条船(代表英国从苏联进口的货物)高度是66毫米;最小的那条船(代表苏联从英国进口的货物)高度是6毫米。这两个高度代表两项货款是大致不差的(钱数都写在每条船的旁边)。可是读者如果不是十分注意,就会为船身面积所左右,而且如果他是对船舶感兴趣的,还会为船的体积所左右。结果所得印象多少可以表示如下:
任何一位读者对这些船形看上一眼大概都会得到一个印象,最大的船比最小的船大一百倍而不是十倍。如果他是个搞运输的,他会想到船的载货量,那么大船将是小船的一千倍。(5)这是一个很不巧妙的数量比较图画表示法。或者,也许太巧妙?
附 记
158—159页补记:上面这一段写成之后,《新闻记事报》即已开始公布英国舆论学会的调查结果,这个学会的目的是要了解“英国人在想什么”。按照我所能判断的,所拟的问题的措辞是可以取得明确答案的。取样是与全部人口成比例的。因为结果的正确主要在于人口中各种成分的代表性而不在于问题的多寡,所以取样特别注意各方面的代表性。一般公认,有2500人的随机取样(6),所得结果的误差可以不超过百分之三。
舆论学会除在《新闻记事报》上公布问题和结果外,跟那个报纸没别的关系。(请看《新闻记事报》,1938年10月15日,28日。)
————————————————————
(1) A. N. Whitehead: Introduction to Mathematics, p. 27.
(2) W. H.Chamberlain: Japan over Asia, p. 21.
(3) 即汉语常说的是“普通人”或“一般人”,——译者
(4) Dame Millicent Fawcett: Woman"s Suffrage, pp. 51-52.
(5) 这个例子是A.F.道温先生提供给我的。
(6) 即无畸重畸轻的情况。——译者
