《统计数字会撒谎》

下载本书

添加书签

统计数字会撒谎- 第5部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
  可笑的是,只要你继续往下看,便会发现文章本身就指出了这些表格的致命缺点。所有孩子的生长方式并不是完全一致的。有的一开始长得很慢,却突然长高;有的暂时很高,然后速度趋缓;还有的人在整个过程中相对平稳地成长。这两张表,正如你所疑惑的,是基于进行了大量测量之后所取的平均数。对于随机抽取的100名年轻人,利用这两张表格预测他们未来的总身高或者平均身高,毫无疑问是足够准确的。但是,家长感兴趣的只是一个孩子的具体高度,对于个体,这两张表是没有价值的。如果真的想预测孩子未来的身高,父母及祖父、祖母的身高或许更有用,尽管这种方法和上述表格一样并不科学,也不精确,但结果的准确性至少相当。
  我很高兴地指出,在14岁到高中接受军训时,我站在最小班级的后排,利用当时记录的身高做一个预测,我的最终净身高为5英尺8英寸,但是,现在我已经有5英尺11英寸了。在人类身高中,3英寸的差距足以说明这是个差劲的估计。
  在我面前有两盒葡萄坚果薄饼的包装纸。它们来自于不同的生产批次,这一点从产品鉴定上就可以看出。其中一个引用了双枪皮特(TwoGun Pete)的形象,而另一个写道:“如果你想像霍皮(Hoppy)一样……你就得像霍皮一样吃。”它们都提供了说明图(“科学家证明是真实的!”)来证实这些薄饼“在2分钟之内开始提供能量!”一张图被大量感叹句所包围,其纵轴标有数据;而另一张图却遗漏了这些数据。既然没有关于这些数据的任何说明,有没有这些图都一样。两张图都有一条急剧攀升的红色###,###代表着“能量释放”,但是其中一条###开始于吃葡萄坚果薄饼一分钟后,而另一条却开始于两分钟后。一条###的攀升速度看上去是另一条的两倍,这暗示着连制图者都不清楚这两张图能说明什么问题。
  当然,类似愚蠢的数据只会出现在青少年或者早晨疲倦不堪的父母眼前。没有人会用这种统计废话来挑衅一个著名商人的智商……难道有人会这么做?让我给你看一个广告代理机构用于宣传自己的广告(我希望它不会让人感到疑惑不解),它刊登在《财富》(Fortune)杂志的专栏中。图中###意欲向人们显示这家广告公司年复一年惊人的发展趋势。但图中没有一个数字,这样一来,它既可以代表一个骇人的发展速度,每年翻番或增长几百万美金,又可以意味着在年十亿总收入的基础上,增加一美元或两美元相对稳定的蛇状爬行。但仅从图上看,其发展速度让人印象深刻。
  当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。否则,你会和一个仅仅根据平均气温选择野营地点的人一样盲目。也许你会认为,61华氏度是个不错的年平均气温,而在加利福尼亚州,如果仅根据平均气温,却忽略气温的波动范围,你可能会在内陆沙漠或者远离南海岸线的圣?尼古拉斯群岛两者中进行选择,那么,你不是被烤焦就是被冻僵。因为圣?尼古拉斯群岛气温的波动范围是47~87华氏度,而沙漠气温的波动范围是15~104华氏度。根据以往60年的记录,俄克拉荷马城具有十分相似的平均温度:华氏度。但是,正如你从下图所看到的,这个舒适凉爽的数字遮盖了130华氏度的气温波动范围。
  本章小结:
  ◆多少才算够呢?这又是个棘手的问题。它取决于其他的因素,即你采用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样本的规模与看上去的并不一致。
  ◆这里介绍一个易于理解的显著性检验方法。简单地说,它是一种反映检验数据以多大的可能性代表实际结论,而不是代表那些由于机遇产生的其他结论的方法。
  ◆通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。
  ◆当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。
  

毫无意义的工作(1)
第四章 毫无意义的工作
  乔赛亚?斯坦普爵士(Sir Josiah Stamp)曾经描述过这样一个场景:伦道夫爵士(Lord Randolph)正在检查一份税收报告,私人秘书站在他的身后,当看到与去年同期相比海关税收增加了34%时,伦道夫感到很满意。
  秘书马上纠正他,指出增长率只不过才。34%。
  “这有什么区别?”伦道夫爵士问道。
  当听到一个数值是另一个的100倍时,伦道夫说:“我以前经常可以看到位于数字前的小数点,但是直到现在我才真正知道它们的作用。”
  在比较考试成绩时,不单单是小数点,甚至其他一些讨厌的细微差异也会突然冒出来给大家造成困扰。为了举例说明,只要你不介意,我们将赋予你两个孩子,顺便给他们起了很时髦的名字。如同许多受教育的孩子一样,彼德(Peter)和琳达(Linda)接受了智力测试。现在任何形式的智力测试都有点原始伏都教(伏都教:又译巫毒教,源于非洲西部,是糅合祖先崇拜、万物有灵论、通灵术的原始宗教。)盲目崇拜的味道,因此你费了不少口舌来打听测试的结果,这个信息是保密的,一般只有心理学家和教育者才知道,或许这样是对的。但不管怎样,你还是通过某种方式探听到:琳达的智商(IQ)是101,彼德只有98。当然你很清楚:智商的平均数是100,即100意味着“正常”。
  哈!琳达是比较聪明的孩子,而且她的智商高于平均水平,彼德则低于平均水平。对此我们先不进行评论。
  任何类似的结论纯粹都是胡说。
  为了澄清事实,我们首先必须指出:无论智力测验测试的是什么,它与我们通常意义上的智商都不会是一码事。它忽略了类似领导才能、创造性想象力等十分重要的素质;它没有考虑到社交判断力以及音乐、艺术或者其他方面的才能;它无法测试出诸如勤劳、情感平衡等重要的人格品质。最主要的是,多数情况下学校进行的智力测试都是简单、低层次的类型,它们极大程度上依赖于阅读能力、测验者反应快慢等因素,不擅长阅读的人根本没有拿高分的希望。
  假设我们已经意识到了上述问题并达成共识:智力测验的智商仅仅是一种测量工具,它测量了人们处理事先准备好的抽象问题的能力,对这些能力我们很难给出确切的定义,哪怕彼德和琳达所做的是公认最好的智力测验——修订的斯坦福…比内测验(一种独立进行的并且不需要特别阅读能力的测验)。
  智力测试只是智力水平的一个抽样。与其他抽样结果一样,代表智力水平的智商值也具有统计误差,这个误差将用来衡量该数值的准确度或可信度。
  智力测验类似于估计某块地玉米质量时所做的工作,你在地里四处走动,随意地到处摘取一些玉米穗,当剥开并研究了大约100颗玉米穗时,你就能对整块地的质量大致有数。当已知两块地的质量不同,这些信息已经足够对它们的质量进行比较了。但如果两块地的质量接近,你就得摘取更多的玉米穗,并始终采用某种精确的质量标准来给它们划分等级。
  我们可以定量地衡量你的样本以多大的精度代表总体,那就是:可能误差和标准误差。
  假设你要完成一项丈量任务,即通过步测栅栏来了解几块地的大小。你要做的第一件事自然是检查丈量体系的准确性,通过多次步量后量出自认为的100码,你发现平均而言有3码的误差。这意味着,有一半的试验是你离开真实100码的距离在3码之内,而另一半试验是你与真实100码的距离在3码之上。

毫无意义的工作(2)
这样一来,在测量100码时,你的可能误差是3码,或者说3%。从此之后,每次被你步量测出的100码应该被记录成100±3码。
  (大多数统计工作者更倾向于使用另一个类似的误差度量工具:标准误差。全部实验中将有2/3的试验落在加减1个标准误差的范围内,而不是刚好1/2的比例,人们还认为标准误差的数学处理更方便。出于分析目的的考虑,在这里我们还是坚持使用可能误差,并将其运用到斯坦福…比内测试中。)
  假设智力测验的可能误差为3%,与我们假定的步量任务具有相同的可能误差。这与智力测验的好坏无关,而只是反映了测验与它所要测试的内容具有怎样的一致性。这样彼德的智商更全面的表达是98±3,琳达的智商则是101±3。
  这说明彼德的智商以相等的机会落在95~101中任何一点上,并且大于或者小于98的可能性完全一样。同样,琳达的智商落在98~104范围内的可能性也不过50%。从中你会很快发现:有1/4的可能性彼德的智商将超过101,这与琳达的智商低于98的可能性相同。这样看来,彼德的智商并不低于而是高于琳达的智商,它们之间还有3分的差距。
  我们的结论是:对待智力测验以及许多其他类似的抽样结果应注意它的范围。正常的智商不应该只是100这样一个数值,而应是诸如90~110的一个范围。将处于这个范围的孩子与低于或高于此范围的孩子进行比较时会得出一些有用的结论。但比较相差不大的两个数据则毫无意义。你必须在脑中牢记这个加减符号,即使(特别是当)它没有明确给出。
  在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。那些把读者调查奉若神明的杂志编辑,是因为他们不了解调查。对于一篇有40%男性读者喜爱的文章与另一篇只有35%男性读者喜爱的文章,他们会刊载更多类似于前者的作品。
  对于杂志而言,40%与35%读者人数的差异是很重要的,但抽样调查形成的差别却并不一定是真实的。出于成本的考虑,读者人数调查的实际样本,特别是已经扣除了那些从来不读该杂志的人后,也许只有几百人。对于一本女性杂志,样本中的男性读者会很少。当这些人又根据他们的回答:“全部读了”、“读了大部分”、“读了一部分”以及“没看”这篇文章而被划分成四组后,35%男性读者的结论也许仅仅建立在几个人基础之上。隐藏在这个看似显著的数据背后的误差可能会很大,依靠它抉择的编辑并没能抓住一根救命的稻草。
  为了一个数学上可论证,但是却小得没有意义的差别,人们有时会费尽力气。这种行为藐视了一句古训:只有当差别有意义时才能称之为差别。我们可以看一个相关的案例:老黄金(Old Gold)香烟公司利用一个毫无价值的结论制造了大量喧闹并大赚了一笔。
  故事起源于《读者文摘》(Readers Digest)某编辑的一个偶然想法。该编辑自己抽烟,而且他并不认为各种品牌的香烟完全相同。他的杂志开始行动起来,聘请了一些实验室人员对不同品牌香烟的烟雾展开了分析。杂志刊登了最终结果,列出每种品牌香烟的烟雾中尼古丁以及其他有害物质的含量。在详尽的数据支持下,该杂志声明:所有品牌的香烟是一样的,无论你吸的是什么牌子的香烟,不会有任何差异。
  也许你会认为,对于香烟生产厂商和那些为香烟杜撰崭新广告词的家伙而言,这是一个有力的打击,它还将引爆关于平缓喉痛和对胸部有益的广告索赔案。但某些人却有了其他发现,在一长串具有相同有害物质的品牌名单上,总有一个排在最后,这就是“老黄金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的字体刊登在报纸上。广告的标题和副本仅仅提到,由一家国家级杂志主持的实验证明“老黄金”牌香烟在不良物质,以及尼古丁含量方面“排名最后”,任何关于各个品牌的差异并不显著的文字甚至是暗示都被省略了。
  最后,“老黄金”公司被通知“中止并停止”使用这个具有误导性的广告。但这并不要紧,他们早已获得了足够的好处。
  本章小结:
  ◆我们可以定量地衡量你的样本能以多大的精度代表总体,那就是:可能误差和标准误差。
  ◆在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。
  ◆只有当差别有意义时才能称之为差别。
  txt电子书分享平台 

令人惊奇的图形
第五章  令人惊奇的图形
  人们对于数字似乎有一种天生的畏惧,当汉普蒂?汤普蒂(Humpty Dumpty)译者注:Humpty Dumpty在英语俚语中是指“又矮又胖的人”。充满自信地告诉爱丽斯(Alice),他能熟练地驾驭文字时,恐怕没有多少人能将同样的自信延伸到对数字的掌握上。也许早期的数学经验对我们造成了心灵的创伤。
  不管什么原因,当作者渴望自己的书有人读,广告商希望自己的广告能促进商品的销售,出版商希望自己的书或杂志畅销时,数字产生了真正的问题。很多情况下,表格中的数字是禁用的,而文字又不能达到很好的效果,这个时候解决的方法就只有一种:画图。
  最简单的统计图形是直线类图形。在显示趋势时,直线图形非常有用。而对于趋势,人们总是津津乐道于了解它、发现它、分析它,甚至预测它。下面,我们将用图形来显示国民收入怎样在一年内实现了10%的增长。
  首先,在纸上用相互垂直的直线画出许多小方格。然后,在横轴的底部注明月份,在纵轴旁标上数字,单位是“十亿美元”。在图中点出每个月的国民收入,再用直线将这些点连接起来,你的图形看起来像这样:
  这张图清晰地显示了一年来的变化,而且变化是逐月反映出来的。然而画图者很快就会发现,由于图形纵轴从原点即“0”开始,并且整张图形是按比例绘制的,虽然看上去的确上升了10%——一个了不起的上涨趋势,但是却并不振奋人心。如果你所要做的仅仅是传递信息,那么目的已经达到了。但假如你希望利用图形赢得一场争论、让读者大吃一惊、促使某项行动,或者向他人推销货物等,它就缺乏渲染的效果了。试试把图形的底部抹去,这样不是更好吗?(如果某个爱挑剔的家伙反对这种有误导的变动,你可以理直气壮地指出,这样做节省纸张。)数据是相同的,所以图形也相同,除了图形给人留下的印象不同之外,没有进行任何的伪造。但是粗心的读者现在所看到的是国民收入直线在12个月内上升很快,几乎占据了半张图形,不过,这其实仅仅是因为图表的大部分都已被抹去。就像语法课上遇到的省略句,它们也能被“理解”。但是,眼睛却不能“理解”被抹去的部分,这才导致微小的上升最终变成了惊人的增长。
  既然已经开始行骗,那么就别急着金盆洗手。你还有比之好得多的方法,它能使朴实的10%的增长率看上去比100%的增长率更让人振奋。只需要改变横坐标与纵坐标的比例关系,将纵坐标的每一个刻度缩减为原来的1 /10即可,没有人规定不能这么做,而这将会产生一张更加完美的图形。
  它真的令人震惊!不是吗?任何看到这幅图的人都会强烈地感觉到在国家的各条经济命脉上正快速地积累着大量的财富。这相当于将“国民收入增长了10个百分点”改写成“国民收入惊人地攀升了10个百分点”。显然图形比文字更有效,因为图形中不存在任何形容词和副词来破坏它所具
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架