首播于2015年1月16日
当看到板上钉钉的数据时,不妨自问:这靠谱吗?
菁城子
《统计数字会撒谎》 [美] 达莱尔-哈夫
《数字是靠不住的》 [美] 查尔斯-塞费
《数据之巅》涂子沛
感谢各位来到罗辑思维捧场。我上大学的时候读到过一本书,叫《万历十五年》,我这个岁数的读书人至少都听说过这本书的名字,它的作者是著名的美国华人,历史学家黄仁宇教授。
黄教授在这本书里抛出了一个非常重要的论断,就是怎么判断一个社会是前现代化社会,还是现代化社会呢?有一个标准,就是看这个社会可不可以用数目字来进行管理。说实话,当时读到这本书的时候,我是不明白这是啥意思的。后来年岁越来越增长,读的书越来越多,有点明白了。
啥叫现代化社会?就是陌生人可以在更广阔的范围内发生协作,这就是现代化社会。你想,前现代化社会它都是每个人从属于一个小共同体,那协作往往只需要一个传统的权威资源,比如说家长一出面,大家就协作了;皇上一出面,大家就协作了,它不需要太多的数字。
所以你看,中国传统的社会虽然表面上皇权很强大,也有一个大一统的政治体制,文官系统也很发达。但是中央对民间的情况,实际上是心中无数的,仅仅是一个认同的共同体而已。
但是在现代社会就不一样,陌生人之间协作,尤其这种协作要精细化、深度化的话,那就需要大量的客观公正的协作中介,这个中介就是数字。比如说我要买一家公司的股票,那我总得知道你这家公司详细的经营情况吧?我总得知道你过去一段时间,你的股指的变化情况吧?这都是数字。
一个国家想要管理自己的国民经济,你总得知道自己有多少人口吧?总得知道你的全年的GDP是多少吧?出口量是多少,发电量是多少吧?你看,都是数字。所以过去的二三百年里,人类的现代化的进程,其实就伴随着一个数字越来越多,越来越爆炸的进程。
罗辑思维在过去的两季的节目里,我们曾经谈过两期的大数据的话题。那今天,我们就把大数据和数字这个问题翻过来看,我们来看看,我们如此倚重的数字,它到底是靠谱还是不靠谱。
我们先把这个问题搁在一边,我们先来聊一聊1936年的美国总统大选。1936年是哪两位竞争啊?一位就是著名的罗斯福,还有一位呢,现在大家已经不知道了,因为他没选上,这个人叫兰登,是美国当时共和党推出来的总统候选人。
现在我们看美国历史,都觉得罗斯福连任四届总统,担任总统时间最长,而且德高望重。但是你回到当时的历史情境可不是这样,罗斯福的整个执政过程不是一帆风顺的,尤其到1936年,实际上他当时的位置非常险。
大家看,在此前的一次选举,就是1932年,美国不是四年一届吗?1932年,他的对手是胡佛,胡佛是个倒霉蛋,1928年当选,1929年就出了大萧条,然后他整个的任期就在那儿焦头烂额应对大萧条。
美国人民就烦啊,说你这个笨蛋,永远治不好这个国家,这么严重的一个病,赶紧下去吧,换一个敢跟人民承诺我要改革的总统。所以罗斯福顺利当选,1932年,毫无悬念。
但是到了1936年,情况就不是这样了。首先在经济上,罗斯福那几招使出来,其实没有太大的起色。事实上美国的大萧条它不是一次性到底的,它是分七次才到底,1936年其实大萧条还恶化了,整个美国当时还有20%的失业率。经济上,你罗斯福对人民的承诺,实际上没有兑现。
那第二条,就是罗斯福实际上在政治上,这个时候声望也跌入了谷底。为啥?因为他搞的那些新政,跟美国传统的价值观冲撞是非常大的。比如说,他提出来的全国工业复兴法,居然被当时的联邦最高法院判定违宪。要知道,在美国这样的国家,一个总统重要的改革纲领被判定违宪,这是一件很丢人的事情。
而且你罗斯福好歹也在台上表演了四年,你的很多政策肯定要得罪很多人的嘛。比如说,当时美国坚定的共和党人,包括那些富人、有钱人,他们就会觉得你那一套政策不就是敲富人的竹杠嘛,就是搞社会主义嘛,就是搞无产阶级专政嘛,向苏联学嘛,那怎么能行呢?所以这些人就憋着,在1936年的时候,把罗斯福给掀下台。
尤其这一年,罗斯福面对的那个对手,就是我们前面讲的那个兰登,他其实是一个中间派,他不是那种典型的保守派的共和党人。他的很多政策方案一出来之后,大家一看,他很支持新政,新政当中那些起色的、见效的措施,他全盘接受;他只不过反对那些激进的,争议非常大、反弹非常大的一些新政措施。所以这个时候,你不能说兰登没有竞争力。
当然了,在这儿我们并不是想分析这一次大选,我们把大选先搁一边,我们去看当时的一个媒体机构的命运。这个媒体叫《文学文摘》,你一听好像是一个小众媒体,那可不是。《文学文摘》它虽然是一个文摘类的杂志,把一些什么重头报道进行文学化的改写,包括直接选登。当时它在美国拥有两百多万的用户,这是一个不得了的数字。
你看看中国那什么《故事会》、《女友》这些杂志,也不过就是百万级的用户,可是中国的人口基数有多大?美国当时整个全国人口也不过1.3亿,它有两百多万的杂志订户,这是一个不得了的数字。
这个《文学文摘》它真正有力量,不仅仅表现在它的发行量,而且表现为它对政治的介入。要知道,这份媒体它可是当时美国政坛上一个重要的搞总统选举民意调查的媒体,而且它干这个活已经干了16年了,而且此前干得还特别漂亮。
你看,它是从1920年一直干到了1936年。你看,1920年的哈定总统、1924年的柯立芝总统、1928年的胡佛总统,包括1932年的罗斯福总统,人家文学文摘杂志全部都预测准了。所以当时在美国的政治生态里面,它简直有拥有小诸葛、黄半仙、章鱼保罗那样的位置,神了呀。
所以1936年的时候,他们就决定干一票大的。大到什么程度呢?要发1000万份问卷。1000万份是什么概念?当时美国全国的人口不过1.3个亿,有选民资格的人不过4000万,它居然要发1000万份问卷,覆盖四分之一的选民。这个预测的准确度简直是太高了,等于它的选举的预测报告一发布,总统选举就一锤定音了,几乎就能达到这样的高度。
那它为什么要干这么大呢?你想,它的算盘也是对的。第一,美国当时整个社会生态里面最好玩的一个大悬念,一局大游戏,可不就是总统选举吗?好,那我给你截和,我提前给你剧透,我让你这局大游戏玩不下去。我通过一个媒体的力量,我就可以改变美国整个民主生态的那个运作流程,这是一个多么伟大的事业?虽然是一个捣乱的事业。
那它可能真的,当时美国就有人在讲,说以后就不要看总统大选的结果了,直接看《文学文摘》提前发布的那个调查报告,不就可以了吗?美国政治生态都有可能被改变。
当然你说它背后有没有生意的算计,当然有嘛,这1000万份问卷发下去,全美国人民都知道,文学文摘要干一票大事。那你想,1000万份问卷发出去,这杂志社又不是傻子,肯定会在信封里塞上一张杂志的征订单嘛。
这叫明修栈道,暗度陈仓,表面上是在干一件正经事,顺便把生意也给做了。这在互联网时代,叫流量入口逻辑,只要转化率达到10%,你想,1000万份问卷,有100万人会填杂志的征订单,一下子《文学文摘》的这个生意可就爆棚。所以这个生意的算盘,打得是很精的。
杂志社调集了多少人呢?九百人来干这个事,五百人拿钢笔写,查地址、写地址,四百个人装信封,然后向全美各地发了1000万份问卷。当然了,这问卷也不可能都回来,但是回来的数量也是惊人的,237万份回来。说实话,这就是人类历史上现在有据可查的最大规模的民意调查。
那调查的结果呢,当然是经过非常严格地审核,据说有三次校、五次审核等等,最后公布的数据是这样的,说罗斯福大败,他最多只能拿到43%的选票,而他的对手兰登会拿到57%的选票,大赢。
但是结果呢,结果一翻两瞪眼,当然这个历史我们已经知道了,罗斯福连任。而且罗斯福胜的那个比例是极高的,他拿到了62%的选票,兰登只拿到了38%。如果你熟悉美国的政治制度,你会知道,美国大选不是简单的一人一票,它是在一个州内选举人票,赢家通吃。
就是选这个总统的人,只要比选另外一个总统的人哪怕多一票,这个州所有的选举人票都是他的。那这次大选,罗斯福胜到什么程度?就是他最后拿到了523票选举人票,而兰登拿到了多少?好可怜,说不出口,8票。这么大悬殊的比分,但是《文学文摘》杂志搞的这个调查,居然是如此的乌龙,那到底是为啥呢?
《文学文摘》杂志后来的命运就很惨了,从几百万订户,因为你信誉破产了,干媒体就是这样,一下子掉到了几十万用户。然后过了没几年,就被《时代周刊》给收购了,这个杂志从此就不存在了。
但是我们想讲的是,为什么它会犯这样大的错误?道理很简单呀,我进行了如此大规模,简直是地毯式轰炸,简直是四分之一的美国的可投票的人的调查数据,居然还得出了如此乌龙的结果,请问为啥?
现在翻盘,大概是两个原因。第一个原因呢,就是它的样本有问题。当时,他们选的人是在哪儿选的?主要是三个渠道。美国拥有车的人,因为有车的人他基本上在政府那儿有登记,比较容易拿到他们家的家庭住址,可以寄东西。第二呢,就是美国的各种俱乐部,它有各个成员的家庭住址。第三呢,就是美国的电话黄页。
那前两个渠道呢,应该来说问题都不大。首先,美国那个时候汽车的普及率已经很高了,几乎家家户户都有汽车。你比如说福特的那个著名的叫T型车,那个在20年代的时候,已经卖掉了1000多万辆。当时美国也几乎做到了家家都有汽车,极穷的人不算。
那第二呢,像俱乐部,美国是一个民间结社特别发达的社会,所以俱乐部的这样的一个地址,应该也没有问题。问题就出在了电话黄页,就是电话簿。
当时《文学文摘》杂志,你也不能说它不用心,它也确实是抽,你比如说翻开一本电话簿,把那个尾号是1和9的抽出来,然后都给他们家去寄这个调查问卷。按说没问题啊,但是它忽略了一个因素,就是美国当时的电话普及率,在第二次世界大战之前,其实是不高的,当时还不到30%,美国是二战之后,电话普及率才逐步达到了70%以上。
而什么人会有电话呢?当然就是富人啊。什么人恨罗斯福呢?当然是富人了。所以富人家有电话,通过这种方式去收回的这种问卷,它在很大程度上就代表了富人的观点,富人恨罗斯福,当然它得出来的调查数据,就有了这样的一个偏差。
那《文学文摘》杂志犯的第二个错误,叫反馈失灵。表面上寄了1000万份问卷,回来了237万份,按说反馈度很高吧。可是你忽略了这个反馈的结构。给大家举个例子,一个餐馆,在门口吊了一个顾客意见簿,那请问什么样的人会上去写?当然是对饭菜不满意的人了。那些吃的觉得感觉还不错的人,一抹嘴结账走了,他们才不会上去写呢。
所以1936年的选举,很多美国人他忍了罗斯福四年,他就想把他掀下台,但平时没有表达渠道。好不容易来了这么一份调查问卷,赶紧写上兰登的名字,给寄回去。而那些罗斯福的支持者,他没有强烈的动机一定要填这份调查问卷。
所以回来这237万份,它可不是民意的一个标准的,或者说均等的表达,它本身就包含了强烈的情绪。而文学文摘杂志没有意识到这一点,所以连续四次预测胜利,这一次失败了。
当然你可能会问,那前面四次不也是这么调查的吗?怎么就没有出问题呢?那你就得回到当时的历史情境了。
你看,1920年是当时的哈定总统。因为一战刚刚结束,美国人民很烦那些英雄式的人物,哈定不错,长得帅,是个大帅哥,非常受美国妇女的欢迎。而且那一年美国选举,第一次妇女获得了普选权,那当然选大帅哥了,所以他就当选。
但是这个哈定总统干得太烂,所以第二任,就是1924年,是柯立芝总统。这个人是个正派人,原来就非常有名在外,大家忍了哈定四年,选一个正派人,所以柯立芝又上台。
柯立芝带来了所谓美国历史上的叫柯立芝繁荣,经济发展得非常好。那这个时候大家发现,下面1928年选举的是柯立芝时代的商务部部长,叫胡佛。胡佛这个人因为经历很传奇,原来在中国也工作很长时间,而且商务部部长,带来那么大的繁荣,肯定要归功于他。加上胡佛当时也主张叫禁酒令,所以很获得美国妇女的欢迎,所以胡佛又当选。
那1932年,罗斯福的当选这就更不用说。你看,前面这四次正确的预测,它都是跟这个总统本人的有关,它没有牵扯到美国当时社会结构当中的贫富之争。而贫富之争这个因素,是在1936年才爆发出来的,所以《文学文摘》杂志再用过去的调查手段,一下子就露馅了。所以这个杂志真的是走了麦城,前面胜多少次都没用。
但是我们得说,1936年其实也有一家调查机构就此成名,这就是著名的盖洛普。盖洛普也是个人名,这个人身上的身份很多,比如说他是个数学博士,而且他还是一个新闻学教授,自己又长期在媒体干活,所以他就把数学思维代入到一个媒体的运作当中。
当时他就提出来,这个调查不需要使那样的蛮力,什么发1000万份,傻。他就举了一个很著名的例子,他说你要把7000颗白豆子和3000颗黑豆子放在一个缸里,稍微搅和搅和,你随手抓一把,里面的黑豆子和白豆子的比例仍然是3:7,这个误差是很小的。
说白了,只要把这个缸稍微搅匀和一点,实际上样本量并不需要那么多。光靠大数字想获得精准的调查结果,其实是一个没有数学常识的办法。你看,人家数学博士嘛。所以当时盖洛普就提出一套全新的,事实上也是非常具有科学性的调查预测的方法,那就是让样本充分地能够反应当时的选民结构。
你比如说,你要做一次美国总统选举的预测,那你至少白人黑人的比例,你在样本当中和总人口的比例,应该一致吧?穷人和富人、共和党和民主党、城里人和乡下人,所有这些因素你都要考虑到。
所以盖洛普在预测1936年选举的时候,他的样本量其实很小,1000个人,只有《文学文摘》杂志的万分之一,但是人家就成功预测了罗斯福当选。所以后来,《文学文摘》杂志不行了,盖洛普从此声名鹊起。现在我们还知道,美国最著名的民意调查机构就是盖洛普。
当然了,你说这种科学的、有数学基础的方法,是不是就一定靠谱呢?还真不是。要知道,盖洛普在预测美国总统大选的过程当中,也有几次重要的失手。比如说对卡特总统和福特总统竞选的那一次,70年代,失手了。最近的一次,布什和克里竞选,他又预测错了,他预测的是克里。
盖洛普败得最惨的一次,是1948年的选举,就是杜鲁门和杜威。这两个人当时所有的民意调查机构,包括我们讲的盖洛普,都认为杜威一定胜。这个杜威可不是美国那个著名的哲学家杜威,他是一个政客杜威,大家都觉得杜威胜。
那杜鲁门呢,就是非常惨,因为大家你想,忍受民主党已经那么多年了,都是罗斯福,大家觉得换换口味,这很正常,当时几乎已经是全民的共识。甚至很多报纸就讲,说民主党不要选了,浪费那些选举的基金,浪费那些置装费,还有那些眼泪干什么呢?干脆别选了。
甚至当时民主党内部也说,不行啊这杜鲁门,我们应该换一个更德高望重,所以当时很多人还去拉拢艾森豪威尔,因为艾森豪威尔是二战的英雄,联军的统帅。当然后来没搞成,还是这个杜鲁门去参选。
甚至到了大选的最后阶段,这个杜威已经觉得胜券已定,夫妇两人携手就度假去了。当时还有一个很八卦的段子,说这个杜威的老婆跟杜威晚上在卧室聊天,杜威说怎么样,再过两天,你就要跟美国总统睡觉了,这个胜券在握。
那结果呢,大家都知道,是杜鲁门当选。所以杜威的夫人就问这个杜威,说你不是说我要跟美国总统睡觉吗?是我去华盛顿,还是把杜鲁门叫到咱们家卧室来啊?这是个段子。
确实这个结果也是一翻两瞪眼,包括盖洛普在事后的各种各样的解释当中,都没有办法自圆其说。这还得插一段,就是中国的那个蒋介石,当时也跟着起哄,他觉得这个杜威肯定胜,所以到处给杜威呐喊助威。甚至中国当时,就发生在中国,给杜威助选的这个游行,在中国还发生了。
因为当时蒋介石觉得,我支持一个美国总统上台,这个人肯定将来给我大量的美元嘛。你看,1948年,那可是解放战争胜利的前夕,蒋介石也在下赌注,最后发现赌错了。后来杜鲁门上台,果然就不再给他支持,这是个插曲。
但问题回到我们今天的主题,为什么盖洛普这样的机构,它用大量的数学工具,用现代化的科学方法,仍然会有预测错误?当然了,这当中牵扯到很多调查统计学的问题,我们都不提,我们就提一个效应,叫布拉德利效应。布拉德利是一个人,他参加了1982年美国加州州长的选举。
那这个人是谁呢?当时他担任的是洛杉矶市的市长,也是一个成名政客,而且他是一个黑人,非洲裔的美国人。那在搞民选调查的时候,就是盖洛普这些机构在忙活的时候,发现布拉德利肯定赢,数字摆在这儿。但是选举结果出来,又一翻两瞪眼,布拉德利输了。
后来就有人解释,说这叫布拉德利效应。大家是这么分析的,说表面上你去调查问,你支不支持一个黑人当选?大家都会说支持。因为不歧视黑人,这在美国是政治正确,每个人都会这么填调查表。可是一旦到选举,真要去投票的时候,他内心里的那种种族歧视意识,又会死灰复燃,他就不选他。
所以调查,会调查出一个口是心非的结果,那自然就不准确了。所以这个词,布拉德利效应,在美国的调查统计学界流行了很多年。可是到了奥巴马的时候又出事了,因为当时很多人说,别看奥巴马现在民调数据领先,布拉德利效应搁在这儿,他是个黑人,很多人都会在最后一刻更改自己的决定。
但是结果恰恰相反,奥巴马当选之后发现,比民调赢的那个数字还要高。所以当时又有人提出来一个叫反布拉德利效应,它又这么解释的,说很多人平时看不起黑人,所以民调的时候他不选奥巴马。可是真要到选举的时候,他又觉得这个道德负担很重,要不我这次还是选黑人吧,所以投票又投给了奥巴马。
所以你看,同时一个效应它正反两方面的因素,其实都存在。你看,调查统计学就遇到了它生命中最大最大的一个魔鬼,叫人心难测。所以调查统计学这样的一个表面上很科学的东西,这样的一个体系,现在到目前为止,其实它还是搞不定人性。
现在您收看的是罗辑思维的视频节目。
好,还是回到我们今天的话题,我们讲数字。数字这个东西既是现代文明的丰硕的成果,同时也是一个大坑,刚才我们讲的《文学文摘》和盖洛普两家机构,人家可是专业玩数据的,都被这个坑坑得不浅。
但是没办法呀,现代人想要彼此协作,它必须有数据作为中介。所以既然大家这么依仗它,那自然它就会呈现出暗黑的一面,因为有人要利用它干坏事。
所以下面我们就聊一聊那些我们在日常生活中磕头碰脑都会遇到的数字,其实都掩藏着大量的谎言。就像我们在广告当中,我们会看到很多数据,那些数据都是真的吗?有一段词,我实在是背不下来,我念给大家听,这都是我们在一些广告当中,尤其是一线化妆品广告当中摘出来的。
品牌我们就不提了,给人留点面子,反正你听到时候你自己到网上搜,看是哪家品牌。比如说28天肌肤重现美白盈润,24小时滋润,两倍柔软;还有,肌肤15倍透亮白皙,使用它之后,7天后奇迹般呈现高白光彩。
好,还有,连续使用四个星期,眼袋减少47%,肌肤年轻12岁。还有,肌肤肤色显著提高93%,色斑明显减少87%。
您能信吗?当然了,一线品牌嘛,它既然敢说这个数,没准儿人家还是有些依据的。比如说找一个女孩来,用完自己的产品,说你估计你的肤色回到了多少年前?人家女孩傻嘛,说12年,用了之后立即年轻12岁。你说的啊,记录在案,然后就广告出去了。没准儿人家有依据的,但是我们稍有常识就知道,这样的数字它有什么样的科学依据?但是我们现在人几乎整天是浸泡式地身处于这样的数据洪流当中。
当然,数据造假第一条,就是因为恶意造假。给大家举一个例子,前些年中国有这么一位奇葩的小姑娘,叫郭美美,她曾经威胁一些人,说别跟我来劲啊,来劲我手里可有17个G的视频数据,我要给它公开。吓得很多人,不知道有没有人,反正吓得就不敢吱声。你看这17个G,你听这个数,它就像真的。
再有,比如说1950年的时候,美国政坛上就出现了一个那个时代的郭美美,这个人叫麦卡锡,是美国的一个参议院。他其实平时就是一个妄人,但是在1950年的有一天,他突然就宣布,我手里有一份名单,美国国务院这么重要的机构,美国国务院掌管美国全球的外交,说里面有205个共产党员,我们这样的机构已经被共产党人完全攻占了。
你听这个205个,有整有零,所以当时舆论就大哗,说到底有多少,居然被他拿到了这样的一张名单,说我马上要公布了。当然这个数字,麦卡锡后来又变来变去,一会儿说57个,一会儿说81个。但总而言之,之所以麦卡锡作为那个时代最著名的政坛小丑,他能够表演,原因是什么?不是因为他指控美国国务院里面有共产党人,而是他拿出了一个像真的数据。
你看我们每一个人,我在办公室里就做过实验,我说你现在从0-10,你随便想一个数告诉我,百试不爽,绝大部分人都会说是7,还有一部分人会说是3。包括刚才说的那几个数字,你看郭美美说17个G;麦卡锡说205个,什么57个、81个,你发现这些数有什么共同特征?都是单数,越是单数,就越给人感觉它像是真的。
所以麦卡锡的这样的一个指控,才会在50年代的美国政坛掀起一阵腥风血雨,很多其实本来就是个左派人士,比如说电影大师卓别林,都被美国政府去调查,就是因为麦卡锡掀起的这一份迫害。那迫害的根源,就是根据他好像拿出了一个数字,而实际上是指鹿为马。
那当然了,这种直接无中生有,在原始数字上造假的现象虽然很多,但是也比较好识别。真正难识别的那些数字陷阱是什么?就是原始数据是真的,只不过当这个数字和其他数字、其他背景放在一起的时候,在经过人的处理和加工之后,给你呈现出来的那个意义是假的,或者是刻意扭曲的,这才是防不胜防的数字陷阱。
这种数字陷阱,我们主要讲两个现象。第一个,叫假精确。我们先说个段子,这是一个老笑话,说有一个博物馆,里面有一个恐龙的骨骼化石。那个讲解员就跟小朋友们讲,这个恐龙已经有6500万零38年的寿命。
小朋友说怎么搞得这么精确啊?说你想啊,我刚到这个博物馆来工作的时候,科学家告诉我,这恐龙6500万年;现在我工作了38年,那可不就是6500万零38年吗?一看就知道,这是一个错误。但是,由于它显得更精确,于是显得更可信。
在这个段子的背景下,你能够看出它的可笑之处,可是我们生活中大量存在这样的现象。举个例子讲,人类在医学界曾经探讨过,就是人有没有标准体温。现在我们都知道,人是没有标准体温的,多多少少个体差异都会存在,有的人体温高,有的人体温低。
但是有一个大夫最后统计来统计去,说还是有一个大概的标准数的,37摄氏度,这就是标准体温。你看,这种表述是没有问题的,可是美国人用的那个温度计是华氏的,那有的人就把37摄氏度换算为华氏的温度,是多少?98.6,标准体温就变成了98.6华氏度。这样一来,其实就暗示给你了一个什么?就是人的标准体温,可以精确到0.1华氏度。
所以事实上就给人一个错觉,就是人原来应该有非常精确的标准体温。你看,它只是做了一个数据换算,但实际上已经在传导一种错误的知识。
再比如说,有一个经济史学家叫麦迪森,他写了一本书,叫《世界经济千年统计》。他真是一个认真做学问的人,找了大量的原始数据,然后编了一张表。这张表很多中国的爱国年轻人从中一眼就看出,壮我国威的数据啊。
说在公元一年的时候,就是中国西汉的时候,中国的GDP占到全球的26.2%。到了公元1000年的时候,就是中国北宋的时候,占到全球22.7%。中国GDP什么时候最牛呢?是清朝,1820年的时候,就是鸦片战争前20年,居然占到了全球的32.9%。
那你说这些数字可信吗?要知道,当时尤其是在西汉的时候,哪有什么可靠的经济统计数据啊?可能史料当中有那些一鳞片爪的,比如钢产量、当年的中央税收,可能有一些这个数据。但是它在根上就是不精确的,当你通过数理统计的方法,各种回归分析,最后拉出这张表,什么26.2、22.7的时候,你会知道这个数字的精确已经变得毫无疑义。
但是正是因为它那种形式上的精确,所以被大量的文章、新闻报道所引用,从此变成学术界的一个定论。你不觉得这种东西叫无源之水,无本之木吗?
再比如说,很多政治家也会来这一套。1999年的时候,当时的联合国秘书长安南,就跑到当时的波黑萨拉热窝,就抱起一个孩子,刚出生的婴儿,宣称这就是地球上活着的第60亿的公民。
老天爷啊,你用常识去想一想,地球上每一秒钟要出生四个多人,每一秒钟又要死去将近两个人,那你在抱起这个婴孩的这一刹那,其实这个数字就已经在剧烈地变动,你怎么知道这一秒钟他就正好是第60亿个婴儿呢?
事实上,人类至今为止是没有这样的统计手段的。当然后来联合国反复讲,说我们之所以选择萨拉热窝,完全是偶然,这就是精确分析的结果。其实你想想看,在那样的一个背景下,去跑到萨拉热窝,他一定是有相应的政治意图的。
所以一个精确的数字的发布,背后隐藏的那个丰富的背景含义,那就看你聪明不聪明,你的视野广阔不广阔,你才能够解读出它背后的真实意图。这是假精确。
那还有一种数字造假呢,叫假对比。原始数据还是真的,还是有据可查的,但是当他把两个数字或者更多的数字放在一起的时候,那就是他刻意营造的一个结果。
比如说,美国纽约有一个著名的市长,叫布隆伯格,这个人本身也是大企业家,创办布隆伯格公司的。他当了市长之后就宣布,从2005年到2008年,纽约市的教育水平是直线上升,他手里有数据。
你看,纽约市这么多中学,那些学生们考英语的阅读理解,包括考数学,成绩一直是在上升的。你听着好像有道理吧?但是只要你稍微一深想就知道,哪一场考试和另外一场考试之间那个成绩是能对比的?事实上后来美国人一研究也发现,原来不过是从2005年到2008年,纽约市的这些考试题目变得越来越简单而已。
所以一个政客想塑造自己的政绩,他用这种手段,就非常容易给你制造出一个数据的假象。你看,这就是在数据加工过程当中做的那种手脚。
当然,那些民间人士去批判政治家,他也会用这样的一些手段。比如说,美国人当时在批判小布什的时候,就有一条罪证。说小布什就是一个败家子,因为他是第43任美国总统,此前42任美国总统所有对外援助的数目,都刚刚达到一万亿美金。
可是小布什呢?你看他当家这几年,他就败家败出去一万亿美金。所以你说他是不是个坏蛋?
你这么一听好像也有点道理。但是你要知道,在美国此前200多年历史上,那42任总统那个时候美元是什么价值?你能把它做一个简单的算术加法,然后和小布什时代因为对比吗?
我们举个简单的例子,在19世纪初的时候,当时美国人从拿破仑手里去购买整个路易斯安那,那个时候路易斯安那不是现在地图上路易斯安那州那么一点点,是整个从北到南一贯下来的一大片那片领土。花了多少钱?1500万美金。那个时候美金很值钱,而且当时确实对美国中央政府的那个财政,也是一个沉重的负担,那是很大一笔钱,但是数很小。
到了19世纪中期的时候,每个人从俄国人手里买到阿拉斯加,多少钱?700多万美金,还不到买路易斯安那的一半的钱。那这两笔钱现在全加一块,2000多万美金,能买什么呀?在美国现在曼哈顿顶层的那种豪华公寓,一套你都不见得能买得下来。
所以用过去的钱加总,然后和现在小布什花的钱对比,然后来指责小布什,你不觉得这就是一次政治上的把戏,一次数据上的陷害吗?
当然了,如果我们把人的因素再叠加到数字世界之后,你会发现,这个世界就彻底乱套了,因为人是这个世界上不确定性的最大来源。
给大家举一个例子,有一个段子是这么说的,两个农民在那儿讨论一个问题,说我们能不能够一边抽烟,一边虔诚地向上帝祈祷?结果俩人就跑去问神父。但是俩人问法可不一样,一个人问,说我祈祷的时候能不能抽烟呢?神父说当然不可以啊。而另外一个人的问法是,我抽烟的时候能不能虔诚地向上帝祈祷呢?神父说可以的。
你看,同样一个情境,但是因为意义的背景一切换,人们得出来的答案就不一样。所以很多问卷调查看似设计得非常科学,但是很多原始意图已经植入在其中。
比如说你接到这么一份问卷,说你喜不喜欢教师这样一份令人尊敬的职业?那你会怎么填呢?还有一个问题是这样问的,说医生都认为吸烟危害健康,你同意吗?
那这样的问题实际上已经预置了答案在当中。所以你看,数字既是我们理解世界真相的一个确定性的途径,同时这条途径上又充满了烟雾。就像《红楼梦》里写的太虚幻境大门上贴的那一副对联,上联叫假做真时真亦假,下联是无为有处有还无。
接着跟大家聊数字这个话题。现代化放出了数字这个魔鬼,但其实人类还远远没有能够驯服它。前面我们讲的是很多人刻意地要歪曲数字,其实情况比这个要复杂得多。即使没有刻意歪曲,那些客观的数字就摆在那儿,我们人类就可以通过它正确地认识世界吗?还真的不一定。
给大家举一个例子。1999年的时候,在英国发生了这么一个案子,案子的主人公是叫萨丽,是一个34岁的女律师。你想律师嘛,社会地位比较高,然后也比较有钱。这个女孩她先是生了一个孩子,这个孩子到三个月的时候,就突然猝死。
当时医学界也正好意识到有这么一个情况,说婴儿在毫无征兆的情况下,在几乎检查不出任何病症的情况下猝死,是有这种情况的,这叫婴儿猝死症。那好了,第一个孩子就这样了。
那第二年呢,这个萨丽又生了一个孩子,这个孩子活到两个月的时候,又猝死。给他尸检的这个医生就怀疑了,说这没准儿是那种说心理变态,然后虐待婴儿致死的情况,所以这医生就给报了警,然后就把这个萨丽作为重要的嫌疑犯,就给抓起来了,然后就上法庭。
那确实,就像那个段子讲的,How are you,怎么是你?How old are you,怎么老是你?太可疑了。那正好在这个时候出来一个人,这个人是一个当时英国著名的儿科专家,叫梅铎,这个人在英国的医学界是鼎鼎大名,刚好这个时候,女王给他授了一个爵士的头衔。在英国授爵士头衔,这就是上层社会,这个人说话要负责任的。
于是这个负责任的儿科医生就出来了,他说,他上法庭说的,这可不是私下闲聊。说在我们这样的社会,一个只要他不是说吃喝都发愁的这样的家庭,如果婴儿发生猝死的概率是多少呢?是1/8543,是一个非常偶然的情况。
但是如果这件事情在同一个家庭,同一个母亲身上发生两次,这个概率是多少呢?是七千三百万分之一,这就非常可疑了。什么概念呢?就是英国一百年,按照英国的那个人口总数,才会出现这样一个事。
如果这件事发生到第三次的话,如果还在你这个家庭,我就可以铁口直断,你就是谋杀,现在已经非常之可疑。所以这个儿科专家梅铎教授,就在法庭上做了这么一段证词。你可想而知,这样的证词是极端不利于萨丽的。
当然,后来这个案子打了各种上诉,杀出来一个人,一批人。这一批人是谁呢?是英国皇家统计学会的这些学者,这些学者当然也是借题发挥,就借这个案子,指出了刚才我们讲的梅铎教授的三大误区。
第一大误区,是你把个体的概率和总体的概率搞混了。确实,在整个英国发生这样一件事情,是八千多分之一;但是如果具体到一个个体的人,那可能就是百分之百。因为这样的病,它很可能是基因遗传带来的,你的家族已经带有这样的基因,你逃不过这一劫,所以发生在你身上是百分之百。这是我们经常犯的一个概率统计的失误。
就像有一个人,也是个段子,带了一个炸弹上了飞机,被人给查出来了,说你怎么带炸弹?他说我不想炸飞机;那你为什么带呢?他说,你想想看,几乎不可能有一个飞机上有两个人带炸弹上去,是吧?所以我带了一个炸弹,那另外一个人就不可能了,所以我就是安全的。你看,这就是典型的把个体概率和总体概率搞混了。
那统计学会的专家还指出了第二点,就是你那七千三百万分之一,就是两个孩子接连地死于婴儿猝死这样的概率,你是怎么算出来的?你是用8543×8543,是按照那种排列组合的数学公式算出来的。但是如果这个家庭就是有这样的基因呢?她第一个孩子这么死的,第二个孩子有很大的可能仍然会死,它的概率是远远不止你讲的七千三百万分之一,所以你又算了一笔错账。
那第三个统计学上的误区,就是你把那个中标率在样本足够大的时候给搞错了。这个话怎么讲?比如说中彩票这件事情,概率低吧?好低啊,对吧?但是你能说你们家邻居中了彩票,他就一定是作弊吗?不见得啊,它就是中标了呀,只要人口基数非常大,你遇到身边的一些稀奇古怪的概率非常低的事情,是完全可能的,萨丽有可能就是中标了,那怎么一定就能判断她是杀人凶手呢?
当然,这样一段证词确实也救了萨丽,这段官司打得非常久,从1999年一直打到2003年。后来在第二次上诉的时候,萨丽胜了。后来英国法律界因为这个案例,还把过去一些相似的案例,是240多个,都翻出来重新查,后来果然有四个案子改判了。所以这对英国近年来的法律界是一个非常出名的事情,改判。
当然了,萨丽最后的结果非常不好,因为不管怎么讲,法律虽然还了她公正,但是在她的邻居、在她的朋友看来,她仍然是一个杀人凶手。所以她的后半生,34岁之后,就陷入了酗酒,然后生活搞得一塌糊涂,最后英年早逝。
这是一个悲剧了,但这个悲剧在告诉我们什么?就是我们人类在认知数据,即使这些数据就是铁板钉钉的事实,实际上当我们用它来做因果判断的时候,仍然会陷入坑。
给大家举几个例子。比如说,在美国有一个亚利桑那州,这个州有一个特别不好的数据,就是它的肺结核的发病率比较高。那你说这个州肯定是环境不好,不利于人的肺部健康等等,这些结论很轻松、廉价地就可以得出来。
但是真相是什么呢?真相是亚利桑那州的气候特别好,特别适于肺结核病人的康复。而且这个州在治疗肺结核的医疗水平上也比较高,所以全美各地的那些肺结核病的患者,都跑到这个州来治疗、来修养,所以它的人口当中肺结核的发病率就比较高。
所以你看,我们通过表面上的数字来得出轻率的结论,是多么容易陷入偏差。你像在中国也有这样的情况,我们经常会说,现在经济非常好了,但是你看,人的环境变得恶化了,我们的癌症发病率就提高了。
可是你要知道,这个癌症发病率提高的这个数字也许没有作假,但它背后的原因未必是这个。它可能是人活得岁数越来越长,健康状况越来越好,原来可能人活到三四十岁就死了,癌症都没等到能发的时候。现在活到七八十,甚至八九十,很多癌症就容易发出来。
再有呢,现在医疗水平比较高,所以对癌症的早期发病它就能够查得出来。原来不以为是癌症死,其实就是癌症,现在只是医疗诊断水平提高了而已。如果你通过这个数据就轻率地得出来,现在人的健康水平在下降,你不觉得有点不负责任吗?
再给大家举一个例子,在美国,关于吸食大麻其实有一个争论,很多人也拿出数据,说你看,吸食大麻的人比不吸大麻的人,他的神经衰弱率高20%,所以吸大麻有害于健康。
但是很多人就主张大麻解禁,他们就说你胡扯,那是因为很多神经衰弱的人他要求助于大麻,来治疗自己的神经衰弱,所以才显得吸大麻的人神经衰弱的比例比较高。所以这场官司我们作为局外人,我们也不是专家,我们也打不清楚,但是确实两头看,似乎它都成立。那你说,谁是谁的因,谁是谁的果呢?还真是说不清楚。
所以在我们平时看新闻的过程当中,经常会有人通过两个数字,然后得出一个结论,然后让你接受他的主张。对于这样的人,我们多是要多一份小心。
比如说,在2014年的11月份,北京不是搞了一个APEC会议吗?咱们国家好面子,万国来朝,所以当时就把北京的汽车单双号限行。按照常识来讲,汽车少了,那PM2.5的值就下去了。确实,老天爷特别给面子,在2014年的11月初那几天,PM2.5值降低了58%。
这个作为重要的一个经验就开始进行传扬,很多人甚至说,你看你看,就是因为开车的人惹得祸吧?只要把小汽车单双号限行,那你看,空气质量马上就会好转。
可是他忘了,在这样的两组数字之间,你能直接划一个因果线吗?你知道那段时间,北京有多少工厂停产,有多少居民区没有烧暖气?北京周边有多少经济的GDP受到了损失,因为工厂都不冒烟了。
再比如说,11月份初的那几天它都是大晴天,而且每隔三天都有三到四级的风。但所有这些复杂的因素你都排除在外,仅仅看小汽车的单双号限行和PM2.5这两个数字之间的关系,你再得出了那个结论,你说它是一个可信的、科学的结论吗?
说到这儿,你可能会反驳了,说胖子,我可看过你罗辑思维以前的节目,你以前可是花了两期节目时间,去吹嘘大数据的未来,你今天怎么当了叛徒呢?你今天又开始说数据的坏话呢?
你看,这就是罗辑思维的方法论。人类社会出现任何现象,它都可能有它不好的这一面。那怎么办呢?是把这个现象割除,然后我们回到过去,还是继续往前走呢?罗辑思维坚定地站在后者,就是人类社会发展带来的所有问题,一定是靠进一步发展来解决掉的。退回到过去,永远不是解决方案。
就像数据这么多造假、扭曲,这些偏差,怎么解决?方案是大数据。大数据的本质不是数据多,也不是数字大,而是维度丰富。
给大家举一个例子,一个市长向上级、向市民谎报GDP数字,跟统计局局长一商量,乘个2。没问题啊,如果在传统社会,这就有可能是一个障眼法,就骗过了媒体,骗过了上级,也骗过了民众。
可是在大数据时代呢?我们每一个人都身处在越来越汹涌澎湃的数据洪流之中,我们可以轻松地获得各种维度的数据。比如说这个城市的发电量、用电量、居民外出度假的总数,这个城市的汽车的增长、房价的涨幅,这个城市的社会商品的零售总额,这个城市的网购的数量等等。
当这么多数据汇集在一起的时候,真相将会越来越纤毫毕现。那个时候,我们就可以冲着这个造假的市长嘿嘿冷笑,你丫编哪,你丫接着编哪。