第63期丨致终将逝去的隐私

首播于2014年3月14日

把“大数据”的前世今生,向你娓娓道来。

冯启娜

《信息简史》[美] 詹姆斯-格雷克
《智慧政府》徐继华 冯启娜 陈贞汝
《文明的进程》[德] 诺贝特-埃利亚斯    

欢迎各位到罗辑思维捧场。前不久我去拜见了一位长者,我很尊敬的一位老同志。老同志了解了一下这一年多我在干什么,罗辑思维不错,很有价值,但是好像不怎么挣钱。我说确实不怎么挣钱,您给划条道呗?哎呀,老人家就说,说这个生意这个事跟你们平常做一个普通的事业不一样,生意这个事讲究的是两个开关,一个叫恐惧,一个叫贪婪。你只有把这两个东西打开,才能挣大钱,像你这种事挣不了大钱的,我说是是是。

然后老人家又跟我讲,他说其实分析人类的很多现象,都可以放在这个框架当中分析,就是恐惧和贪婪。比方说,现代社会的人为什么生活得很纠结呢?或者幸福感不高呢?其实他的生活品质比古时候人要强太多了,为什么?就是因为恐惧和贪婪这两个东西都变得非常强烈,而且相互之间张力变得非常之大,因为恐惧和贪婪发生在同一个情境当中。

比方说要不要逃离北上广啊,我们此前的节目讲过,对吧?所有在北京生活的人都知道自己恐惧的是什么,堵车呀,是吧?医院拥挤啊,雾霾呀。但是与此同时生活在这里,我们也有贪婪的可能性,因为这个城市提供的可能的人生发展机遇要大得多。所以这两个东西二合一之后在一个处境当中,我们就纠结了嘛。

所以老同志谈话的最后跟我讲,说看来曹雪芹当年写的那首诗还是对呀,所谓的《红楼梦》里的《好了歌》,世人都晓神仙好,只有功名忘不了。古今将相今何在,荒冢一堆草没了。你看,老人家可以用这种潇洒的方式来谈论我们现在的纠结,但是我们这二十郎当岁到四十郎当岁的人,我们不能这么想。我们必须要破开这个题目,当我们面对一个巨大的诱惑的贪婪,和与此同时要为之付出恐惧的代价的时候,我们怎么破呢?这就牵扯到我们今天讲的这个话题,大数据时代的隐私保护。

大数据这个词这两年特别热,所有人都知道,这好像是未来商业的前途,会带来人类繁荣的一轮大喷发。但是与此同时,所有人都有隐忧,隐私保护这个事怎么办呢?为了做这期节目,我们还真的去听了好多讲座、论坛,那些专家们只要提大数据这三个字眼光都放亮,在台上跟念咒语似的,听不懂、听得懂的一通话,唵嘛呢叭咪吽。只要谈到隐私保护这个话题,基本都哑火了,讲几句不咸不单、不冷不烫的片儿汤话,什么政府应该加强立法,个人应该加强隐私保护意识,企业家应该讲究道德底线,总之所有人血液里流荡道德血液就可以了。

这种回答实在是不过瘾,就没有一种叫什么?叫直抵繁华尽头,戳穿事实真相的那个力度,这个事到底应该怎么看?

所以带着大数据这个问题,我们就特地在人民大学请了一位专家,大数据方面的专家,就是这本书的作者,《智慧政府》的作者冯启娜老师,来当我们这期的节目策划。

我们俩开了几次会之后,我们突然发现,好像大数据时代个人隐私保护是个伪命题,似乎在这个时代我们就应该按照没有隐私的方式去生活。这个结论出来把我们俩都吓了一跳,今天罗胖,不代表人家冯老师,只代表我自己,我就给大家讲一讲我们的这个推断是怎么来的,为什么在大数据时代,我们不得不放弃自己的隐私。

好,我们先回到这个词,大数据。你认真研究你会发现,原来名字起错了,这是一个假象,大数据的本质不在于它的大。过去我们都认为,随着人类信息记录技术和传输技术的发达,以及成本越来越低,所以人类的数据记录就从一些小数据慢慢变成一个巨大的数据包,大数据是指这个吗?

错,大数据的本质不在于它的大,而在于它的全。我们是通过多维的、多角度的记录一个世界或者一个人的真相和行为轨迹,我们来判断它原本的本来面目。其实我们人类一直是靠这种方式来判断世界的好不好,只不过原来没有这么丰富的信息记录工具,对吧?

比如说你闭门家中坐,有人敲门,你问谁啊?外面说我;你说你这个王八蛋,等着啊,马上来开门。你看,在刚才这则对话当中,其实没有信息的,你问谁,他说我,我是谁啊,对吧?但是你通过第二个通道,就是声音的识别,甚至是脚步声,甚至是敲门的节奏,通过这些其他通道,你知道原来是那个王八蛋,所以你敢去开门,是你熟悉的人,对吧?

就像我们平时看的《福尔摩斯探案集》,福尔摩斯是怎么接近真相的?他不是把罪犯吊起来打,对吧?罪犯嘛,那隐私嘛,人是我杀的,肯定不说,那怎么办?福尔摩斯不跟你正面的你想保护的这个信息来冲撞,他绕到周边,通过罪犯的整个的行为轨迹,在现场、在其他时空里留下来的蛛丝马迹,来判断真相。

就像最近一个英剧,福尔摩斯第一眼见到华生,就说你刚从阿富汗回来吧?华生说你怎么知道的?是不是有人告诉你的?福尔摩斯说才不呢,对吧?你看看你长的这个军人样,又是个医生,肯定是个军医嘛,对吧?你刚晒黑了,你看你里面和外面这个皮肤颜色不一样,肯定刚从热带回来。而且你左臂膀受了伤,很明显,你这是在战场上受了伤。那最近英国打仗,那不就是派了兵去了阿富汗吗?你不是从阿富汗来的,你从哪儿来的,对吧?你看,这个真相很容易就被福尔摩斯这个人就分析出来了。

在最近有一本特别火的书,叫《信息简史》,其中第一章就讲了一个特让我们吃惊的段子,就是非洲丛林里的那些原始部落用的通讯工具,是一种鼓,鼓语,就是通过大鼓的节奏和鼓点来传达信息。他们没有纸,没有电报、电话,就靠打鼓。

我们刚开始知道有鼓语的时候,我们都以为鼓语能够传达的信息一定是非常简单的、简洁的,因为你想就是声音嘛,它又没有曲调,对吧?它只是靠鼓点的节奏,它信息肯定非常简单。但是当欧洲的学者深入到这些丛林当中,一研究发现不是这么回事。非洲的鼓语不仅不简单,而且极其复杂;不仅复杂,而且极其的罗嗦。

比如说叫男人回家吃饭,那个鼓语是这么说的,翻译成今天的现代汉语,远方的男人哪,请停住你的脚啊;远方的男人哪,请停住你的腿啊,你把腿转个方向啊,你把脚转个方向啊,这里是你的村庄啊,我们等你回来吃饭等等,他这么罗里嗦地讲。

这就很有意思,因为你本来能够表达的信息就很简单,你再这么罗嗦,你怎么可能呢?后来学者就发现,原来它是通过大量的信息冗余去校正信息。你比如说,光说一个月亮,而鼓语能够表达出月亮这个词,可能代表好多其他的意思,既代表爸爸,又代表公鸡,对吧?所以它要表达月亮的时候,它就必须加很多限定词,比如说俯瞰大地的月亮,那这个就是,爸爸不可能在天上俯瞰大地嘛,对吧?这个词就代表月亮。所以它是通过多维的,请注意,一个词出现了,叫交叉复现,通过信息的交叉形成对真相的判断,这就是大数据。

那大数据在商业当中怎么用呢?举个简单的例子,比如说有个大牌叫Prada,它在纽约的旗舰店最近几年就搞了一个小改革,每一件衣服上都有一个芯片,这个芯片当这件衣服被拿到试衣室的时候,试衣室有一个记录仪,就记录一次,就说明这件衣服进过试衣室。但这件衣服是不是被买了,这个探测器不管。

你看,过去的所谓的商业数据就是进、销、存,我销售出去多少,进来多少,库存有多少,它只记录这些信息。这叫大数据吗?这不叫大数据,因为它虽然数据量非常大,但是它记录的是一个单维信息,对吧?可是当Prada做了这个小实验,虽然只记录一个并不太大的一个数据规模,但是由于它角度变了,于是大数据的价值就突然一下出来了。

大家想啊,原来Prada只能知道我那件衣服好销。但是有一类衣服是这样的,大家一看很喜欢,很不错,摘下来到试衣间试,试完了之后,因为某种缺陷,大家把它撂下了,没买。所以当这两个数据,就是柜台边的销售数据和试衣间里面的试衣数据,两个一碰,Prada就能找出一些衣服的款型,它们很好看,第一感觉很好,但是卖不掉,一定因为有什么缺陷,把这个缺陷改进完了,等于Prada就马上多了几款热销的品种。所以在商业上,这种多维的交叉复现就这样用起来了。

再比如说互联网金融,最近学界争论非常多,我们以后罗辑思维肯定要讲一期的,但今天我们不讲别的,我们就说互联网它为什么一定是一种先进的方式?因为它正在用大数据的方法,一点一点地去逼近在传统社会当中要用极高的成本去解决的一个问题,就是信用的判别。传统的银行要决定给一个贷款客户给你钱,我老天,这得下多少功夫啊?这得老师傅带一个团队,做各种各样的调查,最后发现信用不错,我们放心把钱借给你。

可是在互联网时代,所有的信用判别要用大数据的方法,它的成本会低到不像话。比方说,当然我声明一点,我在这儿绝没有劝大家参与互联网金融的意思,因为互联网金融目前来看,它的风险还是不确定性的,没有劝大家参加的意思,但我们来分析它的理论。

我就看过一家互联网金融公司,它做这种P2P的贷款。你要找这家公司贷款,它只要你填一个简单的表格就行了,姓名、住址、电话号码、你的公司,然后你的工资卡的卡号,就是证明有人正常给你发工资,你有基本的信用记录就行了。你申请贷款几万,甚至十几万,就这么给你了。

那你说这不是不负责任嘛?对,在传统社会看来,这就叫不负责任。但在大数据时代看来,未必如此。首先你看,它可以通过这几个信息,通过交叉复现得知你很多东西,比如说你的住址,这是不是一个好小区,你住不住得起好房子?那你说我填一个假地址行不行?不行的,大数据交叉验证,对吧?它可以到你微博上看呀,看你微博上你在哪儿发,因为发微博,最多的可能性一个是家,一个是公司,你如果又有公司,因为你有工资卡,对不对?那另外一个点,发微博最多应该就是你家,那你常住的地址和你填的这个地址是不是吻合,这就是交叉去验证。

然后再比如说,它能够知道你每个月交的电费,它就知道你家里的电器的使用量,这基本上也可以衡量出一个人的生活水平和收入水平。再比如说,它知道你的电话号码,那你电话费交的情况是怎么样呢?你买这个电话是分期付款还是一把付掉的呢?你用的电话是一种什么类型的电话呢?等等,所有这些信息通过交叉验证,就又能够呈现出来。

甚至在洛杉矶,有一家专门就做给那种叫高风险贷款,就是你没啥信用记录,或者信用记录不好的人,我给你放贷款。这家公司就用了很多大数据的手段,它甚至细到什么程度,比如说你在银行,你总要填自己姓名吧,它就看你怎么填,它不会告诉你的。你如果全是小写,这是一种很不规范的填法,这说明你这个人有点粗枝大叶。如果你全是大写,说明你这个人有点自大狂。

那最标准的填法是什么呢?首字母大写,后面小写,就说明你这个人很精细。很精细的人通常来说,你的信用度要好那么一丢丢,对吧?那它就把这一丢丢记入对你的信用的判别的整体的数据库。所以你看人家监控的这么细,所以这家公司,就是洛杉矶这家公司试验下来看,它的坏账率比同样做这一行,但是没有用大数据的整个坏账率要低到60%。

这是我们用最简单的方法给大家讲大数据起作用的原理,好,我们再回头来看我们今天要讲的主题。保护隐私,可能吗?不管保护隐私你有多么强烈的需求,这件事在道德上有多么大的正当性,我们先考虑,它可能吗?

首先你会发现,很多信息因为交叉复现,所有的信息是你自己泄露出去的。有一个著名的段子,老公有一个初恋情人,老婆也知道,初恋情人在上海,老公就老想去见一面。有一次出差广州,顺带绕道去了一趟上海。回家之前把所有的跟前任女友的什么短信、微信记录全部删除了,回家之后跟没事人似的。

他老婆一进门就说,把手机交出来,老娘看看。拿过来手机一看,看完之后,“啪”一个大嘴巴就上去了。男人说怎么了?你去上海了?没有去;你去了,没有去。

看,中国移动发一条短信给你,上海移动欢迎你。这条短信怎么出来的?你看,你注意到删除的只是一个单维信息,但是你没有注意到的其他多维信息仍然在出卖你。何况就算中移动不干这个事,你在上海见前任情人,可能吃了一段饭,你刷卡,信用卡记录会有啊。如果你再有开房记录,那就不得了啊。前一阵,真的,中国就有一家公司,一个巨量的开房记录信息整个被泄露掉了。那些聪明的老婆们,那一阵就全部趴在网上去查记录的,你以为。

所以大数据时代一个最要命的问题是,你自己以为这个不重要的信息,会利用交叉验证、交叉复现的原理,把你想刻意隐藏的真相给曝露出来,最要命的是这个。

你说那我加强警惕性可以不可以呢?我们别吹牛,每个人都别吹牛。咱们就自个儿想想,如果你用的是智能手机的话,智能手机甭管,苹果咱们不说,咱就说我最熟悉的安卓,安卓系统。安卓系统你新装软件的时候,它会有一条提示的,说这个软件会调用你的通话记录、短信、Wifa、LBS、你的地址,所有这些东西要调用,可不可以?可以你就装,不可以你别装,对吧?人家软件公司做的有问题嘛?人家没有问题,全告诉你了。

时间长了之后,你根本看都不看,大家扪心自问,有几个人安装每个软件的时候,把这些提示条款全部看清楚的?几乎没有吧,我身边至少没有这样的人。所以大数据时代泄露隐私已经,原来保护隐私的那一整套方法全部失效。原来就是你愿意告诉别人你就告诉,不愿意告诉你就留着。现在,你把愿意告诉的告诉出去,不愿意告诉的自然也就泄露了。请问,这个城你怎么守?

更重要的是,人是处于社会系统当中的,当整个商业社会都在全马力发动来刺探你的信息的时候,你觉得你这个城还守得住吗?大家说,那为什么商业社会这么大劲头呢?我给你打一个比方,比如说保险公司,保险公司,我们就说汽车险吧,保险公司就特别有积极性去搜集你驾车的一系列的记录。

我们假设,现在我们穿越到十年后,大家用的都是全自动的,大数据那种汽车,所有的数据都被记录。保险公司当然要知道啊,对吧?你基本上一天要开多少公里,你是从哪儿到哪儿,是风险路段还是低风险路段;然后通过你踩油门、踩刹车的行为习惯,来判断你有没有很好的驾驶习惯,对吧?你这个人是白天出去还是晚上出去,是愿意开快车还是愿意开慢车等等,这些数据搜集来了之后,保险公司有大用场。现在保险公司来判断你的驾车习惯,只能根据你一年的事故量,然后确定你明年的保险额。

但是未来保险公司可以制作非常精细的产品,对于那些上班族,开不了几分钟就到单位的,车一下进了豪华地库,对吧?开车习惯很好,他可以把保险费用降得非常之低。而对那些,就是说白了开车习惯又不好,然后经常在风险路段上的,他可以保险费用提高。如果一个保险公司拥有了大数据,以及相应的分析手段,你想,他跟他竞争的那些保险公司,不要玩了,其他公司怎么竞争得过他?所以商业竞争有时候就靠这么一丝一毫的,妙到毫巅的竞争差距。所以你想,这些保险公司还不疯了似的去搜集你的这些数据。

所以我们去看,个人隐私保护,我们假设它是一次守城,那这个守城战就呈现出一个非常搞笑的场景。所有的商业社会的力量都调动起来,千军万马,如浪涛拍岸一样不断地去搜集,持之以恒地去打听你的相关隐私。而守城的你呢?不仅无心守城,而且战斗力很薄弱,因为你就一个人嘛,而且不断地要发条微博泄露一下地址,然后发一个微信,泄露一下自己的喜好等等,你又在不断地给自己当内应,当内贼,请问你这个城还守得住吗?那如果守不住,如果隐私不存在,我们又该怎么办呢?

刚才我们打了一个比方,说在大数据时代,一个人想保护自己的隐私,像一场绝望的守城战,你一个人站在城头,城下的是连山连海,不眠不休的攻城部队拍击着你的城墙,而城头您就一个孤家寡人,而且自己还不靠谱,经常发微博曝露自己的位置,对吧?所以自己当自己的内应,你说这个城怎么守?

但是即使把比方打成这样,我们还是不到位,还是太温柔,还是没有说出来大数据时代那个残酷的真相。哪里是什么古代的冷兵器的守城战啊?压根就是热武器对冷兵器的战斗,是飞机、大炮、导弹,对一个用刀矛器械守城的古代部队的战斗,这是一个注定绝望的战斗。

大数据时代还有一个词,刚才我们说的叫交叉复现,或者叫交叉复用。其实大数据还有一个特征,叫全息可见,就像一个人看澡盆里的鱼那样,真相看得清清楚楚。很多科幻小说是用四维世界对三维世界的比方来说明这个道理,四维世界需要点想象力,我们打另外一个比方,就是三维对二维。我们假设二维世界,就是一个平面上有生物,这些生物是平面的,两个生物见面打招呼,这个生物看另外一个生物是什么?它不是个图形,对吧?它就是一个线段,俩图片这么遇到了。这个图形长什么样,隐私,不告诉你这哥们儿,对吧?但是对我们三维世界的人哪有什么隐私可言呢?往下一放,站在太空一看,清清楚楚,每一个图形是什么样。对,四维世界的人看我们,也是这样。

所以中国古代的诗人就说得好啊,会当凌绝顶,一览众山小;欲穷千里目,更上一层楼。只要站得高,只要你有足够的视野,你看到的真相不仅全,而且真。所以这个大数据时代,几乎每一个人都在裸奔,这才是残酷的真相。

那这会引发什么样的动荡呢?其实可能人类有史以来,我们所习惯的很多思维路径都在发生崩解,你能够清晰地听到它们崩解的那个“咔吧咔吧”的声音。有些东西说来也许你不信,比如说因果关系,这是人类认知世界的一个最重要的工具,对吧?我们小学老师告诉我们,知其然,还要知其所以然。你知道这个东西是这样的,这可以;但是你还要知其所以然,它怎么来的呢?所以小学老师最恨的我们学生的一个毛病就是什么?抄作业。

但是前不久我听一个小学老师跟我讲,现在抄作业这个事太严重了。我说现在学生难道这么互相之间没有节操吗?他说哪里是啊,他说你这儿布置一个题目,学生直接上网一搜索,百度,原题原答案,甚至原解题过程,人家直接拷贝粘贴,人家连抄都难得抄。他说除非我们每出一道题,我们把所有的那些数字全部都改掉,而且要确保网上没有一模一样的题,我们老师才能出作业,他说你说怎么弄?

对呀,这个成何世界呢?互联网来了之后,似乎我们直接拿结果就行了,根本不需要演算过程,那孩子们还怎么成长呢?我们人类还怎么思索呢?等等。你看,我们从传统社会来的人就会觉得困惑。

但是商业世界的人没这个困惑,直接要结果就好了,我为什么要知道过程呢?我知道过程,知道因果关系,不就是为了推导结果吗?如果我已经拿到了结果,我为什么要知道过程呢?你看,商人思考问题跟老师思考问题是不一样的。

给大家打一个比方,大数据时代有一个非常经典的例子,很多人在很多场合都听过,就是沃尔玛发现,这个啤酒和尿布这两个东西的销售量严重相关。有的人买啤酒多了,他就会买尿布,为什么呢?或者反过来说,买尿布多了就会买啤酒。就分析啊,找理由,有的人这么解释,说你看,买尿布的一般是爸爸,为什么?因为孩子在家刚生出来,妈妈在家看着呢,所以爸爸出来买尿布。爸爸一看,我一个人出来买尿布,正好有啤酒,拎一瓶,所以这个就相关的。你看,这还能回头倒出点联系,倒出点因果关系。

可是我要再告诉你沃尔玛的几个数据,你就傻眼了。比如说刮飓风的时候,就是刮暴风雨的时候,蛋挞卖得好,你说为啥吧?雨天的时候,蛋糕卖得好;随着气温的升高,三明治卖得好。对商家来说,他才不像我们的学者们、老师们还得研究为啥,他需要知道为啥干什么?他只需要有这个结果就可以了。啤酒和尿布相关,在尿布的货架上做啤酒的广告,在啤酒的货架上做尿布的广告,对吧?下雨天的时候多备蛋糕,晴天的时候蛋糕的存货量减少;然后随着气温的升高多备三明治,他只需要做这个就可以了。

所以我看到一个材料,在欧洲的超市里面,就因为利用了大数据这种分析,让欧洲的蛋糕店、面包店,它的平均利润提高到20%,对于商家来说,这已经是他要的结果了,我不需要推导过程,我甚至不需要知道它为什么会发生。

所以前任的《连线》杂志的总编叫克里斯·安德森,还是很著名的互联网研究者。他提出了一个我第一次看到也大惊失色的一个观点,说随着大数据的到来,理论终结了,因为人们只需要知道相关关系就可以了。在中国的一篇材料当中,我还看到有人打了一个比方,他说其实最早使用大数据的就是中国人,中国人的《周易》,周易算卦,卜一卦,你明天死,至于为什么死,不告诉你,我也不知道,反正算出来卦相就是这个。对呀,这是比方了,咱们不是宣传封建迷信,这是比方。大数据就是有周易的能力,就是我直接告诉你结果,什么过程你要知道它干吗呢?这个毁三观吧?

更重要的是,人类达成认知的其他一些手段,你会发现也失效了。比如说统计,统计这个事说白了也是二十世纪最重要、最重要的一个社会科学成果,其中的里程碑的人物叫盖洛普,盖洛普公司现在还是世界上最大的做这方面业务的一家公司。它怎么崛起的呢?其实这个真的是对人类的文明进程做出巨大贡献的一家公司和一种思维方式。它刚开始就是美国大选,因为所有的选民都有期待,要知道这次大选的结果,所以刚开始就预测。

最开始是用的特别笨的办法,你还别说,真有点像大数据。当时在大选预测方面做得最好的一家媒体,叫《文学文摘》,美国的,它用的什么方法呢?就是海量的调查,它最多的一年发出去2000万份问卷,如果都是用邮政,你想想看,那是多大的工作量。我们罗辑思维每个月给铁杆会员发图书,我们就几万本,那累得一塌糊涂,整个团队都闹翻天。20000万份发出去,有一年,最高的一年收回500万份,然后分析,然后决定,预测今年很可能是那位总统当选。

这一招很管用,从上个世纪二十年代到三十年代,连续三次预测全准。可就在最后一次出问题了,这就是1936年那一次,就是我们知道的著名的富兰克林·罗斯福,小罗斯福总统和共和党的兰登,他们之间对决的那一次。

就在这个《文学文摘》杂志想要搞这次调查之前,有一个年轻人,就是我们刚才讲的盖洛普,盖洛普突然开了一个新闻发布会,他说我发布两件事。第一,我已经预测完了,罗斯福会胜;第二,我还预测,《文学文摘》会预测兰登会胜,但是他们错了。

这是巫术吧,妖怪嘛,你怎么提前就知道人家会发布什么预测呢?但是果不其然,没过多少天,《文学文摘》发布的结果真的就是这样,他们预测兰登以55%的选票数获胜,但是结果当然大家都知道了,罗斯福获胜。所以后来有人问这个盖洛普,说你怎么调查出来的?

盖洛普说,说这个《文学文摘》用的是一个笨办法,他们发2000万份,但是他们数据从哪儿来的呢?它是一个局部数据,它的数据是从电话本和拥有汽车的那个汽车的修理名录上来的。他说你想,家里有电话、有汽车的都是富人,对吧?富人基本上会倾向于共和党的兰登。但是我用的方法不是啊,我是随机的找的各种性状的样本,这就牵扯到统计学了,今天咱们不讲这个。

他说,我用的是一种更先进的统计学的方法,是一种更具有代表性的小样本,我根本没有必要发2000万份,我可能发几千份,一统计就可以了,我的统计结果罗斯福胜。但是更重要的是,我统计过程当中,我发现一个特点,就是富人喜欢兰登赢,所以我就预测《文学文摘》肯定会预测兰登赢,所以他败了。

自此之后,《文学文摘》这一套就完蛋了,盖洛普这套方法就整个统治了二十世纪人类想要预测社会问题的一整套方法。当然这套方法也不仅仅是盖洛普一个人发明的,对吧?社会学家们,比如说社会学的可以说是大师、鼻祖级的人物涂尔干,涂尔干在研究自杀的这个社会现象的时候,就利用了大量的社会调查,利用样本,然后来推测,来得出自己的学术结论。

所以你现在看搞社会学的基本上都是这样,他通过大量的调查,发现两个数相关,然后学者们就琢磨,什么原因呢?然后讲一个故事,把这两个结果的相关性把它总结起来。

但是在大数据时代,说句不好听的话,这些人可能将来饭碗都没了,因为不需要样本,大数据给的是全样本,我不需要在人群中抽样,我知道的是整个人群。我不需要你去想象一个故事,因为这个不重要,我直接就能达到你传统方法想达到的第三步,就是结果和真相。

传统的统计学有很多问题,你比如说在1994年,芝加哥大学有一个著名的性学报告,对美国人的整个的性生活的状况进行了一个调查,最后出版了一份读物,在性学界简称叫芝加哥报告。这份报告那是高大上的,有很多明星站台发布的,权威学者、科学方法。

但是有人在发布完了就提出一个质疑,说你这数据不对吧?哪儿不对啊?都对,这是科学的。说你看你里面有一个数据,说男人拥有的性伙伴的数量,比你调查出来的女人拥有的性伙伴的数量,我们特指异性恋,要多好多倍。那你说这为啥呢?没道理的呀,对吧?

因为一个男人出轨,如果异性恋的话,肯定是跟女人出轨。那除非全美国有足够数量的妓女,如果把妓女这个因素剔除,那不可能啊,有一个男人搞婚外情,就有一个女人配合他的奸情嘛,对不对?这就说明什么?说明调查统计是靠问,而问这个东西你怎么能得来真相呢,对吧?跟男人说,男人可能吹牛,我睡过谁谁谁,我睡过谁谁谁,对吧?女人不好意思承认。所以这是一个正常的一个偏差。

更重要的是,社会学的统计方法,它没有办法去阻止人的主观性的偏差,即使他不是成心想撒谎,比如说有人做过一个实验,说问,说你觉得应该允许美国出现反民主的言论吗?有将近50%的人说不应该允许,不准许。但如果你稍微换一个问法,说应该禁止美国人发表反民主的言论吗?禁止,用这么一个词,只有26%的人说应该禁止。你看,同样一个意思,调查出来的结果差一倍。

所以说传统的社会学统计方法,我们不能说它不科学,它是尽可能在传统的技术条件下逼近真相,但是它真的没有办法得到彻底的真相。就像盖洛普,他们是以预测大选结果而著称的,可是他们在预测大选结果上又能赢几次呢?其实他们的胜算是少得可怜的,即使是猜对了,那也是蒙的。

所以在大数据时代,你看因果关系这种方法论不奏效了;在大数据时代,你看调查统计这种具体的手段也不奏效了,人们直接可以直扑真相,这是一个全新的时代。所以说归纳法、演绎法,这是人类传统获得知识的两条路径,但是大数据一来,告诉你闪开,我有独特的方法,我可以直接获取世界的真相和知识。

我们再回到隐私的话题,当大数据可以把我们看得跟澡盆里的鱼那么清楚的时候,你刚才说什么交叉复现,交叉复用,那都属于笨办法,有的时候直接就看见了,对吧?

最典型的两个例子,一个是美国有一家公司,就是卖百货的,叫塔吉特,这家公司就是通过很多消费数据来猜一个女顾客怀孕的趋势,因为你可能到怀孕几个月的时候,你会倾向于买什么样的东西,然后又到几个月的时候,你会买什么样的东西。如果时间轴上,你连续呈现出某种特征,那我基本可以猜到,你可能怀孕了。那知道这个信息很有用啊,我可以往你家寄什么婴儿的衣服、摇篮这些物品。

有一个父亲有一天就特别愤怒,冲进店里,说你们王八蛋,凭什么给我女儿寄什么摇篮的传单啊,什么婴儿用品的传单啊,你们不是挑拨我女儿怀孕吗?我女儿才15岁。然后店里也没法跟他解释,过几天这个男人给店里打电话,说对不起,不是你们错了,是我错了,我女儿真的怀孕了。

那你说,隐私就是这样,在大数据似的这种空对地导弹的俯视下,你任何隐私都是藏不住的。

再比方说,美国现在侦测有一种犯罪,就是种植毒品。假设我罗胖爱抽大麻,那我不能满院子种大麻呀,那怎么办呢?我在家种。家里没阳光怎么办呢?用那个LED灯,弄一个小屋子,一地种大麻,LED灯照着。这时候我把窗帘一拉,谁知道?电表知道呀。美国现在正在给全民铺开,我估计中国也快了,装这种只能电表。要知道,每一个电器它用电的那个行为特征是不一样的,电冰箱用电和电烤箱用电,用电的那个行为特征是不一样的,如果是LED灯,是看得非常清楚的。所以智能电表会非常清楚你们家正在用LED灯,而且用的那个时间,那个开关的节奏,基本上就和种大麻这个特征是吻合的,警察就会上门敲门。所以这个事不用什么交叉复用,直接通过智能电表,把你的所有行为看得清清楚楚。

说完了这些,我不知道你对保护个人的隐私,还会不会还存留一丝幻想呢?

刚才我们说了,在大数据时代,个人想保护自己的隐私,是一场绝望的战斗,绝望得简直像部恐怖片嘛,对不对?意味着我们每一个人在未来都只能赤身裸体地面对四面八方和千秋万代,说实话,我们这代人没有做好相应的准备和心理建设。

那怎么办呢?那就要转换观念。所以这个节目的最后一Part,我跟大家交流三个观念。第一,隐私它就是桩买卖,你别把它看得太重,对吧?你走过路过的时候,周边商家给你推送各种好吃的、好玩的打折信息,你获得了方便吧。但是与此同时,交出你的信息,交出你的隐私,某时某刻你打某地路过,商家要的不是留下买路财,要的是你留下买路的信息。这是一桩买卖,双方你情我愿,有何怨乎呢?

那你说我就不愿意,可以啊,扔掉手机,关掉电脑,离群索居嘛。因为隐私让你交出来获得方便,这是现代社会的一个协作网络,你只要脱离这个网络,学美国人梭罗,几百年前人家就在瓦尔登湖边自己弄一个小木屋住着,那隐私保护得好好的。但是对不起,那是你不喜欢的生活嘛,对吧?你要是喜欢,你可以选择。所以这是一桩公平的交易。

而且我敢断言,绝大多数人都把这笔交易的收益算少了,算小了。大数据其实远远不像我们所感知的那样,只是解决一个生活更方便的问题。它其实还顺带着解决了人类文明当中,几千年都解决不好的一个问题,就是我们如何共同的生活;更简单地说,如何让我们共同组织起来的政府有善治,有良好的治理。

给大家举个例子。前不久国家统计局那个前任的总经济师姚景源,他就有一场演讲。他就讲,他说大家都在骂统计局,对不对?说统计局数字不准。他说我告诉你,统计局是最想对这个数字负责的。我们最不相信的就是地方政府报上来的数字,但是原来没办法,你国家统计局,对吧?地方政府报上来数字,你加加减减,你只好得出你的数据。可是后来我们就用很多种方法,比如说城调大队等等下去。

可是互联网来了,大数据时代来了,我们就彻底有办法了。比如说我们前面讲的交叉复现,交叉复用这个功能,他说我们只需要多一个维度的信息,我们马上就知道真相。地方政府你们尽管报,报上来之后,我空中的遥感卫星对中华人民共和国国土一监控,知道有多少耕地。然后呢,我们就在那个图样上打格子,然后选定一些随机的格子,然后我们谁格子里去调查,这块农田今年的产量是多少,然后整体上再通过算法一(38:08),我们就可以得出全年的粮食产量,而这个却是精确的。所以说地方政府关于粮食产量的问题,不管它怎么虚报、漏报、瞒报,我们其实心里都有一个大数。

原来的环保局局长,全国的环境问题,对吧?只有县环保局向市环保局报,市环保局向省环保局报,一直报到中央,对吧?中央也没有办法。现在PM2.5,美国大使馆也在监控,潘石屹个人都在监控,上哪儿瞒着去?所以政府本身的功能正在发生转型,原来政府受制于那种信息不对称,比如说腐败的问题等等,都会靠大数据获得终极的解决方案。这一点此前的节目我们讲过,出门左转,第一季我们有一集节目专门讲反腐败的曙光,讲的就是这个问题。

但是我们在那一集节目里没有讲到的是什么?就是很多过去政府提出来的观念,比如说我们要做服务型政府、平台型政府、智慧型政府等等这些口号,为什么在原来的技术条件下,它仅仅是口号呢?它不能落地呢?没有技术基础嘛。

有了大数据就好办多了,你看,新一届领导人上台之后搞的这个反腐败,对吧?政府公务员不准大吃大喝,一系列什么中央八项规定等等。你会发现,一段时间之后,好像没有松懈的迹象。过去中央新官上任三把火,强调一下纪律,过一段就松弛了。现在为什么不能松弛呢?大数据嘛,至少是大数据的原理在其中起作用。官员们都知道,中央有一个规定,在上面紧箍咒箍着,下面只要出去吃一顿饭,一个网民拿手机一拍,你就完蛋了,乌纱帽就要掉了。所以这上下两层监控,这就是大数据时代呈现出来的一个结果。

我们这期节目的策划冯老师,冯启娜老师就告诉了我们一个他们人大发生的一个事。人大有一个在校学生,普通的不能再普通的学生。他就注册了一个微博,叫RUCrumor,RUC就是人民大学,rumor就是谣言,简单说叫人大谣言,就这么一个微博网站。

很多人就是把学校里发生的很多事情就@给他,这儿水管子漏了,今天食堂菜哪个菜做得不好,或者价格太贵,哪个选修课的老师这堂课说了一句什么特别不合适的话,哪个老师上课点名,大家一定要准时去上课,所有这些乱七八糟的信息全部@给这个账号。而这个账号只需要做一件事情,转发。

结果是什么?结果就是人大上至校长,下至后勤部门的一个小科员,天天就扒在微博上等着看这个同学的微博转发。因为大数据时代,让底层参与决策,所有的任务不再是由上面来发布,而是大家来发布,路灯坏了、水管漏了等等,大家来发布信息,而且是在公开的环境发布信息,后勤部门你给他几个胆,他能不上去修呢?

最近几年铁道部特别受这种指责,尤其他们新上线的12306那个订票网站,铁道部年年被骂得个臭死。但是你能说是铁道部退步了吗?错,铁道部进步了,因为它用了互联网手段,所以各种底层的声音,比如说原来买不着票,你喊哪,对吧?你喊破喉咙也没人理你。现在你订不到票,微博上就嚷嚷成一团,瞬间就能形成一种舆论声势,那反过来再倒逼12306网站和铁道部本身的业务的改良,这就是智慧型政府的本质。智慧型政府不是政府怎么样吃了药变聪明了,不是,是互联网大数据环境倒逼它,不得不形成一种服务型的政府人格和智慧型的政府能力。

这个方面我们不多举例子,因为给大家推荐一本书《智慧政府》,这就是我们本期节目策划冯启娜老师他们执笔写的,大家有兴趣可以看。这就是收益,我们很多人以为大数据只是带来方便,何止如此呢?这是给大家讲的一个观念。

第二个观念,就是隐私它只是一个历史阶段。我不知道您各位去过农村没有,很多传统的农村互相之间哪有什么隐私可言?都是几百年在一起聚居的熟人社会,哪家祖上干过什么丢人的事,互相之间知根知底。尤其是农村,我们城里人经常会遇到一幕,特别让人害羞的一幕,老娘们儿一排在墙根底下晒太阳、奶孩子,上衣掀起来,露出乳房,就在那儿奶孩子,她们没有这种相关的隐私概念。这种情况在城市里现在越来越少到,而我小时候在农村是经常会见到。

那为什么呢?因为在前现代化社会,隐私的概念和我们今天是不一样的。刚才讲的是中国农村,其实古代的欧洲也有这样的情况。给大家推荐一本书,叫《文明的进程》,这也是一个历史学家写的。它其中有一些特别有意思的细节,比如说你到德国和法国的皇宫,现在是古迹,文化遗产。

你到那儿去参观的时候,你会发现那个宫殿里有一些房间莫名其妙,它有个马桶。但是那个规模又不像个厕所,因为房间特别大,这是什么呢?我告诉你,这是国王的会议室。那个时候国王就是早上一边上马桶,一边大便,一边跟大家讨论国策,哪个地方该减免点税收,该派兵打谁,国王转身就可能上厕所,甚至就蹲在马桶上跟爱卿们讨论国家大政,这件事就是欧洲中世纪时候的事。

而且在《文明的进程》这本书里,你看到非常有意思的细节,我们今天很难想象,古代欧洲的一些贵族,他们在大小便,包括做爱这种事情,是不回避下人的。包括做爱,如果身体不太好,经常流点汗,下人要在旁边负责擦汗的,他们不觉得这件事情在下人面前赤身裸体,或者做这些事情有什么不得体。

其实这件事情即使在今天也还有,我就在网上看到过一篇文章,一个中国学生,他有一个印度同学,在印度是贵族,有一年他就跟他放假嘛,就回家,到印度去住了几个月。他就特别不习惯一件事,就是上厕所,因为印度甭管是贵族还是贫民,家里厕所都特脏。他就讲出了这个麻烦,这个厕所不行。

印度人说这个好办,这个好办,我们这个有传统,然后就弄了一个马桶到他屋里来,说你就在这儿弄,然后每次擦屁屁的时候呢,有仆人用热毛巾,湿毛巾来帮你擦。刚开始他特别不习惯,但是据说住了几个月之后觉得很舒服,渐渐地也就习惯了。

说这些是什么意思?就是隐私实际上是文明社会发展到一个特定阶段出现的一个历史性的概念。你想,大家从熟人社会进入到生人社会,在大城市里发生城市化的聚积,各种陌生人在一起打交道,大家就开始出现了隐私。我们俩只是同事,我们俩没有必要需要知道你家住哪里,我一个月挣多少钱,这些事就会变成隐私,渐渐地它固化成为一种道德。比如说很多公司打听别人挣多少钱,这是一件很没有规矩的事情,这是不道德的事情。

但是既然它是一个历史阶段才出现的现象,那么随着这个历史阶段过去,它会不会隐私本身这件事就解体了呢?我们打个比方,大家想想,我们什么时候需要隐私?说得不好听一点儿,绝大多数隐私实际上是跟性相关的,对吧?但是你想,有一位奇葩老师,木子美老师,就是微博上著名的那个不加V,她经常在微博上,俗名叫约炮,她有这种行为。那你说这个行为怎么着呢?人家说我又没结婚,我又不想跟谁结婚,我这种行为就是正常的谈恋爱行为啊。于丹老师在电视节目里还呼吁呢,大家结婚之前,这个方面要试一试,否则会不和谐的,对吧?这种言论都可以公开播放,在电视台播放,我自己谈恋爱,然后试一试,有什么不可以呢?这在道德上没有问题。

所以你看,为什么会有隐私?因为你是在特定的人际关系网络当中,而且是固定的人际关系网络当中会出现隐私的需求,对吧?我的收入,我不愿意让同事知道;我有一个红颜知己,我不愿意让我老婆知道,这种事情它都是在固定的社会关系里发生的。

可是如果你听完罗辑思维前面第一季的所有内容,你会知道,我们有一个清晰的预见,就是在未来哪有什么固定的组织啊?共产主义所宣扬的那个伟大理想,叫自由人的自由联合,随着互联网的前方,你是看得到的。

如果未来,我们假设婚姻真的解体了,那关于性方面的隐私,它就会变得少得多,渐渐地我们就不需要那么多不可告人的事情了。所以我们讲隐私的解消,不是中国古人讲的那一套,书有未曾经我读,事无不可对人言,咱们不是讲圣贤之法。我们就讲人的实际需求,随着人脱离固定的组织关系,隐私的需求本身就在消解,这是我们想跟大家交流的第二个观念。

第三个观念,就是大数据真有那么可怕吗?最近关于大数据我们看到所有材料里面,吹得最神的一个是,是关于美国电视剧《纸牌屋》。它的那个公司,叫Netflix,这家公司号称,这个剧我们是花了大本钱的,高科技做的,我们在网上搜集了几千万人看电视剧的各种各样的行为习惯,哪怕是一次快进,我们都统计下来。然后我们发现,这个导演叫大卫·芬奇,还有史派西,就是这个主演,这些人他们导的片子和演的片子非常受欢迎。所以我们通过大数据分析,最后决定这么拍,而且每一个细节、每一个场景,我们都是用大数据搭建的。因为大数据一热,很多人都觉得了不起,大数据前途无限。

今天罗胖子铁口直断告诉你,谎言。这不是我说的,也是我看来的,分析的有道理。第一,《纸牌屋》这个剧被买到美国,而且通过经纪公司把导演找到,把演员找到,所有这些工作完成,是在Netflix这家公司进驻之前,所以这个班子根本不是你配的,别吹牛,这不是你大数据计算的结果。

第二,你这家公司,你此前拍过片子,做完《纸牌屋》之后你还拍过片子,那怎么没见红呢?说白了,《纸牌屋》这部电视剧火,那就是人家电视剧好,你瞎猫撞死耗子,或者是你非常有本事,你拍出了一个好电视剧,这个咱们不吹牛。但是你非要把它跟大数据挂钩,可能有一点言过其实。

我想说这个是什么意思?就是这个世界,那些互联网科学家,互联网的研究者,他总是想,你看原来的人类社会是那么大的不确定性,我能不能通过大数据把它按住呢?让它赋予某种确定性呢?所以你看,所谓第三代搜索引擎,那么多种算法,其实都是想把人类行为做到可预测、可监控,对吧?

最近网上我就看到一个段子,在嘲笑这种第三代搜索引擎的,就是推荐引擎,各种推荐算法,把各大公司的推荐算法都调侃了一遍。

他们说,比如说你要去买馒头,新浪就会告诉你,它微博嘛,新浪就会告诉你,你周边有一万个人正在吃馒头。

那如果淘宝呢,它就会告诉你,你买这个馒头,我告诉你,同时我还给你推荐500个馒头,都是一模一样的东西。

然后如果是百度呢,百度就会在右边给你挂出来,浙江萧山馒头机生产制造有限公司,推荐这个设备。

如果是亚马逊呢,就会告诉你,你吃馒头,你看这个包子你要不要啊?这个懒龙你要不要?这个枣糕你要不要啊?它推荐类似的产品。

如果是腾讯呢?腾讯会拍你肩膀,兄弟,别吃这馒头了,上我那儿,我那儿不仅有馒头,而且还有豆馅儿,腾讯什么产品都有嘛。

如果是360,360就会跟你说,馒头不要买,免费给你,但是让我摸一下可不可以啊?等等等等。

这是一个段子,但是大家想想,当你吃了三顿馒头之后,你不会觉得所有这些推荐都是扯淡吗?因为吃了三顿馒头,你可能想吃一顿日本料理,你想来一顿涮羊肉或者广东的打边炉,你不要吃馒头的好不好?哪怕跟馒头长得有点像的你都不要好不好?

那这说明了什么?就是传统商业社会似乎想通过大数据,把我们的行为可预测固定下来的时候,而我们与生俱来的,我们灵魂深处的那个人性的东西正在萌发,我们希望和这种确定性拜拜,我们要绝尘而去,我们要脱缰而走,我们要获得我们人性自然的舒展,对吧?

所以大数据神吗?神,但大数据永远不会神到像一个绳索一样,把整个人类捆住的那个程度。举个例子讲,罗辑思维不仅有这个视频节目,我们还有一个微信公众号,我们每天早上讲一分钟60秒整的语音,我就坚决不信哪个大数据算法,哪天能够算得出来我明天早上说什么,我明天早上说什么我都不知道,你能知道?

而且人和机器之间将来就会形成这样的配合,机器负责去制造确定性,而我们人呢?利用那种丰富的、灿烂的,永远不靠谱的人性,我们去为这个世界制造不确定性。

所以说我们再回到《纸牌屋》这个电视剧,电视剧它就是个艺术。知道艺术用一个经典的定义吗?什么是艺术?艺术就是把人从不确定性当中拯救出来的那个东西,是把不确定性发自人性的那个最光辉的瞬间给凝固下来的那个东西,那才叫艺术。谁有本事预测艺术呢?

所谓《纸牌屋》的神话,他们预测,不用预测嘛,对吧?如果拿最好的导演,加最好的演员,就一定能拍出上座率最高的电影,那电影业早就不是现在这副样子了。为什么现在冯小刚拍《一九四二》,那么多明星,最后票房还是惨败,冯小刚也看不懂呢?对呀,说明所有的大数据在面对人性深处的这种不确定性的时候,它是无能为力的。

好了,到最后关于大数据和隐私,我们就归结三句话。第一句,不要只看到成本,我们要看到收益,我们有可能用我们被激发出来的对未来收益的贪婪,来克服我们眼下的恐惧。

第二,如果一件事情你不能拒绝,那怎么办呢?就学会享受它了。

那第三句就是,人性制造的不确定性,和科技正在努力制造的确定性,这是一场无始无终的赛跑,你活得有多精彩,你赢的可能就有多高。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top