万维钢：如何像训练AI一样训练自己？

你好，欢迎来到《得到精选》，我是李南南。

今天咱们接着说万维钢老师的新书《拐点》。昨天咱们听的是，要想训练一个大语言模型，有哪几个关键步骤和要点。而在这些要点中，有一个词特别值得深入了解，就是“强化学习”。现在的AI技术之所以进展这么快，很大程度上就得益于这个强化学习。

强化学习是一门关于反馈、学习与迭代的技术。你注意这三个词，学习、反馈、迭代，你看这也不正好是我们一直在经历的过程吗？从这个角度看，AI迭代的方法有没有可能被咱们人类借鉴一下呢？你别说，这个方法还真有，这也是我们接下来要听的重点。

来，有请万维钢老师。

《拐点》是一本讲AI的书，但这一节我们不谈AI，专门讲讲「人」。

这么多年来一个有意思的现象是，脑科学给AI研究提供了灵感，AI研究也反过来给脑科学提供了思路。和AI一样，人的大脑和身体本质上也是由若干个神经网络组成的。我发现，「神经网络的训练和控制」这个视角对个人的成长特别有启发。

这一节咱们把「仿生学」给反过来用，来个「仿AI学」，看看我们自身能从神经网络的训练和控制中学到什么。

这可不是我的独创，近年一直都有学者或有意或无意地使用这个思路，大家发现人的行为习惯、性格特征、情绪表现等都有神经网络的性质。我甚至认为佛学中的「业力」，也可以理解为神经网络。

有一位企业家，也是个洞见输出者，叫肖恩·帕里什，他出了本书叫《清晰思考》[1]，总结了一些科学决策和行动的方法。我们就借助这本书的一些结论，结合神经网络的思路，讲讲怎么在日常生活中的各种小事儿，甚至你都意识不到那是一个事儿的微小环节上，清晰思考，做出正确的选择，从而日积月累，摆脱平庸陷阱。

感性大于理性。对你自己的事儿来说尤其如此，神经网络建构了我们的本能反应，我们是感性的动物。我们会本能地、自动地做很多事情，而其中一些选择在现代社会中就属于错误。

想要少犯错、不平庸，非常困难，因为你是在跟自己的感性本能做对。你需要比你的一些神经网络凶。

✵

一个常用的策略是暂停本能反应。最好的办法就是使用某种仪式。

比如我们看职业篮球运动员罚篮。他们从来都不是把球拿过来、站好了直接就投，而一定要先把球在原地不紧不慢地拍几下——术语叫「运球」，找找感觉，完了再投。这就是暂停。场上所有队员、场边那么多观众都得等着，因为运动员必须把心绪从刚才的激烈争夺切换到眼前这个静止的罚球上，要确保清晰思考。

姚明是NBA罚球命中率最高的中锋之一，退役以后有一次在酒桌上，姚明分享了自己的罚球秘诀[2]——从小父母就告诉他，要把罚球动作固定下来。在青年队的时候，姚明都是运4下球就投，后来有一个教练对他说：「运5下球，时间长一点。」再后来，有教练让姚明把运球之后、投篮之前的那个停顿点抬高到鼻子的高度，稳定一下再投。从此一直到退役，姚明的罚球动作永远不变。

你得做到这个程度才行。跟普通人相比，职业球员罚篮可以说是随便都能投中，但是他们不随便投——只有普通人才随便投。

可能是受武侠言情剧的影响，老百姓总觉得越不认真、越写意、越放纵就能打赢的人越厉害，认为赢还不行，还得赢得不费力才能体现美感，最好昨天打一通宵麻将今天早上来了还能赢……这非常愚蠢，这是文艺青年的妄想。

不费力的赢只能赢普通人，说明你爱打平庸的比赛，你赢不了高手。能豁出去自己，舍得投入比别人高得多的能量，才是真正的强势。

姚明每次罚篮之前都运球5下，你为什么不能在回应别人的争议之前深呼吸3次呢？停顿会让你的形象更有力量。

✵

比停顿更难的是知道什么时候停顿。我们太容易按照某种默认模式自动行动了。帕里什认为，改善行动的方法不是用意志力战胜默认模式，而是用好的默认模式取代坏的默认模式。

姚明并不是每次要罚篮的时候先告诉自己暂停、然后决定运球5下再投——他是一罚篮就*自动*运球5下。你应该在每次发言之前，自动深呼吸。帕里什说，我们不是取消惯性，我们是要好的惯性。

我觉得你可以把自己想象成一个由若干个神经网络组成的AI，那么这本质上就是神经网络训练的问题。

主要策略有两个。一个是对于我们身上已经有的、有些是与生俱来的*不好的*神经网络，也就是我们的弱点，我们要想办法进行控制。另一个是主动给自己训练几个好的神经网络，以至于遇到相关的情况自动就能做出正确的反应。

✵

一个是控制，一个是改写。

先说后者，有点逆天改命的意思。如果考虑到人本质上就是一台生物机器，我们要做的就是从硬件层面升级。

简单说，你要升级出一套强势人格来。

强势就是高标准。

帕里什的一个高明之处，是他把一些常见的概念给精确化了，你能清晰地理解这个概念是什么意思和怎么用。

比如，什么是「标准」呢？先举个例子。新英格兰爱国者队的主教练比尔·贝利奇克是个特别有思想的人。他手下有个球员叫达瑞尔·雷维斯，是全明星侧卫。有一次雷维斯参加训练迟到了几分钟，贝利奇克没有费口舌批评他，而是直接让他回家了——既然迟到，就别训练。这就是标准。

一般人理解标准是一种管理规则，是做给别人看的。既然是规则就有例外，也许雷维斯那天在路上遇到了意外，情有可原，只要解释清楚，别的球员也不会说什么。

但在帕里什的语境下，标准不是管理规则。标准是训练神经网络的素材库。垃圾进就会垃圾出，你要想训练一个高水平神经网络，就得确保只使用高水平素材。对雷维斯公平不公平不重要，重要的是别污染我的训练素材。用帕里什的话说就是，「标准会变成习惯，习惯会变成结果」。

如果你做的和别人一样，你只能期望得到和别人一样的结果。想要不同的结果就必须提高标准。

平庸的人会因为各种原因降低标准。上一场演出观众爆满，就全力以赴；这一场没几个观众，再加上已经很累了，那尽力就好——你这不仅仅是对不起观众，你是对不起自己。你的神经网络被污染了。

你必须确保自己交付的每一个作品，都是你所能做到最好的。

✵

要实行高标准，你得知道最好的是什么样才行。一个好办法是使用「榜样」。

我们一般说榜样都是泛指，「三人行必有我师」，只要这个人身上有值得我们学习的地方就行。但是在帕里什这里，榜样的作用是逼你实行高标准。

帕里什本人在成长过程中遇到过好几个榜样。

有一次公司要派他去做一项工作，他在会议上谈了自己对那个项目的理解，有什么打算之类。说着说着，在场一位专家打断了他：「我不知道你家乡的规矩是什么，我们这里的规矩是，你要是不知道自己在说什么就不要发言。」然后专家一一列举了那个项目的要点，帕里什当场就服了。

程序设计大师不接受难看的代码，沟通大师不接受未经深思熟虑的电子邮件。榜样不是让你追星用的，他们让你不舒服、如芒在背才好。被大师骂是最幸运的学习经历。

要是身边没有大师能给你反馈，怎么办呢？帕里什建议向各路英雄豪杰、包括历史上的伟人学习，让他们进入你的「私董会」，相当于一个专门针对你个人的教练团队。他没提AI，但是虚拟私董会是ChatGPT特别擅长的一种角色扮演游戏，我们现在正好可以尝试。

不过帕里什对私董会有严格要求：入选者必须具备你想在自己身上培养的技能、态度或者性格，所以他们必须既有高成就又有高品格。而且随着你的成长，私董会的名单也要调整。这不是闹着玩，这是严肃的训练。

✵

你要训练4个神经网络。

一个是「自我认识（Self-knowledge）」：你得知道自己会做什么、不会做什么，你的长处和弱点，你能掌控和不能掌控的，你知道和不知道的。

也就是说你得知道自己的能力边界在哪里，即巴菲特爱说的「能力圈」[3]。你不能什么事都想做，不要跟人玩别人擅长而你不擅长的游戏。

一个是「自控（Self-control）」：驾驭自己的情绪和弱点。

一个好思路是把情绪和自己拉开距离，就好像观察外在事物一样对待它们。

一个是「自信（Self-confidence）」：相信自己有能力，相信自己的价值。

真正的自信必须是从把一件件事情做成中得来的。如果你曾经做成过很多事，那么哪怕今天在场的人都轻视你，你也无所谓。如果你经常能把事情做成，你会相信下一次这个事虽然很难，但你也能做成。

因为自信是从成事中得来的，自信的人会乐于改变自己的观点，而不是整天就想在某个细枝末节上证明自己是对的。

自信能让你专注于做正确的事，而不是做正确的人。自信是面对现实的力量。

✵

最后一个神经网络更强势，叫做「自我问责（Self-accountability）」。

凯文·凯利讲过一句话：「成熟的基础是，即使事情不是你的错，也不意味着不是你的责任。」[4]帕里什也是这个意思。

很早以前，帕里什在一家公司参与了一个软件开发项目，负责写一些关键的代码。当时他同时还被公司指派参加了另一个项目，要开很多会议，忙得不行。那个软件星期天晚上就要交付，结果到星期天早上，帕里什的代码还没写好，他就赶紧来公司加班。

一到公司，领导就劈头盖脸地骂了他一通：「你的代码两天前就应该完成了！」

帕里什说：「我这段时间这么忙你没看见吗？而且我本来打算星期五早上来做这个，结果下大雪，我坐的公交车在雪里陷了2个小时……」

领导打断他：「别再找借口了，这就是你的错！你今天必须干完！」

但是帕里什没有开始写代码。他感到了强烈的威胁，他必须捍卫自己的形象。他给领导写了一封电子邮件，列举了自己这一周做的所有事情：参与了多少个项目、帮助了多少人……写得满满登登。

领导立即就回复了那封邮件：「我不在乎。完成任务是你的责任，你要不行就别干。」

帕里什事后想来，其实领导是对的。不是自己的错，也是自己的责任。他的所有解释都没有意义，那只是抱怨而已。而抱怨都是在「对世界应该如何运转讨价还价」——你其实应该做的，是接受世界的运转。

强人不抱怨。强人总是专注于下一步行动，看看做什么对未来更有利。

✵

我觉得神经网络是个特别好的类比，因为AI肯定是不会抱怨的。当然抱怨也是人的一种功能，但你要做的，就是把对解决问题无效的功能暂时关闭掉。你要自动让强势人格主导这次行动。

其实哪怕从审美的角度思考，你都知道怎么做对。比如电视剧里有一个角色整天在那儿抱怨，你可能会同情他，但是肯定不想成为他。因为你不想扮演受害者。

帕里什的洞见是，当你抱怨的时候，你就是一个受害者。事情没做好就抱怨客观环境、指责队友、给自己找借口、迁怒于别人……哪怕你说的都是对的，你也是受害者。朋友会帮你开脱，家人会安慰你，但你还是受害者。

当一次受害者不是你的错，但可怕的是你正在把自己训练成长期受害者。你会有无助感和无力感，乃至于绝望——这就是一种「习得性无助」。

帕里什说：「没有成功人士愿意与一个长期受害者共事。只有其他受害者才愿意与受害者共事。」

强人不做受害者。不管是谁的错，这就是我的责任——我接受现实，我问下一步该怎么办。

你做的每一件事，都是在训练自己的神经网络。好好选择你做的事。

注释：

[1] Shane Parrish, Clear Thinking: Turning Ordinary Moments into Extraordinary Results, 2023

[2] 《姚明的罚球秘诀》，https://www.bilibili.com/video/BV1H7411h75U/

[3] 精英日课第四季，《<金钱心理学>6：尽信书不如无书，以及，“价值投资”还可行吗？》

[4] 精英日课第五季，《KK劝世良言2：工作的热和冷》

好，内容听完了。

最后，还有两个特别提醒。一是，针对《拐点》这本书，万维钢老师首次制作了亲笔签名版，非常难得，而且数量有限。同时，从现在起到4月28日，买《拐点》的纸书还同步附赠电子书，推荐你现在拿下。

第二个提醒是，现在正是得到“4·23”世界读书日特别活动期间，我们也为你准备了很多优惠活动。像全场图书5折起，以及满200元减30元等。假如你有感兴趣的书，可以趁现在一次拿下，非常划算。

现在，在得到首页搜索“拐点”两个字，就能看到这本书的购买入口，推荐你现在入手。

好，以上就是今天的内容。《得到精选》，明天见。

Leave a Comment Cancel Reply