伙伴们,快刀广播站又开始广播了。
今天我给大家介绍一篇质量非常高的专访文章,出自著名的《连线》杂志。这篇专访发表在3月20日,距离现在也才半个月。其实这篇文章刚发出来几个小时我就看完了,非常过瘾,但我硬逼自己拖延到今天才写,也是想看看一篇当时以为好的文章,过一段时间会不会有新的感觉。
先说结论,我过半个月再看这篇文章,发现第一次读时忽略的不少细节,这次跃然纸上。这篇文章写的是谷歌八子的那篇Transformer架构论文背后的故事。写到这里你就能感觉到中文的味道了,“谷歌八子”一听,我的脑海里就出现了一系列的名字:“全真七子”“武当七侠”“江南七怪”“桃谷六仙”,听起来都有点仙气飘飘的感觉,符合我们心目中对一个绝顶高手小团队的想象。只不过在英文标题里,就变成了“八名谷歌员工”,是不是一下子就从小甜甜变成了牛夫人了。
首先我跟大家简单介绍下,Transformer这篇论文发表于2017年,全名叫《注意力就是你需要的一切》。我们不说这个论文的原理,你只需要知道,现在最火的生成式AI产品,从OpenAI到国内的所有大模型,最底层的那一簇火苗都来自于这篇论文。所以,也有很多人把这篇论文叫做“AI界的种子论文”,称它为近年来最具影响力的技术突破绝不为过。
而这篇论文的作者是八个人,当时都效力于谷歌。这篇专访在副标题上写了一句话,让我咂摸了很久,翻译过来是:“他们偶然相遇,迷上了一个想法,写下了一篇论文,在历史上形成了技术突破”。从这篇专访文章里,你能发现,他们自己对这篇论文能产生这么大的影响,都感觉非常吃惊。其中一名作者Llion Jones说:“居然只因为我的名字出现在了一篇论文里,有人就想要和我合影。”
之前大家更多关注的是这篇论文的技术原理,而不是论文的产生过程。从这篇文章里,我看到了非常多跟论文产生过程有关的细节,特别有意思,我来跟你分享一下。
第一个细节是关于八名作者的排名。排在论文作者名单第一位的诺姆·沙泽尔,第一次看到论文草稿时,对自己的排名感到非常惊讶。因为这篇论文在发表时,他已经离开了谷歌。这八个人其实是匆忙完成论文之后,决定不按照传统的贡献或者地位排名,因为每个人都很重要。所以他们在每个名字后面都加了一个星号和一行小字,叫“平等贡献者”。而大家的排序呢?是随机的。所以这篇论文最初的发起者,雅各布·乌斯克雷特,只排在了第四位。
第二个细节是关于这个研究项目的起源。论文发起者雅各布·乌斯克雷特,他的父亲是著名的计算语言专家,在西德学习计算机和语言学,到美国后在加州的一个人工智能实验室工作。可以说,雅各布他家搞人工智能真的是祖传的。雅各布2012年加入了谷歌,研究方向就是如何在搜索页面上直接回答用户的问题,而不是让用户跳转到其他的网站上。所以其实那篇论文并不是几个天才灵光一闪,在车库里一碰头,就横空出世了。真实情况是,雅各布从2012年开始,每天就在思考这个问题。到了2014年,雅各布开始构思一种完全不同的实现方式,叫“自我关注”,这其实就是Transformer那篇神奇论文的起点。
不过有意思的是,因为雅各布的爸爸也是人工智能专家,所以并不认同自己儿子的新想法。俩人在餐桌上经常无法有一致的意见,甚至他爸爸说,雅各布的想法抛弃了现有的神经网络架构,简直就是异端。还好雅各布没那么听爸爸的话,要不然可能就没有现在的AI大爆发了。
第三个细节是这篇论文的命名,如果你是动漫迷,对Transformer肯定不陌生,这就是大名鼎鼎的变形金刚。雅各布说,这个技术机制的作用,是转化接收到的信息,使系统能够具备跟人类相似的理解能力。这让他联想起小时候玩变形金刚的经历。所以他们在写设计文件时,结尾放的是六个变形金刚在相互发射激光通信。看到这里的时候,我抬头看了一眼我柜子里那一排擎天柱、大黄蜂、铁皮、红蜘蛛、威震天的玩具,内心一阵感慨,同样是喜欢玩变形金刚,为啥人和人的境界差这么多?
第四个细节是,这个研究项目因为持续时间长,并不是我们想象的八个人集中研究,而是有人走、有人来。其中有个新人叫Llion Jones,出生在威尔士。2009年硕士毕业,在经济危机期间靠领救济金过活,后来进了谷歌研究部门。工作期间,他从同事Mat Kelcey那儿听说了Transformer这个项目。只不过Mat Kelcey自己并不相信,可能只是觉得好玩,就给Jones介绍了一下。但Jones后来想办法加入了这个研究团队。Mat Kelcey有一次在接受采访时,也非常后悔地说:“这是我一生中最错误的预测。”
第五个细节是关于诺姆沙泽尔,也就是Transformer这篇论文排在第一位的作者。他2000年就已经加入谷歌了,在内部是个传奇人物。大家都叫他“魔法师”,因为沙泽尔能让团队的很多想法在代码层面得到实现。沙泽尔经常是自己去编写代码版本,然后过几天回来给大家展示说:“看,起作用了。”不过,一个更好玩的细节是,沙泽尔回忆自己加入Transformer研究团队那天,当时他正路过1965号楼的走廊,刚好听到有人在讨论自注意力的想法。偷听完,他觉得自注意力是个好主意,感觉这个团队在做一些有前途的事情,所以他就加入了。看到这里,我脑子里冒出来的一个想法是,开放式办公多么重要,能在大厅里讨论的问题,就不要关在会议室里讨论了,说不定你旁边经过的那个路人甲就是个扫地僧呢。
第六个细节是,Transformer这篇论文发表之后,在专业圈子里引起了轰动。不过当时别说接管世界了,连谷歌都没有落地的结果。沙泽尔向谷歌高管提议,用Transformer这套架构训练一个庞大的网络,那样的话就可以从根本上改变谷歌的信息组织模式。不过可惜的是,谷歌内部并没有人重视这篇论文。而另一家公司,也就是现在如日中天的 OpenAI,它的首席研究员伊利亚开始拉团队,继续研究这个想法。所以去年OpenAI CEO奥尔特曼在采访中说:“当Transformer论文发表的时候,我不认为谷歌的人意识到了它的意义。”
听完我对这篇专访的转述,不知道你的想法是什么?这里面有太多偶然性了,如果真有平行宇宙的话,只要条件稍微变化一点点,可能我们现在的AI世界就不是这样了。例如,如果沙泽尔当时路过走廊时,耳朵里戴着耳机,听不到别人的讨论,可能整条故事线都不一样了。这时我又想起了之前给你介绍过的那本书,《为什么伟大不能被计划》。
好,今天的快刀广播站就到这里了。如果你觉得今天的内容对你有帮助,欢迎分享到朋友圈或者转发给你的朋友们。明天咱们接着聊AI。