万维钢:怎样炼制一个大语言模型?

你好,欢迎来到《得到精选》,我是李南南。

今天咱们接着说万维钢老师的新书《拐点》。关于这本书还有一个小内幕想跟你透露。这就是,在写作的过程中,万维钢老师甚至把家都搬到了AI革命的中心地区,就是旧金山湾区。在那,他一对一地访谈了很多位硅谷的工程师。要知道,这些工程师常年在一线研发大语言模型,他们来自亚马逊、苹果,还有Meta等等。

其中,万维钢老师最想为你介绍的,就是大语言模型到底是怎么炼制出来的?为什么这个问题如此重要呢?很明显,因为大语言模型的炼制,这可是AI技术发展的最重要的驱动力之一。搞懂AI发展的基础逻辑,我们再看到相关进展的时候也能做到心中有数。

好,接下来就有请万维钢老师。

想象你正在招兵买马,准备弄一个自己的大模型,你应该怎么做呢?又或者你想要在自己公司部署一个主流大模型,但是要求它掌握你们公司的本地知识,你应该从哪里着手呢?

炼制大模型主要分四步:架构、预训练、微调和对齐。

第一步是搭建模型的「架构」。架构就是首要算法,也就是这个神经网络的几何结构。

架构既不神秘也不保密。有些现在最流行的大模型直接就是开源的,比如Meta的Llama-2和Google的Gemma。你可以直接下载,在自己的计算机上运行这些模型,还可以读一读源代码,完全了解它们的架构。开源是硅谷文化的一个光荣传统。就算像GPT-4、Gemini、Sora这样的主力商业模型不开源,它们的研发者也会专门写论文说明模型的架构,用于同行之间的交流。

现代科技公司还是非常开放的,有竞争但更有合作,没有什么「独门秘籍」会被长期藏着掖着,毕竟所有研发人员属于一个共同的社区。这就使得好想法会以极快的速度传播。

因为大家用的算法都差不多,所以架构的强弱主要是参数的多少。参数越多,神经网络就越大,模型能掌握的智能就越多,但要求的算力也越强。从这个意义上说,一家AI公司的实力主要取决于它拥有多少块GPU。有一位在硅谷某大厂做AI的高管私下表示,他并不看好OpenAI的未来,他认为Google、微软、亚马逊、Meta这些超大公司都比OpenAI更有实力把AI做好——这就是基于算力的判断。

但我们也不能说算法不是竞争领域。OpenAI的GPT-3只用了1750亿个参数,怎么效果比之前Google上万亿参数的模型还好呢?现实是架构算法仍然在高速进步。

现在没有一个科学理论能告诉你,为什么这个版本的架构就比那个版本好,也没有理论能算出,要想达到这个水平的智能,你就得需要那么多的参数。一切都只有在现场尝试过才知道。

OpenAI没有开源GPT-4,也从未正式公布GPT-4的参数个数。你只能大概知道它的架构是什么,但你暂时不知道其中有多少高妙的细节。

第二步是「预训练」,也就是喂语料。孩子头脑生得再好,不学习知识也没用。而AI比人强的一个重要特点就是,你给它学习材料它真学。

业内存在一些公共可用的语料集,任何公司都能拿来训练自己的模型。你还可以从一些政府和公益性的网站上直接抓取信息用于训练,比如维基百科。但正如好学生都会开小灶,优秀的模型必须能取得独特的高水平语料。GPT的编程能力之所以强,一个特别重要的因素,就是微软公司把旗下的程序员社区GitHub网站中,多年积累的、各路高手分享的程序代码提供给了OpenAI,用作训练语料。

我希望生活在一个所有知识对所有AI开放的世界里,但我们这个现实世界的趋势是,优质语料正在成为待价而沽的稀缺资源。2024年初,《纽约时报》起诉OpenAI,用他家网站上原本只提供给付费用户的内容训练大模型,还允许模型把内容复述给用户阅读,认为这是侵权。但OpenAI也有话说:并没有法律规定说不能用版权内容训练AI啊,难道学习还违法吗?

就在这个案子怎么判还不知道的时候,2024年2月,大型论坛网站红迪网(Reddit)和Google达成协议,允许Google用它的内容训练大模型—— Google为此每年要向红迪网支付6000万美元[1]。

所以优质的知识有价,而且很贵。

一个有意思的问题是,语料的作用是有上限的吗?

目前来说,更强的模型一定需要更多的语料,而这就要求有更多的参数,使用更大的算力。但人类的知识似乎应该是有限的。有没有可能在达到某个程度之后,模型就不再需要更多的语料了呢?又或者说模型的可伸缩性会从某个数量级上开始变差,以至于更多参数和语料带来的性能提升已经配不上算力的消耗?

我得到的消息是,目前为止,那个极限还没有达到。OpenAI 2020年的一篇论文[2]显示,随着参数数量级的增加,模型的性能就是越来越好,远没看到天花板。

预训练这一步主要拼的是算力,并不需要花费多少人力。据说包括OpenAI在内,各家大模型负责预训练的都只需要十几个人而已,这里拼的还是人均GPU数量。真正消耗人力的是下一步。

第三步是,对经过预训练的模型进行「微调」。负责微调的工程师数量,大约是预训练的10倍。微调的目的是让大模型说人话。

预训练只是让模型学会预测下一个词。这个单一功能对我们用处不大,我们需要模型能回答问题,能跟我们对话交流,能根据指令生成内容,能更主动地去做一些事情。这就是微调要做的事情。比如你问模型「奥巴马是谁」,它必须先把这个提问场景给转化成一个「预测下一个词」的场景,然后输出「奥巴马是第44任美国总统」。这要求模型能听得懂人话。

微调的主要办法是监督学习。就好像大人教小孩一样,你直接告诉他怎样做是对的,做错了就给纠正过来。

这里面有个神奇点。一位专门从事大模型微调的工程师告诉我,每一类问题,只需要训练一次就可以!比如你教会模型回答「奥巴马是谁」这个问题之后, 不必再教它怎样回答「泰勒·斯威夫特是谁」,它自己就能举一反三——你要是训练次数太多反而不好[3]。微调阶段全部的问题类型大约只有5万个,这5万个问题学会了,模型就能回答任何问题。

那你说把这5万个问题都找出来训练也不容易啊!没错,但这里面有个捷径可以走。如果你是个后来者,前面别人已经有个训练好的大模型,比如GPT-3.5,那么你可以用GPT-3.5帮你生成和标记各种微调问题和答案,用于训练你自己的大模型。有些公司正是这么做的——但是请注意,ChatGPT的用户协议中禁止用它训练模型。

微调到底调了什么呢?OpenAI有篇论文[4]猜测,预训练已经让模型掌握了所有的知识,微调只不过是让它学会如何把知识表达出来而已。微调前的GPT就如同一个满腹经纶的自闭症儿童,他其实什么都明白,只是不知道怎么跟人交流。

但仅仅会说人话还不行,还得说得精彩、说得好听,才是好AI。

第四步叫「基于人类反馈的强化学习」(reinforcement learning from human feedback),英文简称叫RLHF。目的是让大模型输出的内容既精彩又符合主流价值观,也就是「对齐」。

比如你问「奥巴马是谁」,一个只经过微调而没有经过RLHF的大模型可能只会简单地告诉你「奥巴马是第44任美国总统」。这个答案当然没错,很多人类也是这么说话的,但是这样的内容可能不会让用户满意。我们希望模型介绍一下奥巴马的生平,也许再说说他有什么性格特点和喜好,我们希望模型的输出有意思。

可是怎样才算有意思呢?这没有一定之规,不能事先设定标准答案,得让模型自己摸索、自己去闯,然后让人类给反馈。这就是强化学习的作用:你回答的好,我给点赞;回答的不好,我给差评。

这种「强化学习」首先会在公司内部进行,一方面由工程师负责给反馈,另一方面可以用另一个模型代表人类给反馈。比如你可以用GPT-4去训练GPT-5。但真人的反馈是最重要的。

我认为强化学习让OpenAI有了先发优势。你每一次跟ChatGPT对话,都在帮助OpenAI积累关于用户喜好的知识。这就如同Google搜索一样。我几乎从来都不会点击搜索页面上的广告,但是我仍然在为Google做贡献,因为我对搜索结果的点击,会帮助Google理解哪个结果是好的。

这样说来算力不是一切:也许你有无数的资源,能突然弄出一个大模型,但因为你的模型此前没人用过,你不理解用户喜好,它就不会好用。

RLHF的一个重要课题是对齐,也就是让AI的输出符合主流价值观。OpenAI专门成立了一个团队,而且还把20%的算力都用于所谓「超级对齐(Superalignment)」[5],以期在未来几年出现了远超人类智能的AI的情况下,确保AI不会制造任何危险。

你不希望AI自己出去黑掉一个网站,所以对齐的确是非常重要的。但现阶段AI的对齐似乎被主要用于确保「政治正确」,不冒犯人。

对我来说GPT-4已经被过分对齐了,比如,你给它一张有政治人物的照片,它往往会拒绝识别。2024年2月,Google的大模型Gemini被发现,把包括华盛顿在内的美国国父们都给画成了黑人,简直是滑天下之大稽。

在这种情况下,有时候你可能更愿意用一个未经对齐的模型。这就体现了开源模型的好处。既然模型是开源的,谁都可以改,母公司就不必承担道德责任。

另一个思路是仍然要对齐,但是刻意不搞那么多政治正确。马斯克的X旗下的大模型Grok智能水平一般,但是会说一些有反叛精神的话,主打一个敢说,也算是找到了生态位。

你感觉到没有,微调和对齐很像是人在社会中的成长。可能你在学校里已经学到了足够的知识,但是一参加工作还是做不好,因为你不知道怎么跟同事对接,怎么和各种人交流,怎么表现得体乃至游刃有余。我们都是被现实教育,不断获得反馈,慢慢积累经验,逐渐自我调整和优化的。

微调和对齐步骤告诉我们,就连AGI也不能一下子就什么都学会:就算知识可以快速灌输,恰到好处的行事风格也只能慢慢打磨。

韩非子有句话叫「上古竞于道德,中世逐于智谋,当今争于气力」。我们看看大模型的炼制过程中的争夺点,是不是也有点这个意思:

预训练拼的是算力,相当于「争于气力」;

架构和微调需要聪明的算法和精妙的干预,相当于「逐于智谋」;

对齐需要谨慎选择价值观,正是「竞于道德」。

现实是,所有这些操作都没有定型,都是各家公司积极探索和激烈竞争的领域。如果你用韩非子那句话的逻辑来判定,大公司终究有优势,算力才是根本,大力就能出奇迹,「人均GPU数量决定一切」,我认为现在还为时过早。这些不是绝对化的流程,现在还没有人找到了大模型的最优解,这是一门必须在实践中摸索的艺术。

注释:

[1] Anna Tong, Echo Wang, Martin Coulter, Exclusive: Reddit in AI content licensing deal with Google, https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/

[2] J. Kaplan, S. McCandlish, T. Henighan, T.B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, D. Amodei, Scaling Laws for Neural Language Models, https://arxiv.org/abs/2001.08361

[3] Zhou, Chunting, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, et al. , LIMA: Less Is More for Alignment, https://arxiv.org/abs/2305.11206

[4] B. Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi, The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, https://arxiv.org/abs/2312.01552

[5] Jan Leike, Ilya Sutskever, Introducing Superalignment, https://openai.com/blog/introducing-superalignment

好,内容听完了。

《拐点》这本书,万维钢老师为你准备了亲笔签名版,这也是万维钢老师所有的新书第一次制作亲笔签名版。得到图书团队的编辑老师还跟我说,每一本亲笔签名书都是万维钢老师在美国的家里一本一本签出来,然后再寄回国内的。现在,这些万维钢老师的亲笔签名书只在得到独家发售。机会非常难得,建议你不要错过。

从现在起到4月28日,买《拐点》的纸书还同步附赠电子书。同时,我们最近也在开展“4·23”世界读书日特别活动,有很多优惠。比如,全场图书5折起。再比如,每满 200元减30元等。假如你有感兴趣的书,也强烈建议你趁现在入手。

现在,在得到首页搜索“拐点”两个字,就能看到这本书的购买入口,推荐你现在入手。

好,以上就是今天的内容。《得到精选》,明天见。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top