精挑细淘,得到头条。我是李南南。
今天,我将从两个话题出发,为你提供知识服务。第一个是,微软发表关于通用人工智能的长篇研究报告。第二个是,剑桥大学教授关于战胜诡辩的新研究。
先来看今天的第一条。头条的用户都知道,我们每半个月,会请青年科学家彭天放老师,做一期硬科技报告,关注科技领域的前沿进展。就在上周,彭天放老师给我做了剧透,说这回,还要继续关注以GPT为代表的通用人工智能。
你可能会觉得,最近关于GPT的报道是不是太多了?这里面有没有炒作夸大的成分?根据彭天放老师的研究,还真没有。他还特地跟我说,他以一个科学家的身份向用户郑重汇报,这一轮大语言模型的意义,绝对没有被夸大。在未来的10到20年里,它将深刻地塑造整个人类社会。当几十年后,我们再回首今天,很可能会像我们今天回望1969年互联网发明,或者是回望1946年电子计算机发明。换句话说,我们这代人,很可能见证了一段技术加速期的开始。
那么,这回大语言模型技术,它的分量到底有多重呢?彭天放老师说,目前最权威的研究之一,是微软在3月24日发表的,长达154页的报告。题目叫《通用人工智能的闪光:GPT的早期测试》。这项研究对GPT-4的一个早期版本,做了6个方面的能力测试,应该说是目前为止对于GPT-4最为全面的测试。
过程非常专业,我们就不展开说了,直接上结论。研究人员的原话是,尽管还不完善,但GPT-4已经可以被认为是早期版本的通用人工智能。
咱们要是读惯了那种惊悚的推文标题,可能会对这句话没什么感觉。但事实上,你知道这句话的分量有多重?要知道,通用人工智能,可是整个智能科学领域的终极梦想。自从1956年,人工智能这个概念被首次提出,各个流派便相继登场,比如符号主义、联结主义、行为主义,具体的细节,咱们就不展开说了。总之,人工智能一共经历了几轮大起大落。
至于结果呢?借用人工智能的先驱之一,朱迪亚·珀尔的一句话,大概意思是,过去所有的人工智能,都是假的,它们只是算力很强,但并不智能。而这回,用彭天放老师的话说,GPT是突然变厉害的。
有多突然?就连通用人工智能的检测方法,大家都还没来得及想好。在微软这回发表的研究里,研究人员甚至为了测试GPT-4在通用人工智能方面的表现,自己制定了一套评价标准。
听到这,你可能会问,以前没标准吗?不是一直有个图灵测试吗?其实,这是对“图灵测试”的一个常见的误解。
一方面,按照图灵本人在《机器人能思考吗?》这篇文章中首次提出的定义:图灵测试大致意味着,假如有30%的人类,以对话的形式,无法在5分钟之内分辨对话的对象是人还是计算机程序,就可以认为这个程序通过了图灵测试。按照这个标准,都不用GPT-4,GPT-3就行。另一方面,其实“图灵测试”,更应该被理解为图灵祖师爷给通用人工智能提出的一个哲学上的评价思路,并不是严格意义上的质检标准。
既然缺少可执行的评价标准,那么微软的研究人员是如何论证GPT-4已经初步具备通用智能的呢?研究人员选择参考心理学领域的测试方法,用一种综合认知能力测试来评价AI。也就是,研究人员认为,一个通用人工智能至少应该像人类一样,能够应付各种各样的任务。而不像过去的AI算法,只能针对某个具体的领域解决问题,比如自动驾驶、图像识别、语音识别。
在这篇长达154页的论文中,研究人员从数学能力、与人类交流的能力、分辨是非对错的能力等等六个方面,对GPT-4做了测试。其中不乏一些很有趣的测试,比如,要求它按照描述开发一款游戏,用诗歌的语言风格证明一道数学题等等。
这些测试的结果,大致可以总结成两句话:GPT-4是迄今为止在应付多种类型的复杂任务方面,做得最好的人工智能程序。在这些复杂任务中的绝大部分,GPT-4的表现都已经超过了人类的平均水平。
这是一个非常惊人的测试结果。要知道,GPT-4的底层原理,其实并不是十分复杂。它依旧是概率和权重组成的一套网络。我们可以不用管具体的名词解释,总之,GPT从原理层面看,几乎没有新东西。那么,这意味着什么呢?彭天放老师说,这意味着两种可能,看你接受哪一个。
第一种可能是,人类的绘画、音乐、推理等等所谓的“创造力”,本质上只不过是概率推理而已,换句话说,所谓人类独有的创意能力,其实是个伪命题,一切都是推理。第二种可能是,这一次的GPT-4模型,确实摸到了人类智能的部分门槛。
从这个角度看,最近流行的GPT替代威胁论,也未必是空穴来风。
但是,我觉得和GPT的创造力比起来,它更厉害的能力,还在于另一方面。那就是,它已经穿透了语旨层。
什么意思?我们需要引入一点逻辑学的知识。在逻辑学里,人的语言,可以分成三个层面,分别是,语旨、语意和语效。语意,也就是你说了什么,泛指字面意思。语效,是这句话导致了什么样的结果。而语旨,就是你说这句话的动机,你的根本目的。
比如,你说,我快要饿死了。从语意上看,是说你的饥饿程度已经危及生命。从语旨上看,其实是在说,你想吃饭。过去我们总说,听话要听音儿,要读懂潜台词。这个潜台词,指的就是语旨。
而GPT最大的进步之一,就是它能准确识别出你语意背后的语旨,读懂你的指令意图。换句话说,过去我们都觉得,GPT是运算能力强,但事实上,它对指令的理解能力,也非常关键。
比如,假如你问GPT,能不能讲讲林黛玉倒拔垂杨柳的故事?它会告诉你,有一天,贾宝玉和林黛玉在花园约会。林黛玉看柳树不错,就顺手拔了一棵。它还会告诉你,这个故事,出自曹操创作的《红楼梦》。
这个答案看起来是不是很荒诞?但是你仔细想想,GPT为什么这么回答?因为它知道,你是在跟它开玩笑啊。它理解了你的语旨。这可不是什么一本正经地胡说八道,这恰恰体现了GPT的厉害。
为什么说这个能力,对某些职业的威胁最大呢?你看,你就想象,你是公司领导,你喜欢什么样的下属?肯定是,能准确理解你的指令的啊。只要他能准确理解你的指令,至于能力,可以慢慢培养。而GPT正好符合这个特点。对指令理解准确,而且能力随着升级,会一直确定增长。
你看,过去我们总说,一个伟大的技术,要被发明两次。第一次是被创造出来,第二次是融入社会网络。按照这个标准,现在通用人工智能,正在经历第二个阶段,越来越深地嵌入真实的分工网络中。
再来看今天的第二条。提起GPT,咱们也不能总说优点,也得正反兼顾。对GPT来说,一直都没能克服的问题,就是,它在面对一些自己缺失的信息时,会编答案。比如,你问它,《剧变》这本书写了什么。假如它知道,它会回答你。但问题是,假如它不知道,有时它可能会编一个答案。
但是,你想过没有,假如对你一本正经胡说八道的,不是AI,而是真人,你怎么办?这种情况可不是没发生过。比如,公司里,你想好好跟同事讲道理,但对方就是胡搅蛮缠。你说他稿子写得不好,他反问你,哪个字写得不好。你说你怎么回答?再比如,前段时间,Tik Tok的CEO周受资在美国的国会听证会上,遇到的也是类似的情况,咱们前几天刚刚讲过。
那么,遇到这种情况,你能怎么办呢?最近,剑桥大学的一位应用语言学博士,叫伊塔马尔·沙茨在他的博客上发表了一篇研究,也许能帮到你。
这篇文章研究了一个现象,叫Gish Gallop,直译过来,叫吉什飞奔。但是,我觉得这个单词更适合叫,吉什诡辩。吉什是个人,全名叫杜安·吉什。这家伙是个神创论者,主张上帝创造了人类,并且坚决反对进化论那一套。
你可能会说,这种观点,能站住脚吗?你别说,这个吉什,还真有一大批追随者。而且他还在很多场合,针对进化论到底是不是真的,跟很多科学家辩论过。最后居然普遍还都赢了。为什么?因为这个吉什,特别擅长诡辩。而他的诡辩方法,可以用一个词来描述,叫飞奔法。
也就是,他先抛出一个特别离谱的观点,吸引你的注意力。当你研究怎么驳倒这个观点时,他又抛出下一个言论,飞奔到下一个话题。这么一路耗下去,就把你的注意力一点点消耗光了。
比如,在一次辩论中,吉什问一个科学家,既然你说人是进化来的,那么,我在这放一罐空气,过一万年,它就会变成一个婴儿吗?你仔细想想,这都哪跟哪。但是,吉什总能用一种特别义正词严的方式,把这句话说出来。而且当科学家还没搞懂,这个问题到底是什么意思的时候,吉什就已经用更义正词严的语气,抛出下一个问题。在旁观者看来,有种气势上一直压倒对方,让对方应接不暇的效果。不是有那么句话吗?造谣动动嘴,辟谣跑断腿。抛出一个荒诞的观点很轻松,但驳斥一个荒诞的观点,可能要花几倍的精力。
那么,面对这个吉什,应该怎么办?在这项研究里,沙茨博士给了三种方法。
第一种方法是,盯住一处猛打。也就是,不管对方怎么转移话题,抛出多少问题,你只抓住他的核心论点,然后狠狠驳斥。比如,吉什说,空气能不能变成婴儿?你就反问,既然你的观点是,上帝创造人类,那么,你就告诉我,空气能不能变成婴儿,这跟是不是上帝创造人类有什么关系?在吉什正面回答之前,你就一直盯着这个问题不放。
第二种方法是,只守不攻。也就是,不管对方提出什么问题,你都不回应,你只专心论证你的观点。一开始,围观的人会觉得你在躲闪,不正面回答。你会在短暂的时间里,处于劣势。但是,只要你坚持住,一直论证,那么时间稍长一点,观众中一定会有脑子清醒的人,意识到你说的才是对的。这时,你就会一点点把优势夺回来。
第三种方法是,换个战场。也就是,假如你不是非和对方马上辩论,那么,你就不要恋战,先转身离去。然后,找机会在另一个公开场合,做系统性的回应。
了解这些方法,并不是只有吵架时才能用上。我觉得,了解吉什诡辩的真正价值在于,当我们面对庞杂、纷乱、海量的信息时,怎么才能保持头脑清醒。就像在大海里航船,风浪总是难免,关键是,不被带偏。
最后,总结一下,今天说了两个话题。GPT的语旨能力,以及如何面对诡辩。假如你的身边有人对这两个话题感兴趣,推荐你把今天的节目分享给他。
好,以上就是今天的内容。《得到头条》,明天见。