伙伴们,快刀广播站又开始广播了。
大家经常会看到AI领域的文章说“拿某某数据进行训练”,但大部分时候我们对这个数据收集过程,缺少一个深刻的印象。最近我看到一个纽约团队的研究课题,觉得特别有意思,想和你分享一下。
这个科研团队发现人类婴儿在学习方面,比最好的大模型还要厉害,毕竟大模型为了学习英文,需要训练几千亿参数的数据,才能输出一些我们看起来还不错的内容。但是对于人类来说,儿童接触到的数据或者是语言,数量只是非常小的一部分,但是到了三岁,很多孩子就可以用很复杂的句式和理解力进行交流了。研究团队想知道,AI是否可以像婴儿一样,在非常小的数据集上,通过训练和学习,改进模型的能力。
这个实验是怎么做的呢?研究人员给一名叫作Sam的澳大利亚儿童,佩戴了一个头盔摄像机,从他6个月到两岁多,全程记录他所看到、所听到的事物。不过这头盔并不是一直戴着,要不这孩子也太遭罪了。他每天大概有1%的时间会戴上这个头盔,不过由于实验持续的时间长,最后拍摄的数据也超过了61个小时,要知道这61个小时记录的可是一个孩子每天的成长,所以会更加的宝贵。
拿到这几十个小时的视频,研究团队的负责人Lake做的是什么呢?他使用了60万个视频帧,记录当图像被捕捉时,Sam的父母或者身边人说的短语。其中一帧是Sam看一个球,身边人说的正好是球。类似这样的60万个视频画面,一共捕捉到了3.75万个短语。研究团队要做的,就是确保孩子看到的东西,和身边人正在说的东西是一致的,只有这样的实际例子多了,才能去推断出孩子是不是能真的理解这个短语。
该团队的作者之一、纽约大学的计算认知科学家莱克表示:“如果孩子在这个阶段里,接触到足够的数据量,其实是可以做到真正的基于词汇学习的。”这第一步的研究成果,就已经让很多发展心理学家吃惊了,因为之前普遍认为儿童是因为天生具备对语言运作方式的内在理解,才能迅速地学会,但是在这个研究中,我们发现孩子对语言的学习,是通过一小部分的经验和数据进行的。这个项目的参与者,发展心理学家沙利文表示这项目颠覆了他的世界观,因为如果婴儿没有创造出神经网络学习所需要的数据集,那么就不会有现在的研究结果。”
他们在论文发表在《科学》杂志上之后,列出了下一步的研究计划,就是尝试搞清楚怎么样让AI的学习更接近于儿童的早期语言学习,因为他们想做一个完全相当于2岁儿童能力的AI模型,就是2岁孩子应该会的东西都会,2岁孩子不应该会的东西都不会。
也许你要问了,现在的AI不就可以仿真模拟2岁的孩子吗?这里主要的问题是现在的AI既能模拟2岁的孩子,也能模拟一个啥都懂的爱因斯坦。现在AI的能力是一下子涌现出来的,这个系列实验想做的是让AI模型从学习方法到学习能力,更接近人类。所以他们接下来最重要的事情,就是收集更多的数据,负责人Lake的孩子现在18个月大,就是下一批提供数据的孩子之一,会每周戴那个头盔几个小时,用来收集人类如何一步步地学习语言和常识。我在文稿里放了一张Sam和一张Lake家孩子头戴摄像头的照片,感兴趣的话你可以看看,非常可爱。
其实在我们使用AI的背后,是大量的数据训练工作,只不过早期的人工智能,很多类似的数据标注工作都是人类完成的,特别是有一些非洲欠发达地区的人在干这项工作。但这两年,很多类似的比较枯燥和重复的工作,都是靠AI进行模仿练习。
例如2022年,OpenAI就有一个特别有趣的项目,就是找到一批玩家来玩热门游戏《我的世界》,在玩的过程中记录下他们键盘和鼠标的点击次数,然后训练一个小AI,先用2000小时的带有标记的玩家视频,来匹配键盘、鼠标动作和游戏里的关系。这个训练完成之后,再用70000小时的没有标记的视频,进行AI标记和训练。最后得出的结果是这个AI玩家的水平非常高,会打造各种工具,并且速度极快。
就像春节前,智影的创始人唐沐做客AI学习圈直播时,说到的他们的咖啡大师机器人,就是靠大量观察人类咖啡师的动作视频,来优化自己的流程与能力,所以未来在很多不同的行业里,只要拥有足够精准的数据,别管是文字、图像还是视频,都可能训练出一个对场景足够了解,能完成很多不同任务的机器人出来。
最后提醒同学们,今天咱AI学习圈又上了一门新的教程课,简单3步帮你用Suno AI零基础创作音乐。课程的主理人是小旭音乐创始人卢小旭老师,QQ斗地主的经典旋律就是由他创作的,课程链接我也为你放在文稿区了,推荐你一定要去看看。
点击查看教程课
好,今天的快刀广播站就到这里了。如果你觉得今天的内容对你有帮助,欢迎分享到朋友圈或者转发给你的朋友们。明天咱们接着聊AI。