你好,这里是《邵恒头条》,我是邵恒。
这周,谷歌在线上召开了一年一度的I/O开发者大会,发布了一系列新的科技产品。其中有一项叫做“Project Starline”的新技术很有意思,能让人开3D的视频会议。
如今的视频会议都是2D的,你在手机屏幕上看到的是一个扁平的人,但是谷歌的技术却能让人立体起来。你不需要戴VR设备,只需要坐在一个像梳妆镜一样的屏幕和配套设备前面,就可以从显示屏里看到VR人像的效果,就像把一个真人还原在你眼前一样。文稿里有两张效果图片你可以看看。这是通过结合增强现实、深度传感器、实时渲染等等技术实现的。
这样的产品之所以有吸引力,是因为它符合传媒技术发展的一个大方向,那就是我们都希望能通过技术,彻底还原跟别人面对面的真实体验,让人能“无损”地交流。从文字、到电话、到视频再到现在的3D体验,每一个阶段的新技术,都在往这个方向推动。
当然,要说有哪项科技,在未来可能彻底打破人和人之间交流的隔阂,那恐怕还得说是脑机接口技术。如果哪天我们连语言都不需要了,而是能直接进入到对方的头脑里,获知对方全部的心思意念,那才叫真正的“无损交流”。
我注意到,最近脑机领域恰好有一项值得关注的重大突破——科学家们利用人工智能算法,提升了机器对人的意识进行识别和翻译的能力,带来的结果是人可以通过意念快速打字了。这项研究在这个月发表在了顶级科学期刊《自然》上。
我邀请《硬科技报告》的主理人彭天放老师对这项进展进行了解读。在今天的《邵恒头条》中,我就来跟你分享一下这项突破是如何实现的。下面是彭老师的解读,我来为你念一念:
你好,我是彭天放。
5月13号,《自然》期刊发表了一项研究:来自美国斯坦福大学、布朗大学等机构的研究人员,成功地让一位瘫痪病人用“意念写字”的速度提高到了每分钟90个字母,并且准确率可以达到99%。这个速度和准确率已经比较接近健康人的手写水平了。自然杂志对它的评价是:“这项研究拓宽了脑机接口技术的应用潜力,具有里程碑式的意义。”
我在文稿区放了一张研究里志愿患者正在向电脑输入文字的照片。其中的志愿者只需要想象自己的手正在拿着一支笔写字的动作,就可以把意念中手写的字母输出到电脑屏幕上。比如想象用手写了一个字母a,屏幕上就会对应着出现a。26个字母都能识别,而且还能识别逗号、问号等5个标点符号。
在以往,类似的脑机接口输出字母的研究,一般是需要患者想象比较简单的动作,比如上下左右这样平直的运动方向。然后利用这些收集到的脑电波动作信号去移动一个电脑屏幕上的光标,然后用光标电机屏幕上的键盘来输出字母。这种方法就跟用鼠标打字一样,可想而知是比较慢的,一般来说每分钟也就40个字母。
但是《自然》期刊发表的这项研究,却可以直接做到意念写字,而且速度翻了一倍以上,每分钟90个字母。这是什么概念呢?一般来说,一个65岁的老年人操作电脑,打字的平均速度也就一分钟114个字母。所以说这次的意念写字,已经能接近正常人打字速度了。
那这项研究听起来这么厉害,是不是用了什么了不起的黑科技呢?——我仔细看了一下这篇论文,发现研究人员还真没有用什么前所未见的新技术,而是把来自人工智能、信号处理,以及芯片加工等领域现有技术组合在了一起,最后再加上一点巧妙的洞察。
简单来说,要想让人通过意念写字,技术上大概可以分成三个步骤。
第一步,就是先得想办法把人的脑电波高精度地测量出来。这个原始测量信号非常重要,因为它在本质上决定了意念写字最终效果的上限,后续所有的识别过程都是对它的特征提取。
但是,我们大脑中有上百亿个神经元细胞,每个细胞都有自己的电信号,是不可能全部提取出来的。于是研究人员,就采用了目前工艺比较成熟,而且精度最高的测量手段:一种植入到大脑皮层的微电极阵列。这种微电极阵列的样子像我们日常用的一种梳子,只不过大小只有4毫米,上面有96根像汗毛一样细小的探针。这些探针在跟大脑皮层接触的时候,能够不断地回传它周围感受到的平均电信号强度。这个信号采集原理就跟给大脑拍摄视频一样,只不过只有96像素(跟探针的数量一样)。
虽然听起来还比较粗糙,但这已经是人类目前能够实现脑电波信号测量分辨率最高的技术之一了。这里值得一提的是,这里微电极阵列的加工技术,其实和芯片的加工技术是一脉相承的,都需要在一块微小的材料上做出精细的立体结构。
现在,我们已经能够提取脑电波的信号了。实现“意念写字”的第二步,就是需要知道病人什么时候开始写字了。
这一步,在真实的写字过程中是很容易实现的。因为当人把笔尖放到纸上的瞬间,就可以认为他在写字了,而抬起笔尖的时候,就代表一段手写动作结束了。但是,对于意念写字来讲,这个开始和结束的分隔点就没有这么直观了。因为脑机接口每时每刻都会测量到看起来杂乱无章的电信号,很难直观地判断出患者想象的手写动作开始和结束在哪里,后续的识别更是无从下手了——这怎么办呢?
解决这个问题的关键,是研究人员切换了一种看待脑电波图像的视角。提到手写的数据,我们一般会把它理解成图像,也就是通过画面的间断和空白区域来划分不同的字符。但是对于脑电波来说,由于接收到手写动作的是连续的电信号,所以动作起始和终止的划分,其实更接近传统的语音数据识别的过程。具体来说,我们现在的语音识别算法,其实就是在麦克风收到的一连串声音的数据中划分出一个个的音节的。这篇论文里,研究人员正是借用了这个差不多十年前在语音识别技术中就提出的数据处理方法,对接收到的脑电波数据进行了有效的划分。这又是一个技术跨界组合的过程。
实现“意念写字”的第三步,就是对这些脑电波数据进行识别和分类了。
这里,研究人员选择使用了一种叫做循环神经网络(RNN)的算法模型,这项技术细节这里就不过多介绍了。你需要了解的是,这是一种特别适合识别带有时间先后顺序的数据的算法模型(比如像是文本、语音信息,还有一些具有前后因果关系的图像数据)。我们平常用的很多中英文翻译软件,就使用到了这个算法。
研究人员就让参与研究的志愿患者,对着一些事先准备好的文字,在大脑中想象自己用一支笔手写这些文字的手部动作,最后总共收集了572个句子里面包含的31472个英文字符对应的脑电波数据。然后,研究人员利用这个循环神经网络,就可以找到这些收集到的脑电波数据对应到26个英文字母之间的规律。
有了这个规律之后,患者只要再去想象自己手写一个英文字母,这个时候收集到的脑电波数据就可以通过算法自动被分类到某一个对应的英文字母,这个分类的准确度可以高达94%,而在经过研究人员的一些修正算法之后,最终高达99.1%。而且识别的速度还相当地快,大概每0.6秒就可以识别一个字母,最终的“意念写字”速度就达到了90字每分钟。不管是识别的准确率,还是输出的速度上都比以往有了显著的提高。
上面,我们介绍了“意念写字”技术的跨界组合创新的过程,相信你已经能够了解到这项乍看起来的黑科技,其实也不过是一些已有技术的巧妙组合。但是我相信,一些同学可能还有一个好奇——那就是研究人员是怎么想到这样巧妙的技术方案的呢?
这就要说到研究人员的一个关键洞察了,这也是我感觉这篇论文最有灵感的地方。前面咱们说了,以往的脑机接口技术都是帮患者实现意念“打字”,而不是“写字”,也就是说,通过想象上下左右,操纵光标,然后在虚拟键盘上打字。这种过程非常慢。
想提高速度,最好的方式是直接用光标画出一个字母。但是在我们的一般印象中,画一个字母的动作是曲里拐弯很复杂的。特别是,要在脑电波信号中抓取这样复杂的动作,可能比横平竖直的动作要困难得多。
但是研究人员就是有了这么一个神奇的洞察,他们认为对人工智能算法来说,识别脑电波里面曲里拐弯儿的手写痕迹,很可能比识别横平竖直的动作轨迹反而要更容易。因为曲里拐弯的手写痕迹,理论上蕴含的信息更多,更容易被人工智能算法给抓取出来。
正是这样一个科学直觉式的洞察,才让研究人员想到可以尝试让病人直接去想象自己手写英文字母的过程。
总之,通过这项登上顶级期刊封面的研究,我们可以看出,如今的很多技术创新,需要科学家们具备跨界技术组合的能力。他们需要把世界上各个领域的新技术都看成一种自己的备用工具,然后等待自己灵感迸发的一刻,把这些工具组合成让人惊艳的创新成果。
好了,彭天放老师对这项意念写字技术的解读,我就为你分享到这了。
这项技术用来辅助瘫痪病人,初衷是为了修复他们丧失的一部分身体机能。但彭老师跟我说,他认为按照目前的进展发展下去,说不准几年后我们会看到一个有趣的情况:瘫痪病人依靠脑机接口输出文字,速度可能会超过普通人正常手写或者打字速度。通过脑机接口,瘫痪病人也许不仅能实现 “修复”,还能实现“增强”。
等到那一天,我想我们每个人都会面临一个灵魂拷问,那就是你会愿意为了提高自己的工作或者沟通效率而植入脑机接口吗?欢迎你在留言区,留下自己的看法。
好了,这就是今天的《邵恒头条》。我是邵恒,我们周一见。
参考文献:《自然》论文:High-Performance Brain-to-text Communication via Handwriting