伙伴们,快刀广播站又开始广播了。
我经常会看到媒体写文章感叹:“为什么还没有杀手级的AI应用横空出世?”这种感觉就像江湖中每时每刻都应该有一个像东方不败那样的大侠存在。但是我们看武侠小说时,令我们感动落泪的反而是那些发生在路边驿站、码头酒肆的人群中的故事。距离我第一次看《射雕英雄传》已经过去很多年了,但老实憨厚的郭靖和女扮男装、古灵精怪的黄蓉,在街头小馆子里点菜的情景,仍然让我记忆犹新。
事实上,AI领域的发展也是如此。很多方向都是你先向前推两步,我在你的基础上再向前推两步。尽管缺乏戏剧性,但每一步的进展都是清晰可见的。因此,我对很多解决精准小问题的项目特别感兴趣。
上周,我看到麻省理工学院和IBM沃森实验室研究团队的一个项目,他们解决的问题非常精准,就是如何在一段长视频里准确定位到你要找的动作。
互联网中有大量的教学视频,教你做菜、玩游戏、钓鱼、露营,还有各种运动教程。但是,如果你想在一个很长的视频里找到特定动作发生的时间或地点,就会非常繁琐。例如,你想在一段很长的做菜视频里,精准地找到需要放多少盐的片段,而不想从洗菜开始看,这在现在就是个很难的事情。
理想情况下,我们肯定希望只需要描述自己要寻找的动作,人工智能模型就可以直接跳到视频中的相应位置。虽然现在很多科学家都在研究让AI去执行这个任务,但是通常情况下,这费用极高,需要大量的人工标注的视频数据去做训练,才能让AI学会这个任务。而且一旦场景或者动作发生了变化,之前的标注很可能就失效了。
如果你是一个足球迷,看到这里可能会说,体育类产品中打开球赛的全场回放,就能从播放条上清晰地看到红黄牌和进球时刻啊。这些也基本上都是人工打标记,有些是跟比分网站的接口对接,把红黄牌和进球时刻标注上去。但是我刚才说的那个项目,想要的是通过搜索,找到红队8号队员的所有铲球镜头,这种需求在现有的技术条件下是无法实现的。
不过,这个研究团队找到了一种新的高效方法,就是给视频加上自动生成的字幕,用它来训练一个模型,去执行时空定位的任务。什么是时空定位呢?我简单了解了一下,其实他们是用两种不同的方式,训练AI理解这些没有标注的长视频。第一种方式是通过观察细节来确定物体的位置,获得空间信息。第二种方式是通过观察整体,理解动作发生的时间。
使用这两种方式同时训练出来的模型,比其他方式的识别准确率更高,也比单独训练一项的效果更好。就我刚才举的例子来说,这个模型在空间信息中寻找红队8号队员和铲球动作,在时间维度上寻找90分钟内类似的动作。
这篇论文的作者布莱恩·陈介绍说:“我们把同时编码空间和时间信息这一挑战,给拆分开来,就像两个专家各自负责一块。事实上,这是一种更明确的信息编码方式,因此获得了最佳的性能。”
之前标注长视频,需要我们人工的去判断特定任务的开始和结束时间,然后加上一个注释,以此作为标准去训练AI模型。但是这种方式,有两个天然的问题,一是无论是效率成本还是人力成本都非常高,更底层的问题是,不同的人类对一个动作的起始和结束的看法不同。例如同样标记一个“炒菜”的动作,可能有些人是从洗菜、切菜开始的,有些人是从锅里倒油开始的,有些人可能是从这些菜放到锅里开始标记的,所以不同人标记出来的炒菜视频片段可能完全不同。
这还仅仅是炒菜这个大类别,如果是做水煮鱼呢?如果是修车换轮胎呢?需要注释的视频动作有很多,这就需要AI在没有人类标注的情况下,学习并找到一个通用的解决方案。
布莱恩·陈介绍了他们研究项目的做法。他们先用海量的没有任何标注的长视频和YouTube上的视频作为训练数据,然后把培训过程分成两个部分。首先,他们教一个机器学习模型查看整个视频,了解某些时间发生了哪些动作,这种高级别的信息称为全局表征。紧接着,他们让模型集中注意力,关注有动作发生的特定区域。例如,在一个厨房场景中,他们会让模型只关注厨师用来炒菜的锅铲,而不是整个厨房,这种颗粒度的信息就叫做局部表征。他们还设计了一个新的注释技术,重点是标记物体相交的位置,然后打标签。听起来很复杂,其实可以这样理解,就是在做西红柿炒鸡蛋,先关注菜刀的位置,找到菜刀刀刃和西红柿要碰到的时刻,打上一个“切菜”的标签。整个过程都由AI去做,加快了注释的速度,也减少了人力成本。
看起来这是个非常垂直领域的技术研究,但是如果真的能大规模产品化,无论是视频网站的影视剧搜索,还是企业里大量无人问津的培训视频,或者是医院里的诊断视频,都有可能因为这个方法而产生新的产品形态。从根本上来说,这个项目其实是在推动AI理解视频。也许未来AI不仅能给我们生成一段文字,还可以从不同的视频里找到解决方案,推给我们一个AI自己剪辑过的视频。
最后和大家一条AI学习圈的新动态。我的用Dify快速搭建AI助手的新教程,第二讲正式上线了,今天我将带你完成一个客服售后助手。为了方便你上手实操,我专门整理了一份工具手册,里面会汇总搭建某个AI助手时用到的提示词,演示视频,还有源文件,拿走就能用。订阅了学习圈的同学记得到课程里查看。
好,今天的快刀广播站就到这里了。如果你觉得今天的内容对你有帮助,欢迎分享到朋友圈或者转发给你的朋友们。明天咱们接着聊AI。