伙伴们,快刀广播站又开始广播了。
这两年因为人工智能的跳跃式发展,科研领域受益非常大。在第68期广播站里,我给大家介绍过一个用人工智能预测洪水的项目,最近我又看到一个项目,是用大模型来揭示龙卷风形成的时间和原因,从而提高预警的准确率。这类项目的预测效果只要优化一小步,就有可能拯救很多人的生命,所以我特别希望看到,类似的项目能再多一些。
这个项目是麻省理工林肯实验室做的,他们还发布了一个名叫TorNet的开源数据集,里面包含了上万张描绘龙卷风和其他严重风暴的雷达图像。这个数据集可以作为AI算法的基础数据,供全球其他开发龙卷风预警系统的研究人员参考。
当被问到为什么会做这个项目时,研究人员介绍说,美国一些地区,春天回归就意味着龙卷风季节快要到了。虽然我们肉眼看龙卷风的话,会觉得那种扭曲漏斗的形状非常震撼。但在气象学家的雷达图上,可能看不出来这种景象,也很难知道龙卷风是在什么时候正式形成的,甚至连形成原因都不知道。
刚才提到的那个TorNet数据集,很有可能在AI的帮助下找到答案。这里面收集了过去10年袭击美国的数千次龙卷风的雷达图,同时也包含了一些看起来情况相似,但最后没形成龙卷风的风暴图。林肯实验室的研究人员希望能在探测龙卷风方面形成突破,毕竟龙卷风被称为最神秘和最暴力的自然现象之一。
预测龙卷风是出了名的困难。一般气象学家会用天气雷达来预测,但是龙卷风的位置太低了,即使距离雷达很近,也很难被探测到。很多时候,雷达只能判断有没有中气旋,就是一种旋转上升的气流,但是即便有中气旋,也不代表就会形成龙卷风。
所以,预报员需要在还不明朗的情况下,决定是否发布龙卷风预警。他们往往因为过于谨慎而犯错,也就是说明明没有龙卷风,但因为害怕判断失误,所以会进行龙卷风预警。
你知道吗,美国整个龙卷风预警的误报率超过70%。我看到这个数据的时候吓了一跳,也就是说十次龙卷风警报中,七次可能都是假的。我们设想一下,收到一次警报,我们吓得赶紧躲进了地下室,结果发现是误报。连续多次误报后,我们就会对这种警报视而不见。这不就是那个经典童话故事《狼来了》吗?
这个项目的首席研究员马克·维尔特,在谈到为什么要开源这个宝贵的数据集时,他说:“很多科学进展都是被容易获得的基础数据集推动的。我希望TorNet数据集能够为检测和预测龙卷风的机器学习算法奠定数据基础。”当然,除了数据集外,他们还发布了基于该数据集训练的模型,这个模型显示了机器学习可以识别龙卷风的能力。
近年来,有不少类似的研究团队都开始用人工智能来更好地检测和预测龙卷风,但是都卡在了缺少高质量的原始数据集上。这次TorNet的发布,正好填补了这个空白。这个数据集里的20多万张雷达图像,有13587张是龙卷风的,其他图片一种是随机选择的严重风暴,另一种是让气象员误报的风暴。
研究人员也解释了整理这个基准数据集的挑战。我本来以为他们是有一个雷达图片库,这次把图库一开源,大家直接下载就可以了。
听完研究人员的讲述,我才知道自己的想法实在是过于简单了。因为整理这种数据集的首要挑战就是找到龙卷风。而龙卷风本身就是极其罕见的自然事件,找起来就很有难度。另外,研究人员必须平衡这些真正的龙卷风样本,和那些非龙卷风的样本,这样对研究才有意义。因为如果数据集太简单的话,未来训练的算法就很容易把普通风暴过度分类为龙卷风。
现在项目组的深度学习模型,在结果上已经超越了目前已知的龙卷风检测算法。这个模型能够准确分类了50%的比较弱的龙卷风,和超过85%的最高等级的龙卷风,而这两种正好是在现实生活中破坏力最强的自然灾难。
更有趣的是,这个项目的两名成员,一个是我们刚才说过的维尔特,他是一位数学家和算法开发人员,不过他非常着迷于研究龙卷风。另一位成员库尔德佐,是科班出身的气象学家和信号处理专家,不过他一直在研究用新的方式去收集和分析数据。所以这样的研究组合,是不同领域人士跨界合作的范例。
我也想借这个项目给同学们划个重点,未来AI肯定会深入到各行各业,那么在各自领域里的独特的数据资源,就会成为比通用大模型更重要的能力。所以两家看起来业务模式一模一样的公司,谁拥有更多高质量的专有数据,谁就更容易在AI时代摇身一变,成为一家核心由人工智能驱动的公司。
好,今天的快刀广播站就到这里了。如果你觉得今天的内容对你有帮助,欢迎分享到朋友圈或者转发给你的朋友们。明天咱们接着聊AI。