078|OpenAI发布最新语音合成引擎,15秒复刻你的声音

伙伴们,快刀广播站又开始广播了。

OpenAI最近发表了一篇博客,介绍了他们在文字转语音方面的最新进展。因为得到从2017年就开始在电子书等场景里引入了罗胖的定制音色,包括你现在听到的AI学习圈广播站的声音,以及隔壁职场圈花姐信箱的声音,都是由文字转成的AI语音,所以我也一直很关注这方面的进展。

去年,OpenAI首次放出语音对话功能时,我当时感觉非常震惊。虽然是大半夜,但我当时也打扰了我们的技术合作伙伴,拿OpenAI的效果问他,“咱们什么时候能达到这个效果。”

这次,OpenAI发布的定制语音模型Voice Engine,比自然AI语音往前更进一步。具体来说,这个语音引擎只需要输入一段文本,和一段15秒的音频,就可以创造出一个和说话者本人非常相似的自然语音,富有感情,并且非常逼真。

OpenAI从2022年年末开始开发这个语音引擎,然后用在了ChatGPT的语音对话里。不过,由于担心合成语音被人滥用,所以这次他们并没有直接开放这个引擎,而是先放出了一些案例,让大家感受一下合成语音的能力,然后邀请各界围绕这个新能力展开讨论。在讨论的基础上,OpenAI再决定接下来怎么大规模地部署这个语音引擎。

这种方式完全可以理解,因为ChatGPT里的语音非常逼真,并且会出现像人类那样的卡壳和停顿,让你感觉对方不是没有感情的AI,而是真的在思考。如果这个语音引擎接口开放出来,对很多电诈犯罪团伙来说,简直就是鸟枪换炮了。别说对网络不了解的老年人会上当,连我们这种每天接触AI的人,可能都很难辨别真伪。

在这篇博客里,OpenAI展示了和几个合作伙伴的测试成果,我给大家介绍一下,听完他们能达到的效果,你就知道有多么难辨真假了。

第一个项目是OpenAI与教育科技公司Age of learning一起做的,主要给不识字的儿童提供语音阅读材料。自然而富有感情的声音会让孩子感到很亲切,而且,孩子不只是听故事,听的过程中也能提问和互动。这个产品会先通过ChatGPT实时创建个性化的回答,然后再用语音引擎读出来。这就意味着,孩子面对的是一个可以随时唤起的玩伴,能一起创造出故事。

我在音频里给你放了一段15秒的真人音频,和一段AI从这15秒音频中创造出的声音,你对比听一下。听完之后,你是不是觉得足够以假乱真了?

第二个项目是多语种翻译。比如,创作者拍了视频或者录了播客,可以用这个声音引擎变成各国的语言,分发到全球。这个项目的合作伙伴就是HeyGen,如果你还有印象的话,去年很火的那个霉霉说中文的视频,以及郭德纲说英文相声的视频,都出自HeyGen之手。当时我还特别兴奋地发了个朋友圈,辗转找到了HeyGen的创始人,想问问那么牛的AI音频怎么做出来的。当我知道背后是OpenAI的这个语音合成引擎时,就非常能理解为什么效果这么逼真了。

我在音频里给你放一了段15秒的英文原声。然后这个音频就可以直接生成带有口音的西班牙语、普通话、法语、日语等。我在音频里再给你放一段AI生成的普通话。

至少听起来,跟刚才的英文原声有非常多的口音相似度,特别像一个学习中文的外国人的语音语调了。

第三个项目是为了改善偏远地区的基本服务。一个叫Dimagi的公司正在基于语音引擎开发工具,帮助非洲一线的社区卫生工作者提供基础的咨询服务。这个工具可以识别肯尼亚的斯瓦西里语等少数族裔语言,并且让AI用对方的母语提供反馈。

第四个项目是跟医疗相关的,主要针对的是突发性或者退化性言语障碍的患者,用来帮他们恢复语音。这个项目是跟布朗大学医学院合作的,核心就是能让这些语言障碍的用户使用一段录制的音频,因为语音引擎只需要15秒就可以做个性化的定制,所以可以让这批用户通过AI发出有自己特色的声音。

介绍完这几个项目,OpenAI在博客文章里还呼吁说,如果要广泛部署这套服务,应该配备语音认证的验证,用来检验原始说话者愿意用他们的声音去做定制,并且还应该有一个禁止使用的声音列表,用来检测和防止创建与知名人物过于相似的声音。

所以从长期来看,OpenAI这个语音引擎肯定还会有技术层面的效果提升,不过更值得关注的是这两个方面,一是别人用这个引擎做什么样的应用,今天列的这几个内测项目都是很好的落地方向。另外就是OpenAI如何一步步放开这个技术,在这个过程中如何应对各种未知的风险。

最后和大家说一则活动消息,AI学习圈最新一期创作大赛来了,主题是用AI复现诗歌里的清明,可能是雨纷纷的哀思,可能是踏青游玩的欢乐,也可能是扫墓思亲的肃穆。点击文稿区的链接就能分享你的作品。

点击参加AI创作大赛

好,今天的快刀广播站就到这里了。如果你觉得今天的内容对你有帮助,欢迎分享到朋友圈或者转发给你的朋友们。明天咱们接着聊AI。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top