051|盘点得到AI语音背后的技术,推荐几款个人定制音色工具

伙伴们,快刀广播站又开始广播了。

首先播报一条活动信息,咱AI学习圈和隔壁罗胖的《文明之旅》节目联动了,共同发起了第二届AI创作大赛。邀请你用AI工具,围绕「四川」设计一张创意海报,点赞前10名的同学有积分大奖。在动手画之前,我推荐你先去看看《文明之旅:四川为什么叫四川?》这期节目,找找灵感。我把这次比赛的链接放在文稿里了,点击就可以参赛。

点击链接去参赛,用AI画四川!

好,开始今天正式的广播内容。

从广播站上线到现在,新加入的同学经常问我一个问题:“广播站的AI语音是怎么做出来的?”今天这期,我就给大家推荐几个能快速实现文字转语音的产品。

首先,从文字变成机器语音并不是一个很新的技术,因为AI发展到现在,成本在最近两年急剧下降了。其实得到六七年前就在电子书里推出了文字转语音的功能,当时输出的语音听起来机械感非常明显,所以只能算勉强可以听的状态,并且成本很高,每年光这一个功能的基础成本就需要几十万元。

现在,几乎所有的大模型厂商和云服务厂商,都有自己的文字转语音功能,水平都不差。你唯一要考虑的是使用场景和成本,因为不同的厂商,从基础的定制费用到之后的流量费用,都不一样。

我先简单介绍下,得到现在都用了哪些,大家可以试用体验一下。

首先,得到在2023年7月之前的版本,用的都是讯飞的语音TTS服务,定制的罗胖音色,迭代也非常及时,更换语音服务的主要原因是成本问题,不是技术问题。

现在,电子书里的罗胖语音和六个标准声音,是百度智能云提供的。这里面的区别在于,罗胖这种定制音色,在各个平台,如果要做到极高质量,就需要单独定制,需要至少几个小时的高清音频,加上一笔不菲的定制费用才可以。如果企业在一些通用场景,不需要这种特殊音色定制的话,其实线上就有很多音色可以选择。

然后,我们“开始练练”微信小程序里的AI对话功能,语音提供方是字节的火山引擎,因为他们训练出来的不少音色听起来非常自然,就像真人在聊天一样。传统的文字转语音,几乎都会用在读书朗读方面,一本正经的音色太像播音员了。但火山引擎提供的音色,听起来更有人味儿一些,在“开始练练”这个需要和人互动沟通的场景里,更加合适。

另外,还有一家微软云,大家感兴趣的话,也可以去试试。他们的音色定制流程,自助化程度很高。并且只需要说一句话,就可以定制出来以假乱真的效果。春节前,我和蔡钰老师一起去了微软亚洲研究院,体验了他们最新的音色定制水平,非常惊艳。我们也会和微软合作,让他们先出一版蔡钰老师的音色,如果效果好的话,你就能在得到听到蔡钰以及更多老师的声音了。

我刚说的这三个平台的文字转语音功能,其实都比较偏向企业应用。如果你的企业有类似的场景,或者你做了某个产品需要用到类似的功能,完全可以体验一下。

不过,如果你只是个人想用的话,这几个产品就明显偏重了。我给你推荐几个适合个人使用的产品。

第一个是豆包,这是字节出的App,你可以理解为给你生成一个可以对话的机器人。你登录上去后,首先可以挑自己感兴趣的角色聊天,可以选择热门角色,比如孙悟空、懒羊羊、科比、奶龙、光头强等。然后你可以创建一个自己想要的智能体,也就是小机器人,可以用系统推荐的声音,也可以创建自己的声音,在一个比较安静的环境里录一段话,就足够了。上手极其简单,你可以去试试看。

第二个产品叫Speechify,这个产品在安装上会遇到一些麻烦,如果是苹果手机,只有在美区苹果商店才能下载,如果是安卓手机,只能在谷歌商店下载。但是如果你有读英文书、英文资料或者论文需求的话,非常值得折腾一下。

因为这个产品的功能非常强大,我跟你说几个应用场景,手机版本可以读手机里的文件、网盘里的文件、Kindle电子书、Gmail邮件、手机摄像头拍下的文字,也可以直接扔一个新闻网址过去,直接开读,还可以读ChatGPT的对话回复。从图片到PDF到word,所有格式都通吃。

除了来源之外,可选择的音色非常多,光是会员专享的精品音色就有200个左右。从英语、法语、葡萄牙语一直到普通话和粤语,我数了一下,支持的语言有53种,也就是这些语言的文档都可以读。当然,如果你是个重度使用者的话,还可以装一个浏览器插件,这样的话,浏览器打开的网页都可以用你想要的音色读出来。对了,加入它们的会员还可以自定义音色,其实就可以做到用自己的音色来读。

当然,类似的个人可以用的产品还有非常多。例如,有个叫ElevenLabs的产品,体验也非常好,但是出来的中文声音一听就像老外说的,估计跟训练语料不够优质有关。大家可以多多挖掘好用的产品。当然,今天我介绍的都是文本直接转语音的产品。

还有像Heygen这样的产品,核心是帮你做视频配音,它可以依据视频文案自动生成语音,并且还有十几种语言供选择,这样的话就能帮你把一个视频短片,分发到全球各个市场。

好,今天的快刀广播站就到这里了。我会把今天提到的一些产品链接和官网发在文稿里,有兴趣的话可以打开看一下。

如果你觉得今天的内容对你有帮助,欢迎分享到朋友圈或者转发给你的朋友们。明天咱们接着聊AI。

【相关链接】

微软云:https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech

百度智能云:https://cloud.baidu.com/doc/SPEECH/index.html

火山引擎:https://www.volcengine.com/product/tts

Speechify:https://speechify.com/

ElevenLabs:https://elevenlabs.io/

Heygen:https://www.heygen.com/

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top