语音合成新技术,可复制任何人的语音 - 贝尔面瘫

TUhjnbcbe - 2024/8/5 19:40:00

导读

加拿大一家名为“琴鸟”（Lyrebird）创业公司声称，通过分析约一分钟的录音，然后利用语音模仿算法，就可以模仿任何人的语音，还能在声音中加入“感情”因素，让它更生动逼真。

关键字

语音合成、人工智能、深度学习

背景

在介绍这项创新技术之前，考虑到有些朋友不了解语音合成技术，同时也为了延续IntelligentThings一贯传递技术和创新价值的原则。所以，我们还是从语音合成技术的背景谈起。

语音合成技术，简单一点说，就是通过计算机等技术，将文字信息转化为语音信息，然后播放出来。下图就是一款简单的语音合成设备，它能够输出合成的和数字化的语音。

（图片来源于：维基百科）

这项技术有着漫长的历史，最早可以追溯到年，Kratzenstein研制出一种机械式语音合成器。后来，由于电子技术兴起和加入，年贝尔实验室H.Dudley制作出一个电子语音合成器。而近期，又发展到TTS，即“文本到语音”技术，它结合了芯片、人工智能、软件等技术，将文字转化为语音。

TTS技术的处理流程

（图片来源于：维基百科）

目前，在语音合成领域，不少公司都有所建树，例如国外的微软、朗讯、ATT、Elan、TextAloud等，国内的科大讯飞、捷通华声、百度等。

近些年来，伴随着人工智能等前沿技术的发展，语音合成技术，取得了长足的进步，越来越流畅、连贯、自然，丝毫没有任何机械、生涩的感觉。

未来，语音合成技术的发展方向，应该就是让声音达到真人说话水准，并逐渐加入音色、情感方面的合成，使之更具特色，更加个性化。

创新

在语音合成和人工智能等技术兴起的背景下，最近，位于加拿大蒙特利尔的初创公司Lyrebird宣布成功开发出了一项语音合成新技术，它只需分析几十秒钟的音频录音，就可以利用语音模仿算法，仿造任何人的声音，这是世界上首次。

公司的名字为“Lyrebird”：琴鸟，并不是偶然，是独具匠心的选择。因为，琴鸟这种鸟，能够模仿各种声音，例如喇叭声、气鸣声、伐木声等等。

该公司的核心技术是一个深度学习模型，由蒙特利尔大学MILA实验室所开发。公司三位创始人：AlexandredeBrébisson、JoseSotelo、KundanKumar都是该校的博士生。

说起这项技术的创新和独特之处，主要有以下三点：

声音独特

开发者可从几千种不同的预定义声音中进行选择，或者根据需求，为应用程序设计独特的声音。

实时生成

通过GPU集群，不到半秒种的时间，就能够生成条句子。

控制情感

可以注入不同的情感效果，例如压力、愤怒、同情等等，生成的声音不是机械的，而是富有情感的。

另外，他们还为公司或者个人开发者，提供了一套API（应用程序编程接口）和AI应用，使他们能够开发新的语音合成解决方案。

在lyrebird.ai的网站上，该公司特意展示了特朗普、奥巴马、希拉里等人的合成语音，旨在说明这项技术的准确性和有效性。

应用

这项技术将会带来一些列精彩的应用，例如：私人助手，用于读取著名的音频书籍；各类可联网的语音合成设备，为视觉障碍的残疾人合成语音；另外，它还可以服务于电影动画或者游戏工作室。

未来

未来团队会有什么计划？他们的API正在开发之中，并且也在扩大他们的测试范围，邀请更多人的参与。

对于这项技术，也许很多朋友都会发出质疑，因为它会引发一些负面的问题：

例如，有人会利用它创造出虚假的数字声音，而听起来又十分逼真，以至于可以欺骗听众，让他们以为是在听真人讲话。这样一来，某些别有用心的坏家伙就可以篡改声音，误导和欺骗他人。

面对这些质疑，该公司团队认为：

通过公开发布这项技术，他们希望每个人都能意识到这种技术的存在，复制他人的语音是有可能的，所以说录音有时候也可能是虚假的，或者说是被人为修改过的。

参考资料