去年初微软推出 VALL-E 文字转语音(TTS)生成器时,便展现了只要听取说话者 3 秒钟的声音、便能以原说话说者一模一样的声音说出任何讲话内容的能力。如今微软推出 VALL-E 2 生成器,能够更进一步生成和真人说话时一样准确、自然又流畅的语音。由於生成的语音太过逼真,微软担心会有被恶意滥用的可能风险,所以决定不对外公开。
6 月 17 日,微软研究人员在开放预印论文网站 arXiv 上所发表的一篇论文中表示,VALL-E 2 能够「以原说话者的声音生成与人类表现水准殊无二致的准确、自然语音」。换言之,这款新的 AI 语音生成器非常逼真,足以让人误以为是真人在讲话。
两功能加持,ALL-E 2 树立零样本 TTS 技术新里程碑
研究人员在论文中写道,ALL-E 2 是神经编码解码器语言模型(neural codec language model)的最新进展,标志着零样本(zero-shot)TTS 技术的一个里程碑,首次实现了与人类表现相当的水准。该 AI 引擎能够实现这一点,是因为包含了两个关键功能:「重复感知取样」(Repetition Aware Sampling)和「分组程式码建模」(Grouped Code Modeling)。
重复感知取样透过处理重复的「词元」(Token,最小的语言单位)来改进 AI 文字转语音的方式,进而让生成语音听起来更加流畅与自然。分组编码建模透过减少序列长度(亦即减少该模型在单一输入序列中所处理个别词元的数量)来提高效率,这加快了 VALL-E 2 生成语音的速度,并有助於解决长串声音时遇到的困难。
研究人员使用 LibriSpeech 和 VCTK 语音库的音讯样本来评估 VALL-E 2 与人类说话者录音的匹配程度,同时使用专门用来测量生成语音准确性和品质的 ELLA-V 评估框架,来确定 VALL-E 2 处理更复杂语音生成任务的能力与表现。尽管研究人员在该论文中指出,VALL-E 2 生成的语音品质取决於语音提示的长度和品质,以及背景杂讯等环境因素,但最终评估结果表明,「它是同类模型中首个在这些基准测试中达到人类水准的系统」。
合成出可维持说话者身分的语音,VALL-E 2 仍有广大应用空间
考量到当前人们对於语音复制(voice cloning)和深度伪造(deepfake)技术与日俱增的担忧,微软研究人员在一篇官方部落格文章中表示,VALL-E 2 纯粹是一个研究专案,该公司目前没有将 VALL-E 2 纳入产品或扩大公开使用的计画。因为该模型可能存在被滥用(例如欺骗规避声音识别系统或冒充特定说话者)的风险。
微软并未把话说死,该技术在未来仍有可应用的空间。研究人员表示,VALL-E 2 可以合成出可以维持说话者身分的语音,并应用於教育学习、娱乐、新闻报导、自创作内容、无障碍功能、互动式语音应答系统、翻译、聊天机器人等领域。未来为避免滥用,模型推广者必须缔结使用者批准使用其声音的协议,并导入合成语音的检测模型。一旦怀疑 VALL-E 2 遭滥用,也可向微软 Report Abuse Portal 回报状况。
- AI speech generator ‘reaches human parity’ — but it’s too dangerous to release, scientists say
(首图来源:pixabay)