VALL-E 2 成为首个达到人类水准的 TTS,基於风险微软不打算公开发表

on

|

views

and

comments

去年初微软推出 VALL-E 文字转语音(TTS)生成器时,便展现了只要听取说话者 3 秒钟的声音、便能以原说话说者一模一样的声音说出任何讲话内容的能力。如今微软推出 VALL-E 2 生成器,能够更进一步生成和真人说话时一样准确、自然又流畅的语音。由於生成的语音太过逼真,微软担心会有被恶意滥用的可能风险,所以决定不对外公开。

6 月 17 日,微软研究人员在开放预印论文网站 arXiv 上所发表的一篇论文中表示,VALL-E 2 能够「以原说话者的声音生成与人类表现水准殊无二致的准确、自然语音」。换言之,这款新的 AI 语音生成器非常逼真,足以让人误以为是真人在讲话。

两功能加持,ALL-E 2 树立零样本 TTS 技术新里程碑

研究人员在论文中写道,ALL-E 2 是神经编码解码器语言模型(neural codec language model)的最新进展,标志着零样本(zero-shot)TTS 技术的一个里程碑,首次实现了与人类表现相当的水准。该 AI 引擎能够实现这一点,是因为包含了两个关键功能:「重复感知取样」(Repetition Aware Sampling)和「分组程式码建模」(Grouped Code Modeling)。

重复感知取样透过处理重复的「词元」(Token,最小的语言单位)来改进 AI 文字转语音的方式,进而让生成语音听起来更加流畅与自然。分组编码建模透过减少序列长度(亦即减少该模型在单一输入序列中所处理个别词元的数量)来提高效率,这加快了 VALL-E 2 生成语音的速度,并有助於解决长串声音时遇到的困难。

研究人员使用 LibriSpeech 和 VCTK 语音库的音讯样本来评估 VALL-E 2 与人类说话者录音的匹配程度,同时使用专门用来测量生成语音准确性和品质的 ELLA-V 评估框架,来确定 VALL-E 2 处理更复杂语音生成任务的能力与表现。尽管研究人员在该论文中指出,VALL-E 2 生成的语音品质取决於语音提示的长度和品质,以及背景杂讯等环境因素,但最终评估结果表明,「它是同类模型中首个在这些基准测试中达到人类水准的系统」。

合成出可维持说话者身分的语音,VALL-E 2 仍有广大应用空间

考量到当前人们对於语音复制(voice cloning)和深度伪造(deepfake)技术与日俱增的担忧,微软研究人员在一篇官方部落格文章中表示,VALL-E 2 纯粹是一个研究专案,该公司目前没有将 VALL-E 2 纳入产品或扩大公开使用的计画。因为该模型可能存在被滥用(例如欺骗规避声音识别系统或冒充特定说话者)的风险。

微软并未把话说死,该技术在未来仍有可应用的空间。研究人员表示,VALL-E 2 可以合成出可以维持说话者身分的语音,并应用於教育学习、娱乐、新闻报导、自创作内容、无障碍功能、互动式语音应答系统、翻译、聊天机器人等领域。未来为避免滥用,模型推广者必须缔结使用者批准使用其声音的协议,并导入合成语音的检测模型。一旦怀疑 VALL-E 2 遭滥用,也可向微软 Report Abuse Portal 回报状况。

  • AI speech generator ‘reaches human parity’ — but it’s too dangerous to release, scientists say

(首图来源:pixabay)

openvpn好用吗

热门文章

储能/需量反应带来巨大价值 绿色微电网进可攻退可守

用电量不容小觑的资料中心,已成为地区电网能否稳定运作的新考验。如果资料中心运作所需的电力,能有一部分透过结合绿...

後悔也来不及!英特尔前CEO错过收购辉达机会

近日有传闻指出,2005年时任英特尔执行长Paul Otellini曾提出收购辉达的建议,并愿意支付高达200亿美元的价格,这一提案在英特尔董事会内部引发了激烈讨论,但最终却遭到否决。

AI不是万能 无法取代的职业有哪些

随着人工智慧(AI)技术的进步,这些职业仍无法被AI轻易取代,其中包括领导、创造性的工作和专业技术人员等。

最新文章

相关推荐

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x