VALL-E 2 成为首个达到人类水准的 TTS，基於风险微软不打算公开发表

去年初微软推出 VALL-E 文字转语音（TTS）生成器时，便展现了只要听取说话者 3 秒钟的声音、便能以原说话说者一模一样的声音说出任何讲话内容的能力。如今微软推出 VALL-E 2 生成器，能够更进一步生成和真人说话时一样准确、自然又流畅的语音。由於生成的语音太过逼真，微软担心会有被恶意滥用的可能风险，所以决定不对外公开。

6 月 17 日，微软研究人员在开放预印论文网站 arXiv 上所发表的一篇论文中表示，VALL-E 2 能够「以原说话者的声音生成与人类表现水准殊无二致的准确、自然语音」。换言之，这款新的 AI 语音生成器非常逼真，足以让人误以为是真人在讲话。

两功能加持，ALL-E 2 树立零样本 TTS 技术新里程碑

研究人员在论文中写道，ALL-E 2 是神经编码解码器语言模型（neural codec language model）的最新进展，标志着零样本（zero-shot）TTS 技术的一个里程碑，首次实现了与人类表现相当的水准。该 AI 引擎能够实现这一点，是因为包含了两个关键功能：「重复感知取样」（Repetition Aware Sampling）和「分组程式码建模」（Grouped Code Modeling）。

重复感知取样透过处理重复的「词元」（Token，最小的语言单位）来改进 AI 文字转语音的方式，进而让生成语音听起来更加流畅与自然。分组编码建模透过减少序列长度（亦即减少该模型在单一输入序列中所处理个别词元的数量）来提高效率，这加快了 VALL-E 2 生成语音的速度，并有助於解决长串声音时遇到的困难。

研究人员使用 LibriSpeech 和 VCTK 语音库的音讯样本来评估 VALL-E 2 与人类说话者录音的匹配程度，同时使用专门用来测量生成语音准确性和品质的 ELLA-V 评估框架，来确定 VALL-E 2 处理更复杂语音生成任务的能力与表现。尽管研究人员在该论文中指出，VALL-E 2 生成的语音品质取决於语音提示的长度和品质，以及背景杂讯等环境因素，但最终评估结果表明，「它是同类模型中首个在这些基准测试中达到人类水准的系统」。

合成出可维持说话者身分的语音，VALL-E 2 仍有广大应用空间

考量到当前人们对於语音复制（voice cloning）和深度伪造（deepfake）技术与日俱增的担忧，微软研究人员在一篇官方部落格文章中表示，VALL-E 2 纯粹是一个研究专案，该公司目前没有将 VALL-E 2 纳入产品或扩大公开使用的计画。因为该模型可能存在被滥用（例如欺骗规避声音识别系统或冒充特定说话者）的风险。

微软并未把话说死，该技术在未来仍有可应用的空间。研究人员表示，VALL-E 2 可以合成出可以维持说话者身分的语音，并应用於教育学习、娱乐、新闻报导、自创作内容、无障碍功能、互动式语音应答系统、翻译、聊天机器人等领域。未来为避免滥用，模型推广者必须缔结使用者批准使用其声音的协议，并导入合成语音的检测模型。一旦怀疑 VALL-E 2 遭滥用，也可向微软 Report Abuse Portal 回报状况。

AI speech generator ‘reaches human parity’ — but it’s too dangerous to release, scientists say

（首图来源：pixabay）