AI 中文社/ AI 工具

申请收录返回

AI音频/ AI文转音

VALL-E

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为 VALL-E），并将 TTS 视为条件语言建模任务，而不是像以前的工作那样连续信号回归。

标签： AI编程工具 AI语音合成文转音 AI文转音 AI语音模拟 VALL-E 语言建模方法

浏览(597) 点赞(0) 收藏(0) 反馈 访问工具

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为 VALL-E），并将 TTS 视为条件语言建模任务，而不是像以前的工作那样连续信号回归。在预训练阶段，我们将 TTS 训练数据扩展到 60K 小时的英语语音，这是现有系统的数百倍。VALL-E 出现了上下文学习能力，可用于合成高质量的个性化语音，只需录制 3 秒的未见过的说话者的注册录音作为声音提示。实验结果表明，VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。此外，我们发现 VALL-E 可以在合成中保留说话者的情绪和声音提示的听觉环境。

类似的工具

其他人也看的工具

0条评论

提倡鼓励AI创业者，一个产品需经历无数次失败才能成品。

评论

游客

登录后再评论

赠人玫瑰，手有余香。
和谐社区，和谐点评。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

登录如果没有账号，请先注册账号

申请收录打赏站长

推荐 AI 小工具

Janitor AI 角色扮演聊天

在问

易搜猫

抖音Dreamina – 免费

云雀大模型

喵呜提示词助手

Dify

CapCut剪映专业版

Otter.ai

Vmake

新华妙笔AI

呱呱有声-制作平台

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程

Copyright © 2022-2025 aizws.net · 网站版本: v1.2.6·内部版本: v1.25.2· 页面加载耗时 0.00 毫秒·物理内存 171.3MB ·虚拟内存 1439.1MB

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。