F5-TTS：上海交大开源超逼真声音克隆TTS，15秒即可克隆声音

发布日期：2024/11/15 23:16:40 浏览量：

F5-TTS是一款基于流匹配的全非自回归文本到语音转换系统，由上海交通大学、剑桥大学和吉利汽车研究院的研究团队联合开发。该系统无需复杂设计，如持续时间模型、文本编码器和音素对齐，能够实现快速训练，并达到RTF（实时因素）0.15的推理速度，明显优于当前基于扩散的TTS模型。

F5-TTS在公共的100K小时多语言数据集上进行训练，展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。项目提出了一种推理时的摇摆采样策略，显著提高了模型的性能和效率。

论文：https://arxiv.org/abs/2410.06885

模型特点

F5-TTS 独特的架构使得它与传统 TTS 系统相比更具优势：

可移步语音之家其他平台听取音频

使用方法

本地部署，需要保证GPU资源（算力）充足及Python环境。

pip install -r requirements.txt

pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

python gradio_app.py

通过官网直接体验其多语言语音生成和速度、情感控制功能。

总结

F5-TTS 是继Chat-TTS后有一款强大的TTS开源工具，尤其是在多语言处理、情感表达和语音生成速度上都实现了突破。

资源下载地址：

最新AI语音大模型，本地一键部署整合包，完美复刻语气音色，支持多角色对话，解压即用，AI语音克隆。

[原项目GitHub地址]:https://github.com/jpgallegoar/F5-TTS

整合包聚合链接：https://exmzfs7zve.feishu.cn/docx/FuPxdArRaofVMWxke2tc8IO9nCh?from=from_copylink

夸克网盘链接：https://pan.quark.cn/s/a0d2ebe90488 提取码:nmgV

百度网盘链接: https://pan.baidu.com/s/1m3G34q9R3IvUII2rsfjzEg?pwd=tfe8 提取码: tfe8

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生