微立顶科技

新闻资讯

创新 服务 价值

  F5-TTS:上海交大开源超逼真声音克隆TTS,15秒即可克隆声音

发布日期:2024/11/15 23:16:40      浏览量:

        F5-TTS是一款基于流匹配的全非自回归文本到语音转换系统,由上海交通大学、剑桥大学和吉利汽车研究院的研究团队联合开发。该系统无需复杂设计,如持续时间模型、文本编码器和音素对齐,能够实现快速训练,并达到RTF(实时因素)0.15的推理速度,明显优于当前基于扩散的TTS模型。




F5-TTS在公共的100K小时多语言数据集上进行训练,展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。项目提出了一种推理时的摇摆采样策略,显著提高了模型的性能和效率。

论文:arxiv.org/abs/2410.0688

模型下载:huggingface.co/SWivid/F

Demo:huggingface.co/spaces/m

项目地址:github.com/SWivid/F5-TT

模型特点

  • 零样本 (Zero-shot) 声音克隆
  • 速度控制(基于总时长)
  • 可以控制合成语音的情感表现
  • 长文本合成
  • 支持中文和英文多语言合成
  • 在 10 万小时数据上训练
  • 最重要的是支持商用

技术优势

F5-TTS 独特的架构使得它与传统 TTS 系统相比更具优势:

  • 并行处理:不像传统系统那样依赖逐步生成语音,F5-TTS 能够同时处理多个步骤,从而显著加快了生成速度。
  • 多场景支持:无论是智能助手、在线教育、语音阅读器,还是其他需要 TTS 支持的场景,F5-TTS 都能够提供自然流畅的语音输出。
  • 大规模数据训练:F5-TTS 在超过 100K 小时的多语言数据集上进行训练,这让它能够在不同语言和语境下提供卓越的语音生成能力。

可移步语音之家其他平台听取音频

使用方法

1、自定义本地部署服务

本地部署,需要保证GPU资源(算力)充足及Python环境。

  • 克隆项目

git clone github.com/SWivid/F5-TT

  • 安装项目依赖包
pip install -r requirements.txt
  • 安装合适的CUDA包(英伟达显卡必须)
pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
  • 准备数据集并训练、推理、运行项目
python gradio_app.py

2、在线使用

通过官网直接体验其多语言语音生成和速度、情感控制功能。




  • 上传原始音色音频,最好是说话的音频,也可以录制自己的声音上传。
  • 然后输入需要转成语音的文本。
  • 同步生成,最后就可生成带预期音色的音频了。

总结

F5-TTS 是继Chat-TTS后有一款强大的TTS开源工具,尤其是在多语言处理、情感表达和语音生成速度上都实现了突破。



资源下载地址:

最新AI语音大模型,本地一键部署整合包,完美复刻语气音色,支持多角色对话,解压即用,AI语音克隆。 

[原项目GitHub地址]:https://github.com/jpgallegoar/F5-TTS 

整合包聚合链接:https://exmzfs7zve.feishu.cn/docx/FuPxdArRaofVMWxke2tc8IO9nCh?from=from_copylink

夸克网盘链接:https://pan.quark.cn/s/a0d2ebe90488 提取码:nmgV 

百度网盘链接: https://pan.baidu.com/s/1m3G34q9R3IvUII2rsfjzEg?pwd=tfe8 提取码: tfe8




  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生