微立顶科技

新闻资讯

创新 服务 价值

  上新!开源TTS+免费TTS,低延迟高品质

发布日期:2025/7/5 8:29:26      浏览量:

上新!一款新的开源TTS+一款新的免费TTS,低延迟高品质


开源Kyutai TTS:
官网地址:https://kyutai.org/next/tts


介绍:
专门为实时场景打造的文本转语音神器,超低延迟、高保真声音和流式处理能力方面非常强。现在,这个 1.6B 参数的模型 (kyutai/tts-1.6b-en_fr) 开源了,供大家免费使用。它支持英语和法语,特别适合需要低延迟的实时场景,比如直播、语音助手或互动应用。

优势:
高准确度:通过“字错误率”(WER)测试,它在英语(2.82%)和法语(3.29%)的语音生成中错误极少,远超其他竞品,比如 ElevenLabs 或 Chatterbox 
声音逼真:它能模仿目标声音的语调、语气和录音质感,相似度高达 77.1%(英语)和 78.7%(法语)
超低延迟:从接收文字到生成语音只需 220 毫秒(0.22 秒),即使多人同时使用(比如 32 个请求一起处理),延迟也只有 350 毫秒。这意味着它反应超快,特别适合实时对话 
支持长文本:可以生成超长音频,质量依然稳定

技术亮点:
文本流式处理:传统 TTS 模型需要先知道完整文本才能开始生成语音,而 Kyutai TTS 可以一边接收文字一边生成语音。这对实时场景特别有用,比如当 AI 还在生成长文本时,语音已经开始播放了 
 延迟流建模(Delayed Streams Modeling):这是 Kyutai 团队独创的技术,简单来说,他们把文字和语音看作两条“平行”的流,语音稍微延迟一点(几帧),这样模型就能一边处理文字一边生成语音。这种设计还让语音和文字的时间对齐更精准,比如可以生成字幕或处理用户打断对话的场景
语音克隆:只需 10 秒的音频样本,模型就能模仿这个声音的风格。为保护隐私,他们不直接公开语音嵌入模型,而是提供了一个基于公开数据集(如 Expresso、VCTK)的语音库,还鼓励用户匿名捐赠自己的声音来丰富库 · 字级时间戳:生成语音的同时,模型还能告诉你每个单词的具体时间点。这功能很实用,比如可以实时生成字幕,或者在用户打断 AI 时,精准知道停在哪里,方便后续继续。



免费 Cartesia

官网
https://cartesia.ai/languages/chinese


它专门整了一个页面说自己是最快的 TTS 模型对中文支持流畅。


Cartesia - 免费试用
亮点  
•支持中文文本极速转语音,发音地道,覆盖多种口音和场景 
•多种高质量原生中文声音可选,适合客服、广告、教育等多种应用 
•真实还原语气、情感,能准确朗读数字、订单号等关键信息 
•超低延迟,最快 40ms 输出音频,适合实时对话和高并发场景  
•企业级安全合规,支持云端、本地和端侧多种部署方式
•免费试用,API 接入简单,支持多语言拓展



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生