微立顶科技

新闻资讯

创新 服务 价值

  3款开源构建基于语音的LLM应用

发布日期:2024/9/4 12:23:37      浏览量:

1. 一款可本地部署的AI语音工具箱:Easy-Voice-Toolkit 

github:

https://github.com/Spr-Aachen/Easy-Voice-Toolkit

一款可本地部署的AI语音工具箱:Easy-Voice-Toolkit 

可以用于制作语音助手、语音识别、转换声音等 

包含:
1、音频处理:提供音频文件的自动化处理工具

2、语音识别:识别音频中的语音内容

3、语音转录:将语音转换为文本

4、数据集创建:支持SRT格式转换和WAV文件分割 

5、模型训练:训练语音模型 

6、语音转换:将一种语音转换为另一种语音

Easy-Voice-Toolkit提供了一套完整的语音处理流程,可以根据需要选择使用,也可以按顺序使用,将原始音频文件转换为语音模型 


2.  分分钟构建基于语音的 LLM 应用 vocodehq

https://github.com/vocodedev/vocode-core


使用 Vocode 可以构建与 LLM 的实时流式对话,并将它们部署到电话通话、Zoom 会议等场景中,还可以构建个人助理或类似语音象棋的应用。主要特性  使用系统音频启动对话   设置一个由基于 LLM Agent 响应的电话号码   从您的电话号码发起由基于 LLM Agent 管理的电话呼叫  拨入 Zoom 通话  在 Langchain Agent中使用向真实电话号码的外呼功能 开箱即用的集成: - 语音转义服务:AssemblyAI、Deepgram、 Gladia、Google Cloud、 Microsoft Azure、RevAI、Whisper - 语音合成服务:http://Rime.ai、Microsoft Azure、Google Cloud、http://Play.ht、Eleven Labs、Cartesia、Coqui (OSS)、gTTS、StreamElements、Bark、AWS Polly 


3. 实时对话能力的多模态模型:Mini-Omni ,支持端到端的语音输入、输出

github:https://github.com/gpt-omni/mini-omni

Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o 

特点: 

1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型

2、边思考边说话: 能够同时生成文本和音频

3、流式音频输出: 支持流式音频输出

4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中,为其他模型赋能 



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生