微立顶科技

新闻资讯

创新 服务 价值

  基于UE5的智能数字人系统

发布日期:2025/9/5 7:40:34      浏览量:

GMTalker 是由光明实验室媒体智能团队打造的一款专为虚幻引擎 5.3 设计的高沉浸式智能数字人系统。系统集成了语音识别、语音合成、自然语言理解、嘴型动画驱动与3D渲染能力,具备完整的本地部署支持,适用于科研、教育及虚拟人应用开发场景。通过完善的后端、前端和算法设计,GMTalker 构建了一个完整的商业化数字人 Pipeline。

  • 前端呈现(UE5 客户端)
  • 后端服务(AI 数字人后端系统)
  • AI 核心服务能力(模型 + API)
  • 环境管理与部署层(Conda + 本地运行)
  • 支持语音输入,能听懂你说的话,并快速转成文字
  • 支持说错可以打断,让对话更像和真人聊天一样
  • 支持把文字变成自然的语音,语气真实、语调自然
  • 支持用 AI 回答各种问题,还能记住上下文接着聊
  • 支持连接本地知识库,问它专业问题也能答上来
  • 支持根据语音驱动嘴型,和说话内容同步张嘴
  • 支持配合情绪做表情动作,不再死板
  • 支持 UE5 渲染,画面超真实

  • 环境要求

    • Python:3.11+
    • 操作系统:Windows 10/11 (推荐)
    • 内存:8GB+ RAM
    • Unreal Engine:5.3.2
    • Conda(推荐):Anaconda 或 Miniconda
    • GPU支持:需2GB以上显存(推荐支持CUDA的NVIDIA GPU)


    快速启动

    1. 克隆项目

      git clone https://github.com/feima09/GMTalker.git

    2. 一键启动

      # 使用批处理文件启动(推荐)webui.bat


       # 或使用PowerShell脚本./webui.ps1

    3. 访问服务

      • 主服务:http://127.0.0.1:5002
      • Web配置界面:http://127.0.0.1:7860

主要配置文件

  • configs/config.yaml - 主配置文件
  • configs/gpt/ - GPT模型配置预设
  • configs/tts/ - TTS服务配置预设
  • configs/hotword.txt - 语音唤醒词配置
  • configs/prompt.txt - 系统提示词

REST API

POST /v1/chat/completions

创建新的聊天对话,获取AI回复并播放语音。

请求体:

  • ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  
  • "messages": [    {     
  •  "content": "用户输入文本"  
  •   }  ]}


响应:

  • 格式: text/event-stream
  • 内容: AI回复的流式文本

GET /v1/chat/new

创建新的聊天会话。

SocketIO API

连接地址

ounter(linews://127.0.0.1:5002/socket.io

namespace: /ue

事件类型

  • question - 发送用户问题
  • aniplay - 动画播放控制
  • connect/disconnect - 连接状态

GPT服务 (services/gpt/)

  • OpenAI兼容: 支持OpenAI API格式
  • 多模型: 支持OpenAI、通义千问等
  • 流式响应: 实时生成文本流
  • RAG支持: 可配置检索增强生成

TTS服务 (services/tts/)

  • MeloTTS: 高质量中文语音合成
  • 异步处理: 并行处理多个TTS请求
  • 微调推理:详细微调+推理可以访问MeloTTS
  • Weight:如需本项目音色权重可以联系贡献者

ASR服务 (services/asr/)

  • FunASR集成: 基于阿里FunASR的语音识别
  • 唤醒词检测: 支持自定义唤醒词
  • 实时识别: 连续语音识别模式

播放器服务 (services/player/)

  • 本地播放: 基于pygame的本地音频播放
  • 唇形同步: 实现语音与面部动画同步
  • Audio2Face: Audio2Face由于需要通过VPN下载人物模型并且项目首次加载缓慢,版本选择2023.1.1。
  • ovrlipsync: ovrlipsync轻量型嘴型驱动算法时延低但效果稍逊


ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": [    {      "content": "用户输入文本"    }  ]}


  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生