Visual ChatGPT--微软重磅推出的开源的AI视觉交互系统

发布日期：2023/3/12 8:55:52 浏览量：

昨天微软官方在Github开源了一个重量级的ChatGPT AI交互应用Visual ChatGPT。该应用短短一天在Github就达到了4000星。

前几天才说这个可能很快有公司会推出，这速度也是可以！

Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像，以及动态对图像进行处理。

该系统的已经发表对应的论文，支持从arxiv下载。

系统架构

Visual ChatGPT架构由用户查询部分（User Query）、交互管理部分（Prompt Manger）、视觉基础模型（Visual Foundation Models，VFM）、调用ChatGpt API和迭代交互部分（Iterative Reasoning），最后是用户输出（Outputs）部分

如图1所示，用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花，然后逐步使其像卡通一样”。

在交互管理器的帮助下，Visual ChatGPT 开始了相关视觉基础模型的执行链。在示例条件下，它首先应用深度估计模型来检测深度信息，然后利用深度到图像模型生成带有深度信息的红色花朵图形，最后利用基于稳定扩散模型的风格迁移VFM来改变这个形象的风格变成了卡通。

在上述管道中，交互管理器作为ChatGPT的调度器，提供视觉格式类型并记录信息转换过程。

最后，当Visual ChatGPT从交互管理器获得“卡通”提示时，它将结束执行管道并显示最终结果。

整个系统流程是

1) 明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式；

2）将不同的视觉信息，例如pngimages，深度图像和mask矩阵，转换为语言格式以帮助ChatGPT理解；

3) 处理不同视觉基础模型的历史、优先级和冲突。

在交互管理器的帮助下，ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈，直到它满足用户的要求或达到结束条件。

VFM

在该项目中总共设计了22个不同的VFM来进行图像数据的处理，它们之间存在内在关联和分工，以便仪器协同交互管理器来完成任务；

安装部署

该系统为方便以Python语言开发，其中依赖torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等基层类库应用。需要python 3.8和coda环境为基础

用coda创建一个新环境

conda create -n visgpt python=3.8

激活该环境

conda activate visgpt

安装依赖组件

pip install -r requirement.txt

用附带脚本下载视觉基础模型

bash download.sh

填写openai账号的用户key值

export OPENAI_API_KEY={Your_Private_Openai_Key}

设置图像保存目录

mkdir ./image

运行系统

python visual_chatgpt.py

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生