多模态GPT-4V来啦

发布日期：2023/9/27 8:13:30 浏览量：

OpenAI连发两则重磅消息，首先ChatGPT可以看、听、说了。

多模态GPT-4V能力大揭秘

物体检测：GPT-4V可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。

文本识别：该模型具有光学字符识别 (OCR) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。

人脸识别：GPT-4V可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。

验证码解决：在解决基于文本和图像的验证码时，GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。

地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力，这证明模型吸收了关于现实世界的知识，但也代表有泄露隐私的风险。

复杂图像：该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。

同时也总结了GPT-4V目前的局限性。

空间关系：模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。

对象重叠：当图像中的对象严重重叠时，GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。

背景/前景：模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

遮挡：当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

细节：模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。

上下文推理：GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。

置信度：模型可能会错误地描述对象关系，与图像内容不符。

同时System Card中也重点声明了“目前在科学研究和医疗用途中性能不可靠”。

近期会给Plus订阅用户和企业客户使用。

参考链接：
[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
[2]https://openai.com/research/gpt-4v-system-card

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生