阿里巴巴的多模态模型Qwen-VL经过升级更新,推出了Qwen-VL-Plus和Qwen-VL-Max版本。这两个版本在多个文本-图像多模态任务上与Gemini Ultra和GPT-4V相当。

image.png

试用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

Qwen-VL-Max在中文问答和中文文本理解任务上超越了GPT-4V和Gemini,同时在图像相关推理能力和识别、提取和分析图像细节上都有显著提升。这两个版本还支持处理高达一百万像素的高清图像以及各种宽高比的图像。

Qwen-VL-Plus针对细节识别和文本识别能力进行了显著升级,支持超高像素分辨率和任意宽高比的图像输入,在广泛的视觉任务上提供了显著的性能提升。

而Qwen-VL-Max则在视觉推理和指令跟随能力方面有所改进,提供了更高级别的视觉感知和认知理解,在更广泛的复杂任务上提供了最优性能。这两个版本甚至能识别Gif图,展现出了强大的识别能力。