首页 > 互联网>超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

快科技互联网2025-11-26 15:07:55

快科技11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名，超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型...

快科技11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名，超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。

SpatialBench榜单显示，Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分，领先于Gemini 3.0 Pro Preview（9.6）、GPT-5.1（7.5）、Claude Sonnet 4.5等海外顶尖模型。

然而，AI大模型的整体表现距离人类仍有差距，人类基准线约为80分左右，可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务，目前大模型还无法完全自动化完成此类工作。

据悉，Qwen2.5-VL于2024年开源，Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。

Qwen3-VL在视觉感知和多模态推理方面实现重大突破，在32项核心能力测评中超过Gemini2.5-Pro和GPT-5，不但可调用抠图、搜索等工具完成“带图推理”，也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

同时，Qwen3-VL专门增强了3D检测能力，可以更好地感知空间，基于Qwen3-VL，机器人更好地判断物体方位、视角变化和遮挡关系，实现远处苹果的精准抓取。

目前，Qwen3-VL已开源不同版本，包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型，每个模型都有指令版和推理版两款，是当下最受企业和开发者欢迎的开源视觉理解模型。同时，Qwen3-VL模型也已上线千问APP，用户可免费体验。

据了解，SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单，主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。

SpatialBench不仅测试模型已知的知识，还测试模型在二维和三维空间中“感知”和操控抽象概念的能力，这对具身智能的落地尤为关键。

《超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军》转载自互联网，如有侵权，联系我们删除，QQ：369-8522。

本文网址：https://keji.jxzy.wang/2025/11/636.html

找钢网集团总部齐聚BATJ 共议AI+传统产业应用前景

1月16日，由中国电子商会人工智能专业委员会主办、找钢网集团联合主办的“智赋百业·慧入千行”——首届“AI+传统产业”实践应用发展论坛在上海举行。来自...

互联网 2026-01-19 1
Intel华丽回归！2026年开年股价已上涨31%

快科技1月19日新消息，曾经深陷低谷、被认为错过AI初期浪潮的半导体巨头Intel，不仅在2025年实现了股价的三位数增长，更在2026年初继续保持强劲势头。回望过去一年，2025年初Intel股价一度跌至...

互联网 2026-01-19 1
5名骑手用钢管将手指砸骨折骗保超32万涉嫌诈骗被判刑

1月19日消息，据检察日报正义网报道，近期，一起由外卖骑手精心策划的保险诈骗案在成都宣判，骑手张某曾因送餐受伤获赔后，组织团伙骗保，通过故意将手指砸至骨折，累计作案8起，骗取3家保险公司...

互联网 2026-01-19 1
北方冬天的奇幻一幕！40℃温差让牛棚秒变凌霄宝殿

快科技1月19日消息，随着四九开场，一场寒潮来袭北方，大部分地区经历冷暖逆转。近日，一位网友分享了北方冬天的奇幻一幕，引发网友热议。在内蒙古锡林郭勒，40℃温差让牛棚秒变“凌霄...

互联网 2026-01-19 1
西贝回应羊肉1年集中采购1次：8-10月份是羔羊风味巅峰

快科技1月19日消息，最近西贝因为创始人贾国龙的接连发声重获关注，在冷冻西兰花等问题之外，还首次正面回应了羊肉1年集中采购1次的话题。西贝表示，这并非出于成本考量，而是尊重草原的自然规...

互联网 2026-01-19 1
分屏交互决策更高效！蜻蜓点金深度适配鸿蒙折叠电脑移动端体验焕新专业投资如影随行

金融市场瞬息万变，对于投资者而言，他们对“专业”工具的需求，从来不局限于“功能”本身，而是希望在任何时间、场景下，都能以最便捷的方式实时获取行情动态、准确做出投...

互联网 2026-01-19 1