腾讯混元世界模型 1.5 发布,首次开源业界最系统、最全面的实时世界模型框架
最新 12 月 17 日消息,今日,腾讯混元世界模型 1.5(Tencent HY WorldPlay) 正式发布。官方称,混元世界模型 1.5(WorldPlay)首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路、全环节,并提出了重构记忆力、长上下文蒸馏、基于 3D 的自回归扩散模型强化学习等算法模块。

最新附官方介绍如下:
世界建模的新突破:实时交互、前后一致
混元世界模型 1.5 带来世界建模的全新可能性,用户可以在生成的世界里随意移动探索,离开某个区域后再次返回时,模型能够 " 记住 " 该区域的三维结构,呈现前后一致的场景 —— 这种空间记忆能力标志着模型在三维世界理解上的突破。此外,用户还可以选择将用于交互的 3D 场景导出为可多次使用的 3D 点云。
混元世界模型 1.5 具备三大核心能力:
1、实时的交互生成:通过原创的 Context Forcing 蒸馏方案以及流式推理优化,模型可以按照 24 FPS 的速度生成 720P 的高清视频;
2、长范围的 3D 一致性:通过重构记忆机制(Reconstituted Memory),模型支持分钟级内容的几何一致性生成,可用于构建高质量的 3D 空间模拟器;
3、多样化的交互体验:混元世界模型可广泛适用于不同风格的游戏或者现实场景,以及第一和第三人称视角,也支持实时文本触发事件和视频续写等功能。
业界最系统、最全面的实时世界模型训练体系首次开源
技术上,混元世界模型 1.5 首次开源了业界最系统、最全面的实时世界模型训练体系,涵盖数据、训练、推理部署等全链路、全环节。混元团队在技术报告中公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏的训练细节,并详述模型在控制(control space),记忆(reconstituted memory),蒸馏(context forcing),强化学习后训练几大模块上的思考与原创设计。

混元世界模型 1.5 的核心是一个叫做 WorldPlay 的自回归扩散模型,它采用 Next-Frames-Prediction 的视觉自回归任务进行训练,实现了长范围几何一致性的实时交互式世界建模,破解了业界满足实时性与几何一致性的难题。
该模型依托三大核心创新:双分支动作表征实现精准控制、上下文记忆重构机制保持几何一致性、上下文对齐蒸馏技术增强长视频生成的视觉质量和几何一致性。除此之外,该工作也构建了一套新颖的基于 3D 奖励的强化学习后训练框架来进一步增强生成视频的视觉质量和几何一致性。数据方面,混元团队构建的自动化 3D 场景渲染流程,可以获得大量高质量的真实世界渲染数据,进一步激发核心算法的潜力。混元世界模型 1.5 可支持 24 帧 / 秒的长时流式生成,一致性与泛化能力适用于多样化场景。
腾讯混元团队持续深耕世界模型技术。今年 7 月,腾讯混元团队发布混元 3D 世界模型 1.0,支持文本或单张图片输入生成兼容图形学管线的 3D 场景;10 月,混元团队发布世界模型 1.1,支持多视图或视频一键创造 3D 世界。此次发布的混元世界模型 1.5 进一步带来了世界建模的全新可能性。
世界模型的演进和迭代不仅是技术上的突破,也打开了“AI 生成内容”的想象空间:未来的 AI 不只是生成文本、图像或视频等模态,而是创造实时探索、可交互、空间一致的完整“世界”。
这种全新的内容生成模式,可以应用在多个场景中:在 AI 游戏开发领域,它可以作为智能关卡生成器,根据玩家的文本描述实时创建可探索的游戏世界;在影视制作和虚拟现实(VR)领域,创作者通过简单的文本指令,就可以快速预览和迭代场景设计;在具身智能(Embodied AI)研究领域,混元世界模型 1.5 提供了一个理想的训练和测试平台,研究者可以通过借助这个平台,以更高的效率、更大的规模,去探索具身智能体的感知、决策、规划和长期交互能力。
在线体验网站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
Github 链接:https://github.com/Tencent-Hunyuan/HY-WorldPlay
Hugging Face 链接:https://huggingface.co/tencent/HY-WorldPlay
项目主页:https://3d-models.hunyuan.tencent.com/world/
《腾讯混元世界模型 1.5 发布,首次开源业界最系统、最全面的实时世界模型框架》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
保时捷设计推 C-Seed 折叠电视,售价超三台 911
保时捷设计工作室联合研发的C-Seed折叠电视亮相,它更像一件科幻雕塑艺术品。闲置时如未来柜体,一键启动后屏幕自动旋转,五块Micro LED面板依次展开,支持室内外两用。但价格令人咋舌:约40万美元,超三台保时捷911 Carrera总价。#天价电视# #保时捷设计#... -
三星高管:不追噱头,专注打造“真正有用且不唐突”的 AI
三星欧洲区CEO Simon Sung表示,其AI战略核心是打造“真正有用且不唐突”的人工智能,聚焦日常实用价值而非新奇噱头。三星高斯大模型并未像ChatGPT那样独立推出,而是以Galaxy AI为核心深度集成于手机,并布局于家电等多条产品线。公司内部正推动AI能力渗透各部门,构建统一的智能环境。#三星AI# #GalaxyAI#... -
英伟达黄仁勋谈 AI 对职场影响:只替你干杂活,岗位核心还得靠人
英伟达CEO黄仁勋在播客中分享了对AI与就业的见解:AI自动化的是工作中的具体任务,而非岗位的核心价值。他以放射科为例,尽管AI已能读取影像,但放射科医生人数和收入却创下新高,因为其核心价值在于诊断与治疗决策。这一逻辑同样适用于律师、软件工程师等职业。#AI与就业# #黄仁勋谈AI#... -
谷歌重申暂无在 Gemini 中投放广告计划,聚焦搜索广告
谷歌全球广告副总裁丹·泰勒表示,目前没有在Gemini应用中投放广告的计划,广告团队正将重心放在AI搜索广告上。他指出,AI助手与搜索定位不同,商业化需谨慎,过早插入广告可能引发用户反感。目前谷歌AI概览月活已超20亿,广告点击率与传统搜索持平。#谷歌Gemini##AI广告商业化#... -
波士顿动力 CEO:Atlas 人形机器人从零件分拣起步,5-10 年或进入家庭
波士顿动力CEO透露,其全电动人形机器人阿特拉斯计划2028年投入工厂应用,将从汽车零部件分拣等简单任务起步。机器人面部设计灵感源自皮克斯小台灯,旨在传递友好信号。CEO认为机器人将创造新岗位,与人类形成共生关系,而非简单取代。#人形机器人##波士顿动力#...

















