当前位置:贝登书院>其他类型>大白话聊透人工智能> 一文搞懂世界模型:AI如何“脑补”真实世界?
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

一文搞懂世界模型:AI如何“脑补”真实世界?(3 / 4)

了贡献。atrix-ga 20是业内首个在通用场景上实现实时长序列、交互式生成的世界模型开源方案,参数量仅有18b,能跑在单块gpu上,生成的虚拟环境帧率能达到25fps,用户可以用键盘wasd按键进行实时的自由移动和视角控制,实现持续时长达分钟级的互动。

它彻底摆脱了此前依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。通过少步骤自回归扩散算法实时生成长视频,引入了一个专为实时模拟和交互设计的高效框架,同时应对解决了效率和可控性的挑战,为游戏开发者和玩家提供了全新的可能性,也让更多人能够基于其开源代码进行研究和创新。

(三)腾讯:混元3d世界模型,提升空间理解能力

腾讯混元团队正式开源其hunyuanworld 10世界模型的扩展模型“hunyuanworld-voyager”。根据worldsre排行榜,voyager在当前主流世界模型中平均成绩位列第一。混元世界模型-voyager架构是对混元世界模型10新视角内容的补全,引入了“世界一致视频扩散”与“长距离世界探索”两大核心机制。

从静态场景到可控漫游,再到具备深度信息与空间拓展,voyager补足了混元世界模型在空间连续性上的一块关键能力。它可以从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容,这种“边走边生成”的逻辑,正在成为ai理解空间的另一种可能,为用户带来更加沉浸式的虚拟体验,也在空间理解和生成方面展现出独特的优势。

除了上述大厂,还有许多企业和研究机构也在积极探索世界模型。在自动驾驶领域,不少车企和科技公司都在研究如何将世界模型应用到自动驾驶系统中,提高驾驶的安全性和智能化水平。一些机器人研发团队也在利用世界模型提升机器人的认知和行动能力,使其能够在更复杂的环境中完成任务。学术界也在不断深入研究世界模型的理论和算法,为其发展提供坚实的技术支撑。

五、挑战与展望:世界模型的未来还有哪些难题与机遇?

1 数据覆盖瓶颈:尽管世界模型需要大量的数据来学习世界的规律,但极端场景的数据依旧稀缺。比如在自动驾驶中,车辆失控、罕见天气等情况的数据很难获取。如果训练数据中缺少这些极端场景,模型在遇到类似情况时就可能无法准确“想象”和应对。虽然可以通过仿真来补充数据,但“仿真-到-真实”的差距难以完全消除,模型在真实环境中的表现可能会受到影响。

2 信息表征受限:传感器的物理限制使得模型无法获取真正的全量物理量。例如,摄像头的帧率、视野范围(fov)有限,点云数据稀疏等,这些都会导致模型对世界的感知存在缺失。而且,对于材质、摩擦力、液体形变等隐式属性,模型的建模仍很粗糙,难以准确模拟真实世界的物理现象。

3 训练与部署门槛高:训练世界模型需要大规模无标注但多样化的视频\/传感序列,以及高算力的gpu集群,这对企业和研究机构的硬件资源和技术实力要求很高。虽然现在出现了一些开源工具链,如昆仑万维的atrix-ga 20,但普通团队仍面临难以调通和优化的问题,限制了世界模型的广泛应用和发展。

4 评估指标缺失:目前缺乏公认的“世界模型benchark”,也就是没有统一的评估标准来衡量世界模型的性能。现有的像素级均方误差(se)或潜空间kl散度等指标,并不能直接反映模型生成的世界是否符合物理一致性。这使得模型的迭代方向容易走偏,难以判断模型是否真正在向理解和模拟真实世界的方向发展。

5 实时性挑战:如果要实现高分辨率视频生成式预测,世界模型的帧延迟与内存占用依旧是巨大的问题。在车规级芯片方面,虽然已经有一些进展,但目前刚起步,尚未真正大规模上车,无法满足自动驾驶等对实时性要求极高的应用场景。

6 安全与可解释:世界模型内部的潜在状态对人类来说是不透明的,一旦模型的“脑内想象”与真实物理偏离,就可能出现“自信但错误”的决策,而且很难追溯错误的原因。这在自动驾驶、机器人等涉及安全的领域是非常危险的,需要解决模型的可解释性问题,让人类能够理解模型的决策过程。

1 通用人工智能的关键一步:世界模型被认为是实现通用人工智能(agi)的重要路径之一。随着技术的不断发展和突破,世界模型有望让ai具备真正的常识性理解能力,能够像人类一样思考和行动,实现从感知到认知再到决策的全面智能化,为agi的实现奠定基础。

2 多领域融合创新:世界模型将推动游戏、自动驾驶、机器人、影视、元宇宙等多个领域的融合创新。例如,在元宇宙中,世界模型可以为用户提供更加真实、动态的虚拟环境,实现更加丰富的交互体验;在影视制作中,结合世界模型和虚拟拍摄技术,可以创造出更加震撼的视觉效果;在自动驾驶和机器人领域,世界模型与物联网、5g等技术的融合

上一页 目录 +书签 下一页