2026/04/15

详解 World Labs Spark 2.0:AI 世界模型的交付层

详解 World Labs Spark 2.0:LoD 流式传输、.RAD 文件和 GPU 分页技术如何让 AI 世界模型在 Web 端实现可视化、交互与共享。

生成 3D 世界已不再是难题,如何将其交付给真实用户才是真正的挑战。

这正是 World Labs Spark 2.0 的重要意义所在。它并非又一个世界模型,也不是从零开始凭空生成 3D 场景的系统。它是一个交付层,让大型 3D 高斯泼溅(3D Gaussian Splatting)世界在开放网络上具备了实用性,甚至能让那些原本无法承受完整场景渲染压力的手机和 VR 设备也能流畅运行。

换言之:Spark 2.0 是 AI 世界模型的“交付层”。世界构建系统负责生成或组合场景,而 Spark 2.0 则负责将这些场景转化为人们只需一个链接即可打开、探索和分享的内容,彻底摆脱了对高性能工作站的依赖。

展示可在 Web 端流式运行 3DGS 世界的 World Labs Spark 2.0 主视觉

World Labs 官方 Spark 2.0 主视觉,展示可在 Web 端流式交付的 3DGS 世界。

Spark 2.0 究竟是什么

Spark 2.0 是一款专为 Web 打造的开源 3D 高斯泼溅渲染器。World Labs 基于 THREE.js 和 WebGL2 对其进行了设计,使其能够在桌面端、移动端以及 XR 设备的普通浏览器中直接运行。

它的任务在理论上很简单,但在实践中却极具挑战:接收超大型 3DGS 场景,并对其进行极其流畅的渲染,使其在受控的演示环境之外也能具备真正的可用性。

厘清这一点非常重要,因为 Spark 2.0 很容易被误解。它与 Marble 或生成式世界模型完全不同。Spark 2.0 并不负责“创造”世界;它的作用是在世界生成之后,对其进行打包、流式传输和渲染。

这也是为什么此次发布的影响力远超图形工程领域。如果 AI 系统未来要生成更庞大、更具探索性的空间,就必须有人来解决交付的“最后一公里”问题。

为什么这对 AI 世界模型至关重要

Spark 2.0 发布带来的最重要启示,不仅仅是 Web 渲染变得更好了,而是整个世界模型的技术栈开始变得更加完整。

在实际应用中,这个技术栈现在看起来更像是这样:

  1. 生成或捕捉一个 3D 世界。
  2. 将该世界扩展或组合成更大的场景。
  3. 为当前设备流式传输并渲染合适级别的细节。
  4. 将结果作为浏览器原生体验进行分享。

第四步正是许多世界模型叙事仍然难以落地的环节。一个生成的世界在研究视频中可能看起来令人惊艳,但如果它无法在不严重损失质量或不增加设置门槛的情况下交付给普通设备,那它就仍然只是一个实验室产物,而不是一个真正的产品形态。

Spark 2.0 直接填补了这一空白。它让“如何交付这个世界?”的答案变得更加清晰。

支撑 Spark 2.0 运转的三大核心技术

World Labs 的技术文章和相关 Spark 文档指出了 Spark 2.0 背后的三大核心理念。单看其中任何一个,都算不上什么魔法。其真正的创新之处在于,将它们组合成了一个“浏览器优先”的交付系统,专门用于处理超大型 3DGS 场景。

1. 连续 LoD 将设备性能开销控制在预算内

Spark 2.0 并不试图一次性渲染场景中的每一个 splat。它构建了一棵连续的细节层次(LoD)树,并挑选出最匹配当前视角的 splat 子集。

这一点至关重要,因为高质量的 3DGS 世界动辄包含数千万个 splat,而消费级设备在保持交互式帧率的前提下,只能处理其中极小的一部分。Spark 解决这一落差的方法是:将活跃的 splat 数量控制在设备可承受的预算范围内,并在最关键的区域提升细节精度。

对于构建者来说,核心理念很简单:场景可以非常庞大,但设备只需为当前需要的细节买单。

World Labs 展示 Spark 2.0 连续 LoD splat tree 的示意图

World Labs 的连续 LoD splat tree 示意图,展示 Spark 2.0 如何将超大 3DGS 场景控制在设备预算之内。

2. .RAD 格式将 3DGS 转化为可流式传输的媒介

标准的 3DGS 文件在浏览器交付时显得十分笨重。未压缩的格式体积过大,而压缩格式通常需要下载完整文件后,场景才能正常使用。

Spark 2.0 引入了 .RAD 格式来解决这一问题。它不再将虚拟世界视为必须一次性加载完毕的庞然大物,而是将场景拆分为可流式传输的数据块。系统会首先呈现一个粗略的版本,随着浏览者的移动,更多细节才会陆续加载。

这也是为什么此次发布不仅是一次简单的渲染器升级,更具有重大意义的原因之一。它重新定义了 3DGS:不再是需要费力下载的沉重文件,而是一种可以渐进式交付的空间媒介。

3. GPU 分页让“小设备运行大世界”成为可能

即使有了流式传输,移动端 GPU 和浏览器的内存限制依然是一道硬性天花板。Spark 2.0 通过在 GPU 上引入类似页表(page-table)的内存系统来解决这一问题。

它不再将整个世界常驻于内存中,而是维护一个固定大小的内存池,并根据浏览者实际探索的区域,动态地换入和换出数据块。这虽然不能带来无限的性能,但却提供了一条更加切实可行的路径,让基于浏览器的虚拟世界能够突破设备常规的承受极限,呈现出更为宏大的规模。

这正是“交付层”这一概念最能发挥价值的地方。Spark 2.0 并没有承诺硬件限制会凭空消失,它承诺的是:虚拟世界的交付机制将变得足够自适应,从而能够在这些限制之下流畅运行。

Spark 2.0 为构建者带来的改变

对于开发者而言,实际的改变不仅在于视觉质量,更在于分发。

在此类工具出现之前,大型 3DGS 场景通常表现得像是一种专业资产。你可以在强大的硬件上检查它,发布它的视频,或者在受限的查看器中展示它,但要将其转化为广泛的 Web 体验却困难得多。

Spark 2.0 让几个更具野心的工作流变得切实可行:

  • 原生 Web 3D 世界,可通过 URL 直接打开,而无需笨重的客户端
  • 在同一空间内由多个 splat 对象组成的复合场景
  • 基于浏览器的空间叙事、虚拟导览和互动艺术
  • 可与真实用户分享的世界模型演示,而不再局限于内部团队

这对于构建者的灵活性也至关重要。Spark 的可编程着色器管线及相关的面向 XR 的工具意味着该项目不仅限于被动观看。它指向了一种全新的 Web 体验:在其中,splat 世界可以被重新打光、风格化、添加动画,并以更具互动性的形式进行探索。

这也是为什么此次发布契合 World Labs 更宏大的愿景。Marble 更多地处理管线中“生成与组合”的部分,而 Spark 2.0 则更多地负责“交付与探索”的部分。

Spark 2.0 尚未解决的问题

如果从炒作的角度来看,可能会说 Spark 2.0 让世界模型的交付变得毫不费力。但这并不是正确的解读。

目前仍然存在一些现实的限制:

  • 缓慢的网络仍会导致粗糙的初始加载和肉眼可见的细节细化过程
  • 团队仍然需要资产准备管线,包括将其转换为 .RAD 格式
  • 体验仍然依赖于 WebGL2 时代的浏览器支持
  • Spark 2.0 解决的是渲染和交付问题,而非世界生成本身的质量

最后一点尤为重要。Spark 2.0 是一项交付上的突破,但它不能替代强大的世界模型、优质的采集数据或周密的场景管线。

WMHub 读者应该如何看待它

如果你从事 AI 3D 或世界模型工作流,Spark 2.0 值得你关注,原因很具体:它让技术栈的下游部分更具产品形态。

在更广泛的 AI 讨论中,人们往往过度关注生成质量,而忽视了交付机制。但在实际产品中,交付本身就是能力的一部分。一个只能在受控演示中运行的世界,其价值远不如一个普通用户可以打开、导航和分享的世界。

这也是我们在 WMHub 上所采用的视角。创建步骤和交付步骤是不同的工作。如果你正在探索资产生成、场景构建,或是文本到 3D(text-to-3D)和图像到 3D(image-to-3D)工作流,下一步最适合访问的是 AI 3D 工作流中心。如果你正在评估世界模型领域的发展方向,Spark 2.0 释放了一个强烈的信号:原生浏览器交付正在成为该领域竞争优势的一部分。

总结

World Labs Spark 2.0 之所以重要,是因为它回答了一个产品问题,而不仅仅是一个渲染问题。

这个问题不是“AI 能否生成一个世界?”,而是“这个世界能否以一种仍然具有互动性、高保真度且易于分享的方式,交付到普通设备上?”

Spark 2.0 是近期对该问题最清晰的解答之一。它并没有取代世界模型,而是让它们更容易被交付。

在 WMHub 上探索 AI 3D 工作流

参考资料