“最适合仓储工作场景的3D模型！韦特嘉的Ultirobotics3D做到了”

创业邦·今天 17:25

关注

三维场景理解正在成为机器人从“执行指令”走向“理解环境”的关键分界

最适合仓储工作场景的3D模型！韦特嘉的Ultirobotics3D做到了

摄像头拍到了货架，激光雷达扫出了点云，传感器数据滚滚而来——但这不等于机器人理解了眼前的空间。

识别出"这里有一个料箱"只是第一步。它还需要知道：箱子在哪个位置、从哪个角度能抓到、旁边的货物会不会挡住手臂、货物移动之后这些判断要不要更新。

这些问题合在一起，就是三维空间感知。它是机器人从"能识别"走向"能操作"的分水岭。

在仓储、制造和物流等工业场景中，这一问题更加突出。

实验室里的机器人面对的是静止的物体、稳定的光线、整洁的场景。仓库里不是这样——货物堆叠、相互遮挡，人和设备持续移动，场景每时每刻都在变。静态的三维重建方案在这里会失效。

因此，三维理解不仅是感知算法问题，也是机器人系统能否在真实环境中稳定运行的前提。这正是韦特嘉Ultirobotics自研的3D模型 UltiBrain3D 要解决的问题。

从 NeRF 到 3DGS：三维场景表示方法的演进

过去几年，三维重建领域出现了两个标志性突破。 NeRF 与 3D Gaussian Splatting （3D高斯泼溅，也称3DGS）是两类具有代表性的技术路线。

第一个是 NeRF，2020年提出。它的思路是把整个场景"压进"一个神经网络——喂给它大量不同角度的照片，它就学会了空间中每一个点的颜色和密度。训练完成后，可以从任意新角度渲染出照片级质量的画面。

图2：由连续图片生成的NeRF 3D模型

尽管产出的结果很惊艳，但NeRF有一个致命问题：太慢了。训练一个场景要几个小时，渲染一帧要几十秒。对于需要实时响应的工业机器人而言，单纯追求高保真重建并不足够，系统还必须同时满足速度、稳定性和可部署性要求。

2023 年提出的 3DGS 提供了另一种三维场景表达路径。与 NeRF 不同，3DGS 不用神经网络隐式表示场景，而是用数百万个三维椭球显式描述场景里的每一处细节。GPU非常擅长并行处理这类图形操作，渲染速度因此从几十秒一帧压缩到了实时。

图2：一组离散分布的高斯点（左）若干个高斯点组成的三维世界（右）

质量与速度的平衡，在3DGS这里第一次同时成立。三维重建技术由此开始真正具备进入实时系统的条件。但从技术可行到工业落地，中间还横着几道实际的门槛。

工业场景中的核心瓶颈：动态、实时与系统集成

NeRF 和 3DGS 证明了三维重建在技术上能做到什么。但机器人行业真正需要的，不只是在实验环境下能做到，而是能在真实工厂里稳定跑。

两者之间，横着几道实际的门槛。

场景不会等你重建完。仓库里的货物在移动，工人在走动，机器人自己也在运动。一次性生成的静态三维模型，可能在几秒内就失效。系统必须能够持续感知变化、持续更新空间理解，显然，静态重建在这里不够用。

延迟直接影响成败。三维理解的输出要直接服务于抓取、避障、路径规划。如果感知结果慢半拍，机器人的判断就已经基于一个过时的场景。在高节拍仓储作业里，毫秒级的延迟差异会直接体现在抓取成功率上。

边缘算力是硬约束。实验室里可以用高性能服务器跑算法。机器人本体上跑的是边缘计算芯片，功耗、成本、散热都有限制。能在顶级GPU上跑通的方案，不一定能部署到机器人上。

三维重建不能是孤立模块。路径规划要知道哪里能走，抓取要知道物体的姿态和可接近方向，避障要实时更新动态障碍的位置。三维理解的输出，必须和下游每一个模块深度适配，而不是生成一个好看的三维模型交差。

这才是机器人行业真正需要解决的问题——在动态环境、低延迟、边缘算力、多模块协同这四个条件同时成立的情况下，让空间理解系统长期稳定运行，这不是单一算法的质量突破能够解决的。

因着对行业痛点的深刻理解，UltiBrain3D 应运而生。

UltiBrain3D 面向动态工业场景的实时三维理解系统 @用户975

行业现有方案走的是两条路：要么追求重建质量，用NeRF这类方法把场景压进神经网络，慢但准；要么追求速度，用3DGS等方案做实时渲染，快但在动态工业场景里稳定性不足。两条路都默认场景是相对静止的。

UltiBrain3D从根本上换了一个出发点。其核心目标是将动态环境中的物体运动轨迹、相对姿态变化及场景拓扑关系转化为可操作的实时语义图谱，在机器人控制链路中建立一个持续更新的空间状态表示，使机器人能够在场景变化发生后快速修正判断，形成从环境感知到动作执行的毫秒级闭环。

它以RGBD视频流为核心输入——RGB图像加深度信息，连续、实时地读取场景——而不是处理单帧或一批静态照片。在这个基础上，系统通过流式时序建模持续追踪场景变化：物体在移动，遮挡在发生，机器人自身也在运动，这些动态信息全部被纳入实时计算，而不是被当作噪声滤掉。

解决动态场景只是第一步。UltiBrain3D的另一个核心设计是任务驱动的语义压缩：系统不对整个场景做全局重建，只对发生变化的区域进行局部更新。这个判断是由当前任务需求驱动的——机器人要抓什么、去哪里，决定`了感知资源往哪里集中。当前工程测试口径下，系统可将感知模型更新延迟控制在 50ms 级别，并将规划与动作决策链路延迟控制在 80ms 级别，以满足高节拍工业场景中的实时响应需求。