“最适合仓储工作场景的3D模型!韦特嘉的Ultirobotics3D做到了”

关注
三维场景理解正在成为机器人从“执行指令”走向“理解环境”的关键分界

最适合仓储工作场景的3D模型!韦特嘉的Ultirobotics3D做到了

摄像头拍到了货架,激光雷达扫出了点云,传感器数据滚滚而来——但这不等于机器人理解了眼前的空间。

识别出"这里有一个料箱"只是第一步。它还需要知道:箱子在哪个位置、从哪个角度能抓到、旁边的货物会不会挡住手臂、货物移动之后这些判断要不要更新。

这些问题合在一起,就是三维空间感知。它是机器人从"能识别"走向"能操作"的分水岭。

在仓储、制造和物流等工业场景中,这一问题更加突出。

实验室里的机器人面对的是静止的物体、稳定的光线、整洁的场景。仓库里不是这样——货物堆叠、相互遮挡,人和设备持续移动,场景每时每刻都在变。静态的三维重建方案在这里会失效。

因此,三维理解不仅是感知算法问题,也是机器人系统能否在真实环境中稳定运行的前提。这正是韦特嘉Ultirobotics自研的3D模型 UltiBrain3D 要解决的问题。


从 NeRF 到 3DGS:三维场景表示方法的演进

过去几年,三维重建领域出现了两个标志性突破。 NeRF 与 3D Gaussian Splatting (3D高斯泼溅,也称3DGS) 是两类具有代表性的技术路线。

第一个是 NeRF,2020年提出。它的思路是把整个场景"压进"一个神经网络——喂给它大量不同角度的照片,它就学会了空间中每一个点的颜色和密度。训练完成后,可以从任意新角度渲染出照片级质量的画面。

图2:由连续图片生成的NeRF 3D模型

尽管产出的结果很惊艳,但NeRF有一个致命问题:太慢了。训练一个场景要几个小时,渲染一帧要几十秒。对于需要实时响应的工业机器人而言,单纯追求高保真重建并不足够,系统还必须同时满足速度、稳定性和可部署性要求。

2023 年提出的 3DGS 提供了另一种三维场景表达路径。与 NeRF 不同,3DGS 不用神经网络隐式表示场景,而是用数百万个三维椭球显式描述场景里的每一处细节。GPU非常擅长并行处理这类图形操作,渲染速度因此从几十秒一帧压缩到了实时。

图2:一组离散分布的高斯点(左) 若干个高斯点组成的三维世界(右)

质量与速度的平衡,在3DGS这里第一次同时成立。三维重建技术由此开始真正具备进入实时系统的条件。但从技术可行到工业落地,中间还横着几道实际的门槛。


工业场景中的核心瓶颈:动态、实时与系统集成

NeRF 和 3DGS 证明了三维重建在技术上能做到什么。但机器人行业真正需要的,不只是在实验环境下能做到,而是能在真实工厂里稳定跑。

两者之间,横着几道实际的门槛。

场景不会等你重建完。仓库里的货物在移动,工人在走动,机器人自己也在运动。一次性生成的静态三维模型,可能在几秒内就失效。系统必须能够持续感知变化、持续更新空间理解,显然,静态重建在这里不够用。

延迟直接影响成败。三维理解的输出要直接服务于抓取、避障、路径规划。如果感知结果慢半拍,机器人的判断就已经基于一个过时的场景。在高节拍仓储作业里,毫秒级的延迟差异会直接体现在抓取成功率上。

边缘算力是硬约束。实验室里可以用高性能服务器跑算法。机器人本体上跑的是边缘计算芯片,功耗、成本、散热都有限制。能在顶级GPU上跑通的方案,不一定能部署到机器人上。

三维重建不能是孤立模块。路径规划要知道哪里能走,抓取要知道物体的姿态和可接近方向,避障要实时更新动态障碍的位置。三维理解的输出,必须和下游每一个模块深度适配,而不是生成一个好看的三维模型交差。

这才是机器人行业真正需要解决的问题——在动态环境、低延迟、边缘算力、多模块协同这四个条件同时成立的情况下,让空间理解系统长期稳定运行,这不是单一算法的质量突破能够解决的。

因着对行业痛点的深刻理解,UltiBrain3D 应运而生。


UltiBrain3D 面向动态工业场景的实时三维理解系统 @用户975

行业现有方案走的是两条路:要么追求重建质量,用NeRF这类方法把场景压进神经网络,慢但准;要么追求速度,用3DGS等方案做实时渲染,快但在动态工业场景里稳定性不足。两条路都默认场景是相对静止的。

UltiBrain3D从根本上换了一个出发点。其核心目标是将动态环境中的物体运动轨迹、相对姿态变化及场景拓扑关系转化为可操作的实时语义图谱,在机器人控制链路中建立一个持续更新的空间状态表示,使机器人能够在场景变化发生后快速修正判断,形成从环境感知到动作执行的毫秒级闭环。

它以RGBD视频流为核心输入——RGB图像加深度信息,连续、实时地读取场景——而不是处理单帧或一批静态照片。在这个基础上,系统通过流式时序建模持续追踪场景变化:物体在移动,遮挡在发生,机器人自身也在运动,这些动态信息全部被纳入实时计算,而不是被当作噪声滤掉。

解决动态场景只是第一步。UltiBrain3D的另一个核心设计是任务驱动的语义压缩:系统不对整个场景做全局重建,只对发生变化的区域进行局部更新。这个判断是由当前任务需求驱动的——机器人要抓什么、去哪里,决定`了感知资源往哪里集中。当前工程测试口径下,系统可将感知模型更新延迟控制在 50ms 级别,并将规划与动作决策链路延迟控制在 80ms 级别,以满足高节拍工业场景中的实时响应需求。

这就引出了UltiBrain3D解决的第三个行业痛点——边缘端轻量化部署。让系统在边缘算力约束下仍然能够实时运转,无需依赖云端。


随技术提升而解决的行业痛点

SKU堆叠识别是仓储自动化里长期没有被彻底解决的问题。货物堆放不规则、箱子之间相互遮挡,传统视觉系统在这种情况下识别率会显著下降。UltiBrain3D通过流式时序建模实时追踪堆叠结构的变化,结合遮挡推理能力,在货物持续移动的状态下维持>95%的空间姿态识别准确率。

料箱位移检测要求系统在连续作业8小时后,仍然能够准确感知货位的微小变化。UltiBrain3D在这个场景下的持续检测偏移控制在2.5cm以内,为后续抓取动作提供稳定的空间基准。

高节拍仓储生产对响应速度的要求最严苛。从环境感知到动作决策的完整闭环延迟控制在80ms以内,这个数字让机器人在高速流水线场景下不成为瓶颈。

除了能够解决过去已出现已出现的困难场景,这个能力还可以让还未出现的未来仓储智能场景逐渐成为可能。

实时稠密重建能力一旦稳定,机器人对环境的理解就从"静态地图"变成了"持续更新的动态物理世界模型"。这意味着几件事变得可能:

机器人可以处理非标准化货物,不再依赖固定货架和标准包装;多台机器人可以共享同一个实时场景理解,协同作业而不互相干扰;系统可以主动发现异常——货物位置偏移、障碍物出现——而不是等到任务失败再报错。


站在感知能力的前沿

三维场景理解正在成为机器人从“执行指令”走向“理解环境”的关键分界。

UltiBrain3D 是 韦特嘉Ultirobotics 围绕这一方向形成的核心技术能力,相对于独立于系统之外的感知模块,它更是贯穿感知、规划与控制链路的空间智能基础。

通过 RGBD 流实时动态感知、任务驱动的三维语义建模和边缘端低延迟部署,UltiBrain3D 使机器人能够在真实工业场景中完成从环境变化识别、动作决策到执行反馈的毫秒级闭环。

这也是我们判断具身智能能否真正落地时最重要的标准之一:不是只在静态环境中识别对象,而是在复杂、动态、连续变化的现场中稳定行动。

来源:韦特嘉
反馈
联系我们
推荐订阅