LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

25.9K 00

LingBot-Depth是什么

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值，能显著提升消费级深度相机的感知精度，在透明杯、反光金属等场景下的抓取成功率从0%提升至50%。

首创「掩码深度建模」：训练时随机遮挡深度值，逼模型用 RGB 纹理、轮廓自监督补全，零硬件改动即可把消费级相机变成“透明物体雷达”。
误差级碾压：NYUv2 室内场景 REL 降 70%，稀疏 SfM 任务 RMSE 降 47%，直接把 PromptDA、PriorDA 等主流方案甩出代际差。
玻璃/镜面杀手：实测对透明储物盒抓取成功率 50%，深度图边缘锐利、无空洞，效果超越 Stereolabs ZED 工业双目。
单目也能打：把 3D 几何先验蒸馏进 ViT 编码器，10 项单目深度基准全面超 DINOv2，当强先验塞进 FoundationStereo 还能让双目匹配训练收敛更快。
时间一致性在线：视频流无需额外时序模块即可输出稳定深度序列，杜绝闪烁与结构跳变，直接省掉后处理滤波。
轻量开源：Apache-2.0 协议，300 M 参数一键 HuggingFace 加载；Gemini 330 系列相机即插即用，算法侧升级就能把旧硬件送进“高端档”。

REL 降幅 70%＋RMSE 降 47%：NYUv2、ETH3D 权威基准双双刷新纪录，室内相对误差和稀疏 SfM 均方根误差均实现代际级碾压，直接超越 PromptDA、PriorDA 等主流方案。
透明/反光杀手：掩码深度建模（MDM）用 RGB 纹理“脑补”缺失几何，透明收纳箱抓取成功率从 0% 飙到 50%，多种反光物体提升 30%–78%，首次让消费级相机“看见”玻璃后的深度。
硬件零升级：算法即插即用，Gemini 330 系列相机无需换芯，深度图完整性、边缘锐度即刻碾压 Stereolabs ZED，把千元级硬件秒变“工业级”。
数据护城河即将开源：300 万 RGB-Depth 对（200 万真实＋100 万合成）全链路放出，社区可继续放大模型上限，形成“数据→模型→硬件”飞轮。

Project website：https://technology.robbyant.com/lingbot-depth
GitHub repository：https://github.com/Robbyant/lingbot-depth
HuggingFace Model Library：https://huggingface.co/robbyant/lingbot-depth
Technical Papers：https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf