InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

最新AI资源16小时前发布 AI分享圈
1.1K 00
堆友AI

InternVLA·N1是什么

InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字场景资产和海量多模态语料,实现了低成本高效率的训练过程。在多个主流基准测试中,InternVLA·N1表现出色,得分达到国际领先水平,展现了强大的零样本泛化能力。能实现在真实场景中的“跨楼宇长距离”听令行走和密集障碍物间的敏捷避障。

InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA·N1的功能特色

  • 双系统协同导航:结合系统2的长程空间推理和系统1的高频避障能力,实现高效且稳定的导航。
  • 纯合成数据训练:仅依赖合成数据完成训练,大幅降低数据采集成本,同时保持优异性能。
  • 零样本泛化能力:无需额外真实场景数据,即可在新环境中快速适应并准确执行导航任务。
  • 高频响应与敏捷避障:系统1能以60Hz的频率响应环境变化,确保在复杂场景中灵活避障。
  • 多模态交互:支持语言指令输入和视觉环境感知,实现自然流畅的人机交互。
  • 跨场景通用性:适用于多种复杂场景,如室内、室外、楼宇间等,具有广泛的适用性。
  • 开源与可扩展性:提供开源代码和模型,方便开发者进行二次开发和应用拓展。

InternVLA·N1的核心优势

  • 高效导航能力:通过双系统协同工作,实现长程规划与高频避障的有机结合,显著提升导航效率和稳定性。
  • 数据驱动的低成本训练:完全基于合成数据进行训练,无需大量真实数据采集,大幅降低了训练成本和时间。
  • 强大的泛化能力:即使仅使用合成数据训练,也能在真实环境中表现出色,具有很强的零样本泛化能力。
  • 高频响应与敏捷避障:系统1以60Hz的频率响应环境变化,确保在复杂场景中灵活避障,适应动态环境。
  • 多模态交互支持:支持语言指令输入和视觉环境感知,实现自然流畅的人机交互,提升用户体验。
  • 广泛的适用性:适用于多种复杂场景,如室内、室外、楼宇间等,具有很强的通用性。

InternVLA·N1官网是什么

  • 项目官网:https://internrobotics.github.io/internvla-n1.github.io/
  • GitHub仓库:https://github.com/InternRobotics/InternNav
  • Hugging Face模型库:https://huggingface.co/InternRobotics/InternVLA-N1
  • 技术论文:https://internrobotics.github.io/internvla-n1.github.io/static/pdfs/InternVLA_N1.pdf

InternVLA·N1的适用人群

  • 人工智能研究人员:对导航大模型感兴趣,希望研究和改进导航算法的研究人员。
  • 机器人工程师:开发服务机器人、物流机器人等需要导航功能的工程师。
  • 自动驾驶开发者:从事自动驾驶技术研发,需要高效路径规划和避障功能的开发者。
  • 虚拟现实/增强现实开发者:在VR/AR应用中需要实现自然交互和导航功能的开发者。
  • 智能安防从业者:在智能安防领域需要实现智能巡逻和异常响应的从业者。
  • 工业自动化工程师:在工业环境中需要实现自动化设备导航和操作的工程师。
© 版权声明

Related posts

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...