InternVL3.5 - 上海AI实验室开源的多模态大模型

Recursos mais recentes de IAPublicado há 10 horas Círculo de compartilhamento de IA

InternVL3.5是什么

InternVL3.5（书生·万象3.5）是上海人工智能实验室开源的多模态大模型，模型在通用能力、推理能力和部署效率上全面升级，提供从10亿到2410亿参数的九种尺寸版本，覆盖不同资源需求场景，包含稠密模型和专家混合模型（MoE），是首个支持GPT-OSS语言模型基座的开源多模态大模型。InternVL3.5 采用级联式强化学习（Cascade RL）框架，通过“离线预热-在线精调”两阶段流程，显著提升推理能力。强化了 GUI 智能体、具身空间推理和矢量图形处理等智能体核心能力。例如，在 ScreenSpot GUI 定位任务中，模型以92.9分超越主流开源模型。

InternVL3.5的功能特色

强大的多模态感知能力：能理解和处理图像、视频等多种视觉信息，生成相关的文本描述，适用于内容创作、智能客服等领域。
卓越的多模态推理性能：在多学科推理基准测试中表现优异，能处理复杂的多模态推理任务，如数学物理题解、逻辑推理等，适用于教育、科研等场景。
高效的文本处理能力：在文本推理、问答等自然语言处理任务中表现出色，能提供高质量的文本生成和分析，适用于智能写作、文本分析等应用。
先进的 GUI 智能体功能：能跨平台自动化操作界面元素，实现文件恢复、PDF 导出、邮件发送等任务，提高办公自动化水平。
出色的具身空间推理能力：支持物理空间关系理解与导航，可应用于机器人导航、智能家居控制等具身智能场景，提升设备的自主性和智能性。
高效的矢量图形处理能力：能根据自然语言指令生成或编辑矢量图形，适用于网页设计、工程图纸解析等专业场景，提高设计和解析效率。
灵活的模型部署选项：提供从 10 亿到 2410 亿参数的多种模型尺寸，满足不同资源需求和应用场景，支持稠密模型和专家混合模型（MoE）。

InternVL3.5的核心优势

级联式强化学习框架：通过“离线预热-在线精调”两阶段流程，结合混合偏好优化（MPO）和 GSPO 算法，显著提升模型的推理能力和训练稳定性。
动态视觉分辨率路由：为每个图像切片动态选择压缩率，在保留关键信息的同时减少视觉 tokens，显著提升推理速度，几乎不损失性能。
解耦部署架构：将视觉编码器与语言模型分置于不同 GPU，结合 BF16 精度特征传输与异步流水线设计，大幅提升吞吐量，解决传统串行部署的资源阻塞问题。
全量级模型优化：提供从 10 亿到 2410 亿参数的多种模型尺寸，覆盖不同资源需求场景，支持稠密模型和专家混合模型（MoE），满足多样化应用需求。
Excelente raciocínio multimodal：在多学科推理基准 MMMU 中获得开源模型最高分，显著超越现有开源模型，具备强大的数学和逻辑推理能力。
高效的部署效率：在高分辨率输入下，模型的响应速度大幅提升，38B 模型的吞吐量提升达 4.05 倍，显著降低实际部署成本。

InternVL3.5的官网是什么

Repositório do Github：https://github.com/OpenGVLab/InternVL
HuggingFace模型地址：https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
Relatório técnico：https://huggingface.co/papers/2508.18265
Endereço de experiência on-line:: https://chat.intern-ai.org.cn/

InternVL3.5的适用人群

Pesquisadores de inteligência artificial：模型为研究人员提供了强大的多模态研究工具，可用于探索新的算法、模型架构和应用场景，推动多模态 AI 的学术研究。
desenvolvedor de software：开发者可以用开源代码和灵活的部署选项，将模型集成到各种软件应用中，开发出具有智能交互功能的产品和服务。
Educadores e alunos：在教育领域，模型的多模态推理和文本处理能力可用于开发智能辅导工具，帮助学生更好地理解和解决复杂的学科问题。
criador de conteúdo：内容创作者可以用多模态感知和文本生成能力，快速生成创意内容，如图像描述、视频字幕、文章等，提高创作效率。
办公自动化用户：通过 GUI 智能体功能，用户可以实现跨平台的自动化办公操作，提高工作效率，减少重复性工作。