InternSVG - 上海AI实验室联合多所高校推出的统一矢量图形智能系统

Последние ресурсы по искусственному интеллектуОпубликовано 4 часа назад Круг обмена ИИ

InternSVG是什么

InternSVG 是上海AI实验室联合上海交通大学、南京大学等机构推出的统一矢量图形智能系统，系统基于多模态大语言模型（MLLM），首次实现了SVG理解、编辑、生成三大任务的统一建模，包含1600万样本的SAgoge数据集、SArena评测基准及InternSVG核心模型，在语义理解准确率高达99.7%，显著超越GPT-4o和Claude-4-Sonnet等商业模型。

InternSVG的功能特色：

统一任务建模：单模型同时支持SVG代码理解（问答/描述）、图形编辑（颜色/样式/几何变换）和文生图/图生图生成。
专用Token体系：设计55种SVG标签Token和42种属性Token，结合-128至128整数Token及小数Token，精准表示SVG语法结构，显著压缩序列长度。
双模态处理：支持静态图形（图标、插图、化学结构）和动态动画（SMIL动画、视频转动画）的生成与理解。
代码高效生成：生成的SVG图标平均仅需约1000字符，远低于传统方法的万级字符量，优化存储与渲染性能。
正向迁移学习：统一训练使理解、编辑、生成任务相互促进，实现"1+1+1>3"的协同效应。

InternSVG的核心优势

首创统一任务框架：首个将SVG理解、编辑、生成三大任务统一在单一MLLM模型中的系统，实现任务间的正向迁移，达到"1+1+1>3"的协同效果，无需为不同任务切换多个专用模型。
专用SVG Token体系：设计55种SVG标签Token和42种属性Token，结合整数/小数Token精准表示SVG语法结构，相比通用文本编码显著压缩序列长度，提升模型对矢量语法的解析能力。
超大规模训练数据：构建1600万样本的SAgoge数据集，涵盖图标、插图、化学结构、动画四大领域，是迄今规模最大的SVG多模态数据集，为模型泛化能力提供数据支撑。
性能超越商业模型：在SVG理解任务中准确率高达99.7%，显著优于GPT-4o、Claude-4-Sonnet等商业多模态大模型，在编辑和生成任务上同样保持领先。
静态与动态双支持：支持静态矢量图形（图标、插图、化学结构），首创支持SMIL动画生成、视频转SVG动画等动态内容创作，覆盖完整SVG应用场景。
极致代码压缩率：生成的SVG图标平均仅需约1000字符，相比传统矢量化管线产生的万级字符量，存储效率提升10倍以上，直接降低网络传输和渲染开销。

InternSVG官网是什么

Репозиторий GitHub：https://github.com/hmwang2002/InternSVG
Библиотека моделей HuggingFace：https://huggingface.co/InternSVG/InternSVG-8B
Технический документ arXiv：https://arxiv.org/pdf/2510.11341

使用InternSVG的操作步骤

Подготовка к защите окружающей среды：通过GitHub项目页获取代码，配置InternViT-300M视觉编码器与Qwen2.5-7B语言模型基础环境。
Подготовка данных：使用SAgoge数据集进行训练，或加载预训练权重（8B参数版本），支持图标、插图、化学分子、动画四类数据格式。
任务调用：通过API或代码输入SVG代码/文本描述/光栅图像，模型直接输出SVG代码字符串或回答。
推理应用：使用SArena基准进行性能评估，或通过Hugging Face等平台加载模型进行自定义SVG任务推理。