PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

24.1K 00

PaperBanana是什么

PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架，专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作（检索、规划、造型、渲染和批评），实现从文本描述到NeurIPS级别插图的端到端生成，支持流程图、架构图等类型，内置学术审美规范。核心创新在于美学引导机制和PaperBananaBench基准测试集，实验证明在忠实度、可读性等维度超越现有工具，能提升56.2%的图表质量。

PaperBanana的功能特色

自动化学术插图生成：输入论文方法描述和图注，系统自动生成符合出版标准的方法论示意图和统计图表。无需人工使用PPT、Visio或Python反复调整，大幅降低科研人员制图时间成本。
マルチインテリジェント・ボディ・コラボレーション・アーキテクチャ：采用Retriever、Planner、Stylist、Visualizer、Critic五个专业智能体分工协作。模拟人类设计师完整工作流程，从找参考、定内容、选风格到绘制优化全流程自动化。
双模式图表生成：方法论示意图使用图像生成模型确保视觉效果，统计图表使用代码生成确保数据准确。根据图表类型智能选择最优生成路径，兼顾美观性与精确性。
自我批判迭代优化：内置Critic智能体自动评估图表准确性、简洁性、可读性和美观度。通过3轮反馈迭代逐步消除错误，实现质量自我提升。
学术美学风格迁移：从NeurIPS等顶会论文中提取现代学术美学规范，自动应用到生成图表中。支持将粗糙草图或过时风格图表升级为专业发表级视觉品质。
跨领域泛化能力：基于292个NeurIPS 2025论文案例构建评测基准，覆盖CV、NLP、RL等多个AI子领域。能适应不同研究方向的图表风格需求，具备良好的领域迁移能力。

PaperBanana的核心优势

首个学术插图专用Agent框架：区别于通用图像生成工具，专为AI科研场景深度优化，精准理解学术论文制图需求。填补了科研自动化流程中"画图"环节长期缺失的智能化解决方案。
出版级质量保障：生成图表达到NeurIPS等顶会发表标准，在人类盲测中以72.7%胜率击败基线方法。相比传统方式在简洁性提升37.2%，美观度提升6.6%，总体评分提升17%。
结构化多智能体协作：五个智能体各司其职、流水线作业，避免单一模型任务过载导致的逻辑混乱。通过结构化信息传递确保视觉元素精准定位，显著降低连接错误等常见问题。
检索增强的领域适配：基于真实顶会论文构建参考数据库，生成结果符合领域惯例和学术审美。能根据输入主题自动检索相似案例，提供风格和内容双重参考指导。
自我进化能力：Critic智能体的多轮批判机制使系统具备自我检查能力，无需人工干预即可迭代优化。大幅提升了复杂图表的生成成功率。
开源可复现:代码和数据集完全开源，提供标准化评测基准PaperBananaBench。便于学术界验证改进，推动学术插图自动化领域的持续发展。