DeepSeek 发布了 v3 模型的首个开源版本,现阶段拥有(国产)最强代码能力
DeepSeek-V3是一款强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有6710亿总参数,针对每个token激活37亿参数。该模型采用了一种创新的多头潜在注意力(Multi-head Latent Attention, MLA)架构,以及经...
DeepSeek-V3是一款强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有6710亿总参数,针对每个token激活37亿参数。该模型采用了一种创新的多头潜在注意力(Multi-head Latent Attention, MLA)架构,以及经...
综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语交互,能够通过屏幕截图和自然...
今天早些时候收到“寻光”内测申请通过的通知,睡前发个简单的评测。 该平台定位是达摩院的“视觉技术能力应用平台”,目前应用较少(对比发布会)期待逐步开放更多视觉类应用。 寻光分为两个地址: https://xunguang...
综合介绍 DisPose是一个创新的开源人工智能项目,专注于可控的人物图像动画生成。该项目由研究团队开发并在GitHub上开源,采用先进的深度学习技术,通过分解骨骼姿态信息来实现精确的人物动画控制。DisPose的核心...
综合介绍 Smolagents是由HuggingFace开发的轻量级智能代理库,专注于简化AI代理系统的开发过程。该项目以其简洁的设计理念著称,核心代码仅约1000行,却提供了强大的功能集成能力。它最显著的特点是支持代码执行...
该指令来源于 Vision Parse 项目,分为两步提取markdown文档。 图像分析提示词 (img_analysis.prompt): Analyze this image and return a detailed JSON description including any text detected, images detect...
如何开始使用 Napkin AI 生成视觉内容 ?(账户创建、视觉生成、导出为 pdf 或图像文件...) 欢迎使用 Napkin AI,这款工具可以轻松地将您的文本转换为精美的视觉效果。本指南将引导您完成入门的基本步骤,并最大化...
综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格式内容。该工具支持多种顶级视觉语言模型,包括O...
综合介绍 InvSR是一个创新的开源图像超分辨率项目,它基于扩散反演技术,能够将低分辨率图像转换为高质量的高分辨率图像。该项目利用预训练的大型扩散模型中蕴含的丰富图像先验知识,通过灵活的采样机制,支持1到...
综合介绍 Infinity是一个开创性的高分辨率图像生成框架,由FoundationVision团队开发。该项目通过创新的位级视觉自回归建模方法,突破了传统图像生成模型的限制。Infinity的核心特点是采用了无限词汇量的分词器和...