GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型,在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”,扫描、手写、印章、多语混排、复杂表...最新AI资源1个月前026.4K
DPAI Arena - JetBrains开源的AI编程基准测试平台DPAI Arena(Developer Productivity AI Arena)是JetBrains创建的开放基准测试平台,衡量AI辅助开发工具在真实世界软件工程任务中的有效性。通过透明的评估流...最新AI资源4个月前026.4K
Chatterbox-Turbo - Resemble AI开源的文本到语音模型Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音(TTS)模型,专为高效、低延迟的语音合成而设计。基于350M参数的精简架构,单步推理生成音频,时间延迟极低,在150...最新AI资源2个月前026.4K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台Dexbotic是原力灵机(Dexmal)开源的具身智能视觉-语言-动作(VLA)模型一站式科研服务平台,解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础,为具身智能领域的研究和开...最新AI资源5个月前026.4K
MOSS-Speech - 复旦大学开源的语音到语音大模型MOSS-Speech是复旦大学邱锡鹏教授团队开源的语音到语音(Speech-to-Speech)大模型。突破传统语音处理方式,无需文本引导,直接对语音进行理解和生成,能捕捉语调、情绪等非文字要素,使...最新AI资源4个月前026.3K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型Jamba Reasoning 3B 是以色列 AI 创企 AI21 Labs 开源的轻量级推理模型,具有强大的性能和广泛的应用潜力。采用 SSM-Transformer 混合架构,结合了 Trans...最新AI资源5个月前026.3K
Kosong - Moonshot AI开源的全新AI Agent开发框架Kosong 是月之暗面(Moonshot AI)开源的全新AI Agent开发框架,为开发者提供一个轻量、灵活且高度可扩展的底层支持,以构建下一代智能体应用。通过异步工具编排引擎,能高效调度多个工具...最新AI资源4个月前026.2K
Qwen3.5 - 阿里通义千问团队开源的最新一代大语言模型Qwen3.5是阿里巴巴通义千问团队开源的最新一代大语言模型,属于千问(Qwen)系列的升级版本。Qwen3.5突破了传统文本模型的限制,实现了真正的原生多模态理解,可直接处理文本、图像、视频等多种模...最新AI资源3周前026.1K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型FunctionGemma是谷歌推出的专为函数调用优化的轻量级AI模型,基于2.7亿参数的Gemma 3基础模型开发,可在手机、浏览器等设备上实时将自然语言转换为可执行API指令。核心特点是支持本地离...最新AI资源3个月前026.1K
10Kh RealOmni-Open - 简智机器人开源的具身智能数据集10Kh RealOmni-Open是简智机器人开源的具身智能数据集,是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段,覆盖10大场景任务、超过30项技能。数据...最新AI资源2个月前026.1K
SCAIL - 智谱联合清华开源的影视级角色动画生成框架SCAIL(Studio-Grade Character Animation via In-Context Learning)是智谱与清华大学刘永进教授课题组合作提出的一种影视级角色动画生成框架。通过...最新AI资源3个月前026.1K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具Pyscn是专为Python开发者设计的智能代码质量分析工具,主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码,计算模块耦合度和圈复杂度等指标...最新AI资源5个月前026K
XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型,包含中英文双版本,支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化,能在虚拟角色人设稳定性、复杂故...最新AI资源2个月前025.9K
VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型VibeVoice-ASR是微软开源的统一语音转文本(ASR)模型,专为处理长音频设计,可一次性处理长达60分钟的连续音频,确保语义连贯性和说话人追踪的一致性。支持自定义热词功能,用户可输入特定词汇或...最新AI资源2个月前025.8K
NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型NewBie-image-Exp0.1是NewBieAI-Lab团队开源的首个实验性动漫文生图模型,采用3.5B参数的Next-DiT架构,专为二次元风格优化。模型通过双文本编码器(GEMMA3-4B...最新AI资源3个月前025.8K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行Supertonic是开源的高性能的文本转语音(TTS)系统,专注于在本地设备上快速生成语音。采用ONNX Runtime技术,可在手机、电脑甚至树莓派等设备上运行,支持23种语言和语音克隆,无需网络...最新AI资源4个月前025.8K
Mistral Vibe - Mistral AI推出的开源命令行编码助手Mistral Vibe是Mistral AI推出的开源命令行编码助手,基于Devstral模型开发,支持自然语言交互完成代码搜索、文件操作、版本控制等任务。能自动扫描项目结构和Git状态,通过@符号...最新AI资源3个月前025.7K
Egocentric-10K - Build AI开源的第一人称视角机器人数据集Egocentric-10K 是大规模的第一人称视角(egocentric)工厂操作视频数据集,由 build.ai 团队开源。数据集包含 10,000 小时的视频,总帧数达 10.8 亿帧,涉及 2...最新AI资源4个月前025.7K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用NocoBase是基于AI驱动的开源无代码开发平台,支持快速搭建业务系统,无需编程即可通过配置完成应用开发。项目采用Apache-2.0协议,提供私有化部署和灵活扩展能力,适用于企业管理、协作平台等场...最新AI资源4个月前025.6K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台Koina是开源的去中心化机器学习平台,专注于简化蛋白质组学数据分析。由德国慕尼黑工业大学和美国密歇根大学团队开发。平台通过标准化接口整合了30多个主流模型(如ProSIT、MS²PIP),支持肽段质...最新AI资源4个月前025.6K
Ming-flash-omni 2.0 - 蚂蚁集团开源的全模态大模型Ming-flash-omni 2.0是蚂蚁集团开源的全模态大模型,集成了视觉、语音和生成能力的AI模型,在多项基准测试中性能领先。支持同时生成语音、环境音效和音乐,能通过自然语言指令精细控制音色、语...最新AI资源4周前025.6K
MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型,以“边看边听主动说”的端到端架构,在手机端即可跑出 GPT-4o 级体验:支持单图、多图、高帧率长视频、实时语音双工对话,首 tok...最新AI资源1个月前025.5K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统GLM-TTS 是智谱推出的开源工业级语音合成系统,具备强大的语音合成能力。采用两阶段生成架构:第一阶段将文本转换为语音令牌序列,第二阶段将令牌序列转换为高质量音频。系统支持仅用3秒语音样本即可完成音...最新AI资源3个月前025.5K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型FG-CLIP 2是360人工智能研究院推出的全球领先的图文跨模态视觉语言模型(VL-M),在29项权威基准测试中超越Google和Meta的同类模型,成为目前性能最强的VL-M。能精准识别图像中的毛...最新AI资源4个月前025.3K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型Yume1.5是开源的交互式世界生成模型,由上海人工智能实验室、复旦大学、上海创新研究院联合开发,能实现实时交互渲染(单卡12 FPS)。采用了联合时空通道建模(TSCM)技术,即使上下文长度增加也能...最新AI资源2个月前025.3K
Clawra - 基于OpenClaw框架开源的AI女友程序Clawra是一个基于OpenClaw框架开发的AI女友程序,由韩国开发者David Im制作,具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...最新AI资源4周前025.3K
Devstral 2 - Mistral AI 推出的新一代编程模型家族Devstral 2是Mistral AI 推出的针对软件工程任务设计的新一代编程模型家族,包含 Devstral 2(123B 参数)和 Devstral Small 2(24B 参数)两个版本。D...最新AI资源3个月前025.1K
InfinityStar - 字节开源的统一时空自回归视频生成框架InfinityStar是字节跳动开源的统一时空自回归框架,专为高分辨率图像和视频生成设计。采用离散自回归方法,能在单一模型中同时处理文本到图像、文本到视频、图像到视频等任务。框架在VBench基准测...最新AI资源4个月前025K
Vibe Kanban - 开源的免费AI编程代理任务管理工具Vibe Kanban是开源的AI编程代理任务管理工具,专为同时使用多个AI编程助手(如Claude Code、Gemini CLI、Codex等)的开发者设计。通过看板形式统一管理任务进度,支持并行...最新AI资源2个月前025K
PersonaPlex - 英伟达开源的全双工语音对话模型PersonaPlex是英伟达开源的全双工语音对话模型,拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程,采用统一的Transformer架构,能同步处理语音理解与生成。模型支持全...最新AI资源2个月前024.8K
Open-o3 Video - 北大联合字节开源的视频推理模型Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,专注于通过时间和空间证据增强视频推理能力。通过明确标注关键证据的时间戳和边界框,帮助模型更好地理解和解释视频内容。最新AI资源4个月前024.7K
Petri - Anthropic开源的 AI 安全审计框架Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代理对模型的行为进...最新AI资源4个月前024.7K
DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目DeepOCR 是开源复刻项目,实现 DeepSeek-OCR 的核心架构,通过光学压缩技术高效处理文本信息。核心是 DeepEncoder,由 SAM-base(处理高分辨率图像)、16×卷积压缩器...最新AI资源4个月前024.7K
Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型Xiaomi-Robotics-0 是小米开源的首代具身智能大模型,拥有47亿参数,采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型,负责理解人类模糊指令与空间推理;动作执行小脑则通过Di...最新AI资源4周前024.6K
Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型,专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作:前者负责快速召回候选结果,后者通过深度跨模态交互(如...最新AI资源2个月前024.6K
ROCK - 阿里巴巴开源的智能体训练环境沙箱ROCK(Reinforcement Open Construction Kit) 是阿里巴巴开源的智能体训练环境沙箱,解决智能体在真实环境中无法规模化训练的难题。ROCK 提供了高稳定的沙箱管理服务...最新AI资源4个月前024.5K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型SAIL-VL2是字节跳动团队开源的多模态视觉语言模型,专注于图像、文本等多模态输入的联合建模。采用稀疏混合专家(MoE)架构和渐进式训练策略,在2B至8B参数规模下实现了高性能,尤其在图文理解、数学...最新AI资源5个月前024.5K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库Seekdb(OceanBase Seekdb)是蚂蚁OceanBase开源的 AI 原生混合搜索数据库,支持向量、全文、标量及地理空间数据的统一混合搜索,采用多阶段检索机制,实现低延迟下的高精度搜索...最新AI资源4个月前024.4K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动GigaBrain-0是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作(VLA)具身基础模型,由极佳视界与湖北人形机器人创新中心联合发布开源。采用混合Transformer架构,融合...最新AI资源5个月前024.4K
UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架,最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题,提供一键复现热门模型(如Vo...最新AI资源2个月前024.3K
FLUX.2 - 黑森林开源的图像生成与编辑模型FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源...最新AI资源4个月前024.3K
SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型,拥有140亿参数量,实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...最新AI资源1个月前024.3K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计PromptFill是专为AI绘画设计的结构化提示词生成工具,通过可视化的“填空”交互方式,帮助用户快速构建、管理和迭代复杂的Prompt,提升AI图像生成的效率与质量。PromptFill的核心功能...最新AI资源3个月前024.1K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目Bee是腾讯混元团队与清华大学联合推出的全栈开源多模态大模型解决方案,通过提升数据质量缩小开源模型与闭源模型的性能差距。项目包含三大核心成果:1500万规模的高质量双层CoT数据集Honey-Data...最新AI资源4个月前024.1K
Kimi K2.5 - 月之暗面开源的新一代旗舰模型Kimi K2.5 是月之暗面发布的开源旗舰模型,采用 1T MoE 架构、激活 32B、上下文 256K token,原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...最新AI资源2个月前024.1K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台KoalaQA 是开源的智能售后服务系统,由 Chaitin 团队开发。基于 AI 大模型,提供 AI 客服、AI 搜索和知识库管理等功能,帮助企业快速搭建智能问答平台。系统支持 24/7 实时应答...最新AI资源3个月前024K
Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型,性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性:通过增加采...最新AI资源4周前024K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列GLM-4.6V是智谱AI开源的多模态大语言模型系列,系列包含两个版本:GLM-4.6V(106B-A12B),面向云端与高性能集群场景的基础版,采用混合专家(MoE)架构,总参数量约1060亿,激活...最新AI资源3个月前023.9K
opcode - 专为Claude Code设计的开源图形化桌面应用opcode是专为Claude Code设计的开源图形化桌面应用,开发者winfunc基于Tauri 2 + React 18 + Rust开发。提供可视化界面管理Claude Code项目,支持创建...最新AI资源3个月前023.8K
openPangu-VL-7B - 华为开源的7B参数多模态模型openPangu-VL-7B是华为开源的7B参数规模的多模态模型,专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色,支持实时推理(5FPS),单卡延迟仅160毫秒。最新AI资源2个月前023.8K
PartCrafter - 北大联合字节开源的单图3D生成模型PartCrafter 是先进的 3D 生成模型,由北京大学、字节跳动和卡耐基梅隆大学联合提出。能从单张 RGB 图像中一次性生成多个语义明确且几何形态各异的 3D 网格部件。模型通过组合式潜在空间和...最新AI资源3个月前023.8K
Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型Ring-2.5-1T 是蚂蚁集团百灵大模型团队开源的全球首个万亿参数混合线性架构思考模型,采用1:7 MLA与Lightning Linear Attention混合设计,激活参数量达63B。模型在...最新AI资源4周前023.7K
Infographic - 阿里AntV团队开源的信息图生成框架Infographic是阿里AntV团队开源的新一代框架,基于G2和Ant Design开发,专注于快速生成高质量信息图,提供30+布局模板、120+预设主题及AI智能生成功能。最新AI资源3个月前023.7K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型Vidi2是字节跳动开源的第二代多模态视频理解与生成大模型,专注于视频内容的理解、分析和创作。支持文本、视频、音频三种模态的联合输入,能同时理解画面内容、声音信息以及自然语言指令,实现跨模态的交互与推...最新AI资源3个月前023.7K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型Fun-Audio-Chat-8B是阿里通义团队开源的80亿参数端到端语音大模型,直接语音进语音出,无需ASR+LLM+TTS拼接,中文英文双语流利,延迟低、音色自然。采用双分辨率共享LLM与25Hz...最新AI资源3个月前023.7K
Ming-Omni-tts - 蚂蚁联合Inclusion AI开源的多模态音频生成模型Ming-Omni-tts 是蚂蚁集团与Inclusion AI联合开源的多模态音频生成模型,包含0.5B和16.8B-A3B两个版本。模型首次实现了语音、环境音和音乐的统一自回归生成,支持语速、音量...最新AI资源3周前023.6K
Computer Use Preview - Google开源的AI浏览器自动化工具Computer Use Preview是Google开源的基于Gemini模型的AI浏览器自动化工具,通过自然语言指令实现网页交互操作。采用"截图→分析→执行"的视觉识别流程,支持Playwrigh...最新AI资源3个月前023.5K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型悟界·Emu3.5是北京智源人工智能研究院开源的多模态世界大模型,参数量达340亿,具备原生世界建模能力。通过10万亿多模态Token(含790年视频数据)训练,能模拟物理规律,实现图文生成、视觉指导...最新AI资源3个月前023.5K
RealVideo - 智谱 AI 开源的实时流式视频生成系统RealVideo 是智谱 AI 开源的实时流式视频生成系统,能在 2 至 3 秒内快速生成自然流畅的视频回应。用户只需上传一张照片并输入文字,系统能生成对应的语音和视频,实现与 AI 角色的实时对话...最新AI资源3个月前023.4K
Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略...最新AI资源2个月前023.2K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型VibeVoice-Realtime 是微软开源的轻量级实时文本转语音(TTS)模型,专为低延迟和实时交互设计。支持流式文本输入,从第一个文本 token 开始就能发声,延迟仅约300毫秒,适合动态数...最新AI资源3个月前023.1K
SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型,被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构,在单一建模框架内集成三大核心能力:参考图像转视频、智能...最新AI资源1个月前023.1K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容BestBlogs 是专注于为技术从业者、创业者和产品经理等提供高质量内容的平台。通过 RSS 订阅和爬虫技术,从 400 多个优质博客中收集文章、播客、视频等多形式内容。核心优势在于利用 AI 大语...最新AI资源4个月前023K
InkSight - Google开源的AI手写识别工具InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点标记,支持多语言处理。最新AI资源3个月前022.9K
ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架ClawWork是香港大学数据科学实验室开发的AI经济压力测试框架,允许AI在模拟经济环境中完成真实工作任务并获得报酬。核心逻辑是让初始资金仅10美元的AI通过完成220个专业任务(覆盖制造、金融、医...最新AI资源3周前022.7K
New API - 开源的AI模型接口管理与分发系统,统一为标准化接口New API是基于Go语言开发的开源AI聚合网关工具,可统一管理30+种主流大模型(如OpenAI、Claude、Midjourney等),将不同模型接口转换为标准化OpenAI格式。最新AI资源2个月前022.7K
Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型,核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略(1.2T多模态令牌数据)和创新的并行协同推理技术(PACORE...最新AI资源2个月前022.6K
LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技(Robbyant)开源的交互式世界模型,专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...最新AI资源1个月前022.5K
GigaWorld-0 - 极佳视界开源的世界模型框架GigaWorld-0是国内具身智能创业公司极佳视界(GigaAI)开源的世界模型框架,主要用于解决具身智能(Embodied AI)领域的数据瓶颈问题。高效生成高质量、多样化且物理真实的训练数据,推...最新AI资源3个月前022.5K
PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架,专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作(检索、规划、造型、渲染和批评),实现从文本描述到Neu...最新AI资源1个月前022.4K
LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型,专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术,在RGB图像基础上预测缺失的深度值最新AI资源2个月前022.4K
StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统,专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术,自动存储关键帧并在后续生成时参考,确保人物外貌、服装、场景元素...最新AI资源2个月前022.4K
Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大模型。最新AI资源2个月前022.3K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具Flowra 是 ModelScope 联合呜哩 WULI 团队开源图执行引擎和节点包开发工具,是 FlowBench 的核心组件。通过有向无环图(DAG)组织工作流,具备智能缓存、并行调度、分布式支...最新AI资源3个月前022.3K
SenseNova-SI - 商汤科技开源的空间智能大模型系列SenseNova-SI是商汤科技发布的开源空间智能大模型,专注于提升AI在空间理解与推理方面的能力。模型在空间测量、重构、关系判断、视角转换、形变分析和空间推理等六个核心维度上表现出色,显著优于其他...最新AI资源4个月前022.2K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型QwenLong-L1.5是阿里巴巴通义实验室开源的长文本推理模型,专注于解决超长上下文(如1M-4M tokens)的复杂推理问题。核心突破在于后训练阶段的三大创新:通过知识图谱、SQL解析和多智能...最新AI资源3个月前022.2K
VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型,基于 LLaSA-3B 和 CosyVoice2 开发,专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...最新AI资源2个月前022K
AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型,通过深度检索和推理,能生成万字长篇...最新AI资源2个月前022K
LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”,把视频生成与机器人控制塞进同一 Transformer,每一步同时输出下一帧世界画面和对应动作,实现“边想边干”。最新AI资源1个月前021.9K
GLM-4.7-Flash - 智谱开源的混合专家架构语言模型GLM-4.7-Flash是智谱开源的混合专家架构语言模型,参数规模为30B,激活参数量3B,上下文窗口达200K,最大输出令牌为128K。在编程能力上表现出色,SWE-bench验证集分数达59.2...最新AI资源2个月前021.7K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集RoboCOIN是北京智源人工智能研究院联合多家企业和高校开源的全球首个大规模双臂机器人真机数据集,包含15种机器人平台、18万条真实操作轨迹和421种任务场景。最大特点是采用分层标注体系,将任务拆解...最新AI资源3个月前021.7K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构(MM-DiT+Single-DiT),结合视觉语言模型(VLM)条件编码器,能实现文生图和多轮图像编辑...最新AI资源3个月前021.4K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列Mistral 3是Mistral AI发布开源的最新多模态大模型系列,包含旗舰模型Mistral Large 3(675B总参数)和轻量版Ministral系列(3B/8B/14B),均支持图像理解...最新AI资源3个月前021.2K
Nemotron Speech ASR - 英伟达开源的实时语音识别模型Nemotron Speech ASR是英伟达开源的实时语音识别模型,专为低延迟场景优化,支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构,通过固定状态缓...最新AI资源2个月前021.1K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习ChatTutor是开源的AI教学辅助工具,专注于STEM学科的可视化互动学习。通过多智能体架构实现对话式答疑和动态绘图功能,能在电子白板上实时绘制数学图形、物理电路或思维导图,帮助用户直观理解抽象概...最新AI资源4个月前021K
UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型,突破传统视觉语言模型(VLM)仅能理解图像文字的局限,通过在机器人操作数据上的持续预训练,实现从"图文理解"向具备物理常...最新AI资源1个月前021K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型Ovis-Image 是阿里巴巴国际数字商务集团 AIDC-AI 团队开源的 70 亿参数文生图模型,专注于高质量文本渲染。基于 Ovis-U1 架构,继承了先进的视觉解码器和双向 Token 精炼器...最新AI资源3个月前020.9K
NovaSR - 开源的音频超分辨率模型,提升音频采样率NovaSR是开源的音频超分辨率模型,主要用于将低质量音频(如16kHz采样率的电话音质)提升为高质量音频(如48kHz采样率的录音室级音质)。模型大小仅52KB,比一张微信表情包还小,可轻松部署在资...最新AI资源2个月前020.9K
Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建,融合三维重建、视觉生成技术与物理引擎,实现毫米级精准复刻真实环境,通过自然语言指...最新AI资源2个月前020.7K
GLM-Image - 智谱联合华为开源的多模态图像生成模型GLM-Image是智谱与华为联合开源的多模态图像生成模型,基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练,采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...最新AI资源2个月前020.7K
Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型Step 3.5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型,每 token 仅激活 110 亿参数,能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 ...最新AI资源1个月前020.4K
MOVA - 创智学院联合模思智能开源的端到端音视频生成模型MOVA(MOSS-Video-and-Audio) 是上海创智学院 OpenMOSS 团队联合模思智能(MOSI)开源的端到端音视频生成模型,是中国首个高性能开源音视频模型。突破了传统"先画面后配音...最新AI资源1个月前019.9K
Baichuan-M3 - 百川智能开源的新一代医疗大语言模型Baichuan-M3是百川智能推出的新一代开源医疗大语言模型,专为医疗场景深度优化,具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一,超越了GPT...最新AI资源2个月前019.8K
MiniMax M2.1 - MiniMax开源的编码和代理模型MiniMax M2.1 是MiniMax开源的编码和代理模型,拥有100亿激活量,支持多种主流编程语言,如 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeS...最新AI资源3个月前019.6K
Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型Intern-S1-Pro是上海人工智能实验室开源的全球首个万亿参数级科学多模态大模型。采用512专家MoE架构,激活仅8专家22B参数,兼顾性能与效率。模型基于SAGE架构,引入傅里叶位置编码,统一...最新AI资源1个月前018.9K
SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型(Agentic VLM),提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具(如...最新AI资源1个月前018.8K
OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集,核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...最新AI资源2个月前018.1K
TranslateGemma - 谷歌开源的机器翻译模型系列TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列,专为提升翻译质量而设计。通过两阶段微调(监督微调和强化学习)优化翻译效果,提供4B、12B、27B三种参数规模,支持5...最新AI资源2个月前017.8K
RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型RynnBrain 是阿里巴巴达摩院开源的具身智能大脑基础模型,为机器人提供深度环境理解和物理世界交互能力。是业界首个赋予机器人时空记忆和物理空间推理能力的开源模型。包含2B、8B、30B等7个不同参...最新AI资源1个月前016.9K