GLM-4.6V - 智谱AI开源的多模态大语言模型系列GLM-4.6V是智谱AI开源的多模态大语言模型系列,系列包含两个版本:GLM-4.6V(106B-A12B),面向云端与高性能集群场景的基础版,采用混合专家(MoE)架构,总参数量约1060亿,激活...最新AI资源3个月前023.3K
吴恩达的LangChain for LLM应用开发免费课程LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程,由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。最新AI资源课程资料6个月前053K
吴恩达的Transformer LLMs工作原理免费课程Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...最新AI资源课程资料6个月前046.6K
Kimi K2-0905 - 月之暗面推出的最新模型版本Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型,在编程辅助方面表现出色,能高效生成代码,支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K,能处理复杂任务。最新AI资源6个月前071.2K
Nano Banana - 谷歌推出的AI图像编辑模型Nano Banana 是谷歌推出的 AI 图像生成与编辑模型Gemini 2.5 Flash Image代号,能根据简单的文本提示生成细节丰富、光影真实的图像,对现有图像进行高质量的修改。最新AI资源6个月前066.7K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过预训练、渐进式双任务强化策略和联合训练,实...最新AI资源7个月前042K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型MiniMax Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得了显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上实现了飞跃。模型支持 40 种语言...最新AI资源7个月前045.5K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统GPT-5是OpenAI最新发布的语言模型,具有多项升级。是一个统一智能系统,内置实时路由器,能根据问题复杂度自动切换高效模式与深度思考模式,实现快速响应与精准解答。GPT-5拥有多个版本,包括面向普...最新AI资源7个月前043.7K
Qwen-Image - 通义千问推出开源的文生图基础模型Qwen-Image是阿里巴巴通义千问团队发布的开源图像生成基础模型。拥有200亿参数,采用多模态扩散变换器架构(MMDiT),融合了多模态理解、高分辨率编码和扩散模型三大模块。Qwen-Image的...最新AI资源7个月前043.2K
RedOne - 小红书最新推出的社交大模型RedOne 是小红书推出的专为社交网络定制的大语言模型。模型通过三阶段训练策略,融入社交文化知识,强化多任务能力,并对齐人类偏好。RedOne 在社交任务性能上显著优于基础模型,在有害内容检测和浏览...最新AI资源7个月前041.4K
TRAE SOLO - 字节跳动TRAE推出的AI自动开发助手TRAE SOLO 是字节跳动推出的AI编程助手TRAE 推出的AI 自动化开发助手,用AI技术简化软件开发流程。TRAE SOLO能理解用户的需求,支持文字描述、语音指令和文件上传输入需求,自动规划...最新AI资源8个月前065.2K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话综合介绍 LiveTalking是一个开源的实时互动数字人系统,致力于构建高质量的数字人直播解决方案。该项目采用Apache 2.0开源协议,集成了多项前沿技术,包括ER-NeRF渲染、实时音视频流处...最新AI资源# AI开源项目# AI数字人1年前0124K
ClawFeed - 开源AI新闻摘要工具,一站式聚合任意网站内容ClawFeed是开发者Kevin He推出的开源AI新闻摘要工具,解决信息过载问题。通过聚合Twitter、RSS、GitHub等多平台信息源,利用AI自动生成4小时、每日、每周和每月的结构化摘要...最新AI资源1周前020.1K
FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型FireRed-Image-Edit 是小红书 Super Intelligence 团队开源的通用图像编辑模型,基于扩散 Transformer 架构,在 GEdit、ImgEdit 等多个权威评测...最新AI资源2周前024.4K
OpenAkita - 开源的自进化AI助手框架,多平台无缝协作OpenAkita是开源的自进化AI助手框架,提供智能、灵活且易于使用的AI辅助工具。每日自动执行内存整合、错误自检与修复、任务复盘,遇到卡壳时自动生成新技能并安装依赖,越用越聪明。支持Windows...最新AI资源2周前022.5K
ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架ClawWork是香港大学数据科学实验室开发的AI经济压力测试框架,允许AI在模拟经济环境中完成真实工作任务并获得报酬。核心逻辑是让初始资金仅10美元的AI通过完成220个专业任务(覆盖制造、金融、医...最新AI资源2周前018K
Ming-Omni-tts - 蚂蚁联合Inclusion AI开源的多模态音频生成模型Ming-Omni-tts 是蚂蚁集团与Inclusion AI联合开源的多模态音频生成模型,包含0.5B和16.8B-A3B两个版本。模型首次实现了语音、环境音和音乐的统一自回归生成,支持语速、音量...最新AI资源2周前019K
Qwen3.5 - 阿里通义千问团队开源的最新一代大语言模型Qwen3.5是阿里巴巴通义千问团队开源的最新一代大语言模型,属于千问(Qwen)系列的升级版本。Qwen3.5突破了传统文本模型的限制,实现了真正的原生多模态理解,可直接处理文本、图像、视频等多种模...最新AI资源3周前022.2K
Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型Ring-2.5-1T 是蚂蚁集团百灵大模型团队开源的全球首个万亿参数混合线性架构思考模型,采用1:7 MLA与Lightning Linear Attention混合设计,激活参数量达63B。模型在...最新AI资源3周前020.8K
Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型Xiaomi-Robotics-0 是小米开源的首代具身智能大模型,拥有47亿参数,采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型,负责理解人类模糊指令与空间推理;动作执行小脑则通过Di...最新AI资源3周前021.9K
AionUi - 免费开源的多AI Agent桌面应用AionUi是一个免费开源的多AI Agent桌面应用,支持将Gemini CLI、Claude Code等命令行AI工具整合到图形界面,提供本地文件操作、多会话管理、跨平台运行等功能。支持macOS...最新AI资源3周前027.9K
Ming-flash-omni 2.0 - 蚂蚁集团开源的全模态大模型Ming-flash-omni 2.0是蚂蚁集团开源的全模态大模型,集成了视觉、语音和生成能力的AI模型,在多项基准测试中性能领先。支持同时生成语音、环境音效和音乐,能通过自然语言指令精细控制音色、语...最新AI资源3周前022.5K
Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型,性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性:通过增加采...最新AI资源3周前022.6K
Clawra - 基于OpenClaw框架开源的AI女友程序Clawra是一个基于OpenClaw框架开发的AI女友程序,由韩国开发者David Im制作,具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...最新AI资源3周前023.3K
GLM-5 - 智谱AI推出的旗舰级开源大模型GLM-5是智谱AI推出的旗舰级开源大模型,采用744B参数规模(激活40B),专为Agentic Engineering智能体工程打造。模型在编程与Agent能力上取得开源SOTA表现,SWE-be...最新AI资源4周前025.7K
nanobot - HKUDS开源的超轻量级个人AI助手框架nanobot 是香港大学数据智能实验室(HKUDS)开源的超轻量级个人AI助手框架,仅用约 4,000行Python代码实现了完整的多通道AI助手功能。作为 OpenClaw 的轻量替代品,nano...最新AI资源4周前030.3K
RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型RynnBrain 是阿里巴巴达摩院开源的具身智能大脑基础模型,为机器人提供深度环境理解和物理世界交互能力。是业界首个赋予机器人时空记忆和物理空间推理能力的开源模型。包含2B、8B、30B等7个不同参...最新AI资源4周前015.6K
PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架,专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作(检索、规划、造型、渲染和批评),实现从文本描述到Neu...最新AI资源4周前020.8K
Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型Intern-S1-Pro是上海人工智能实验室开源的全球首个万亿参数级科学多模态大模型。采用512专家MoE架构,激活仅8专家22B参数,兼顾性能与效率。模型基于SAGE架构,引入傅里叶位置编码,统一...最新AI资源4周前017.8K
LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”,把视频生成与机器人控制塞进同一 Transformer,每一步同时输出下一帧世界画面和对应动作,实现“边想边干”。最新AI资源1个月前020.4K
MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型,以“边看边听主动说”的端到端架构,在手机端即可跑出 GPT-4o 级体验:支持单图、多图、高帧率长视频、实时语音双工对话,首 tok...最新AI资源1个月前023.7K
SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型,拥有140亿参数量,实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...最新AI资源1个月前022.8K
Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型Qwen3-Coder-Next是阿里巴巴通义千问团队开源的专为编程智能体设计的高效混合模型,基于80B总参数的Qwen3-Next架构,推理时仅激活3B参数。核心创新在于采用环境交互和强化学习训练方...最新AI资源1个月前024.7K
GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型,在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”,扫描、手写、印章、多语混排、复杂表...最新AI资源1个月前024.4K
Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型Step 3.5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型,每 token 仅激活 110 亿参数,能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 ...最新AI资源1个月前018.7K
UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型,突破传统视觉语言模型(VLM)仅能理解图像文字的局限,通过在机器人操作数据上的持续预训练,实现从"图文理解"向具备物理常...最新AI资源1个月前019.2K
SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型(Agentic VLM),提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具(如...最新AI资源1个月前017.2K
MOVA - 创智学院联合模思智能开源的端到端音视频生成模型MOVA(MOSS-Video-and-Audio) 是上海创智学院 OpenMOSS 团队联合模思智能(MOSI)开源的端到端音视频生成模型,是中国首个高性能开源音视频模型。突破了传统"先画面后配音...最新AI资源1个月前018.2K
LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技(Robbyant)开源的交互式世界模型,专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...最新AI资源1个月前020.8K
SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型,被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构,在单一建模框架内集成三大核心能力:参考图像转视频、智能...最新AI资源1个月前021.2K
LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型,专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术,在RGB图像基础上预测缺失的深度值最新AI资源1个月前020.9K
DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型,核心创新在于采用DeepEncoder V2架构,将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...最新AI资源1个月前027.6K
Kimi K2.5 - 月之暗面开源的新一代旗舰模型Kimi K2.5 是月之暗面发布的开源旗舰模型,采用 1T MoE 架构、激活 32B、上下文 256K token,原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...最新AI资源1个月前022.3K
Moltbot - 开源的本地优先AI助手,支持多渠道与用户交互Moltbot(原名Clawdbot)是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手,WhatsApp、Telegram、Discord、Slack、iMessage...最新AI资源1个月前034.2K
json-render - Vercel Labs开源的AI生成UI的工具json-render是Vercel Labs开源的AI生成UI的工具,通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据,前端再...最新AI资源1个月前025.3K
FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架,能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术,将视频拆解为0.5秒一小段接力处理,配合结构化...最新AI资源1个月前028.1K
VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型VibeVoice-ASR是微软开源的统一语音转文本(ASR)模型,专为处理长音频设计,可一次性处理长达60分钟的连续音频,确保语义连贯性和说话人追踪的一致性。支持自定义热词功能,用户可输入特定词汇或...最新AI资源1个月前024.2K
Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略...最新AI资源2个月前021.7K
AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型,通过深度检索和推理,能生成万字长篇...最新AI资源2个月前020.4K
EmbodiChain - 跨维智能推出的开源具身智能开发平台EmbodiChain是跨维智能推出的开源具身智能开发平台,专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增,从根本上...最新AI资源2个月前034K
Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型,核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略(1.2T多模态令牌数据)和创新的并行协同推理技术(PACORE...最新AI资源2个月前021.1K
PersonaPlex - 英伟达开源的全双工语音对话模型PersonaPlex是英伟达开源的全双工语音对话模型,拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程,采用统一的Transformer架构,能同步处理语音理解与生成。模型支持全...最新AI资源2个月前023.2K
GLM-4.7-Flash - 智谱开源的混合专家架构语言模型GLM-4.7-Flash是智谱开源的混合专家架构语言模型,参数规模为30B,激活参数量3B,上下文窗口达200K,最大输出令牌为128K。在编程能力上表现出色,SWE-bench验证集分数达59.2...最新AI资源2个月前020.5K
NovaSR - 开源的音频超分辨率模型,提升音频采样率NovaSR是开源的音频超分辨率模型,主要用于将低质量音频(如16kHz采样率的电话音质)提升为高质量音频(如48kHz采样率的录音室级音质)。模型大小仅52KB,比一张微信表情包还小,可轻松部署在资...最新AI资源2个月前019.8K
FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型,专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成,能在不到1秒内...最新AI资源2个月前028.3K
TranslateGemma - 谷歌开源的机器翻译模型系列TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列,专为提升翻译质量而设计。通过两阶段微调(监督微调和强化学习)优化翻译效果,提供4B、12B、27B三种参数规模,支持5...最新AI资源2个月前016.4K
OpenWork - 开源AI Agent工作流桌面应用,Claude Cowork的免费平替OpenWork是开源的智能代理工作流桌面应用,作为Claude Cowork的免费替代品,提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node.js技术栈,支持技能插件扩展和模...最新AI资源2个月前061.1K
ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法,专为解决开放域任务(如出行规划)中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制,通过智能体自动生成多套方案...最新AI资源2个月前015.1K
Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型,最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...最新AI资源2个月前026.2K
OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集,核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...最新AI资源2个月前016.9K
GLM-Image - 智谱联合华为开源的多模态图像生成模型GLM-Image是智谱与华为联合开源的多模态图像生成模型,基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练,采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...最新AI资源2个月前019.4K
Baichuan-M3 - 百川智能开源的新一代医疗大语言模型Baichuan-M3是百川智能推出的新一代开源医疗大语言模型,专为医疗场景深度优化,具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一,超越了GPT...最新AI资源2个月前018.5K
女娲智能体OS - 西南财经开源的通用智能体操作系统女娲智能体OS(Nuwax Agent OS)是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎,可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...最新AI资源2个月前030K
Nemotron Speech ASR - 英伟达开源的实时语音识别模型Nemotron Speech ASR是英伟达开源的实时语音识别模型,专为低延迟场景优化,支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构,通过固定状态缓...最新AI资源2个月前019.8K
Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型,专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作:前者负责快速召回候选结果,后者通过深度跨模态交互(如...最新AI资源2个月前023K
Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型,属于Qwen3-VL系列,主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间,通过双塔架构生成向量表...最新AI资源2个月前025.1K
AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型AntAngelMed(蚂蚁·安诊儿医疗大模型)是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构(MoE),总参数量达1000亿...最新AI资源2个月前028.2K
VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型,基于 LLaSA-3B 和 CosyVoice2 开发,专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...最新AI资源2个月前020.5K
10Kh RealOmni-Open - 简智机器人开源的具身智能数据集10Kh RealOmni-Open是简智机器人开源的具身智能数据集,是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段,覆盖10大场景任务、超过30项技能。数据...最新AI资源2个月前024.3K
Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大模型。最新AI资源2个月前020.5K
Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建,融合三维重建、视觉生成技术与物理引擎,实现毫米级精准复刻真实环境,通过自然语言指...最新AI资源2个月前019.5K
LandPPT - 开源免费的AI PPT生成工具,支持本地部署和云端协作LandPPT是基于大语言模型的开源AI PPT生成工具,支持通过主题或上传文档(PDF/Word/Excel)一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能,提供丰富的模板和场景...最新AI资源2个月前030.9K
TuriX-CUA - 开源AI桌面自动化工具,AI直接操作电脑桌面TuriX-CUA 是开源的 AI 桌面自动化工具,能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统,通过先进的计算机...最新AI资源2个月前029.9K
MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型,基于 Qwen3 系列开发,包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术,支持 256K 上下文...最新AI资源2个月前036.3K
UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架,最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题,提供一键复现热门模型(如Vo...最新AI资源2个月前022.6K
openPangu-VL-7B - 华为开源的7B参数多模态模型openPangu-VL-7B是华为开源的7B参数规模的多模态模型,专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色,支持实时推理(5FPS),单卡延迟仅160毫秒。最新AI资源2个月前022.2K
New API - 开源的AI模型接口管理与分发系统,统一为标准化接口New API是基于Go语言开发的开源AI聚合网关工具,可统一管理30+种主流大模型(如OpenAI、Claude、Midjourney等),将不同模型接口转换为标准化OpenAI格式。最新AI资源2个月前020.6K
Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台Paper2Any是北京大学DCAI课题组开源的多模态辅助平台,专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能,能从多种输入源生成模型架构图、技术路线图和实验数据图等...最新AI资源2个月前029K
StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统,专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术,自动存储关键帧并在后续生成时参考,确保人物外貌、服装、场景元素...最新AI资源2个月前020.8K
XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型,包含中英文双版本,支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化,能在虚拟角色人设稳定性、复杂故...最新AI资源2个月前023.5K
Vibe Kanban - 开源的免费AI编程代理任务管理工具Vibe Kanban是开源的AI编程代理任务管理工具,专为同时使用多个AI编程助手(如Claude Code、Gemini CLI、Codex等)的开发者设计。通过看板形式统一管理任务进度,支持并行...最新AI资源2个月前023.4K
Chatterbox-Turbo - Resemble AI开源的文本到语音模型Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音(TTS)模型,专为高效、低延迟的语音合成而设计。基于350M参数的精简架构,单步推理生成音频,时间延迟极低,在150...最新AI资源2个月前025.1K
IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列,专注于代码智能领域,具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式,从代码库演化...最新AI资源2个月前031.2K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型混元Motion1.0(HY-Motion1.0)是腾讯混元团队开源的文本生成3D动作模型,采用10亿参数Diffusion Transformer架构,能通过自然语言描述直接生成高质量3D角色动画。最新AI资源2个月前030K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型Yume1.5是开源的交互式世界生成模型,由上海人工智能实验室、复旦大学、上海创新研究院联合开发,能实现实时交互渲染(单卡12 FPS)。采用了联合时空通道建模(TSCM)技术,即使上下文长度增加也能...最新AI资源2个月前023.8K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统AutoMV是M-A-P团队联合多所高校研发的开源音乐视频生成系统,能在无需训练的情况下根据完整歌曲自动生成连贯的MV。采用多智能体协作模式,包含音乐分析、编剧、导演和质检等模块,能精准解析歌词、节拍...最新AI资源2个月前025.8K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列Tencent-HY-MT1.5是腾讯混元开源的翻译模型1.5版本,包含1.8B和7B两个模型,支持33种国际语言及5种民汉/方言互译。1.8B模型专为手机等消费级设备优化,仅需1GB内存即可实现端侧...最新AI资源2个月前033K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架PersonaLive是开源的实时AI换脸直播框架,由澳门大学、dzine.ai和大湾区大学GVC实验室联合开发。能在普通消费级显卡(12GB显存)上实现低延迟、高帧率的数字人驱动,支持通过摄像头实时...最新AI资源2个月前026K
Computer Use Preview - Google开源的AI浏览器自动化工具Computer Use Preview是Google开源的基于Gemini模型的AI浏览器自动化工具,通过自然语言指令实现网页交互操作。采用"截图→分析→执行"的视觉识别流程,支持Playwrigh...最新AI资源2个月前022.8K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书ClipSketch AI是开源的视频转手绘分镜工具,专为短视频创作者设计。能将B站、小红书等平台的视频一键转换为手绘风格故事板,支持标记关键帧、自动生成分镜和社交文案,能融合用户自定义角色。最新AI资源2个月前027.2K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型MAI-UI是阿里巴巴通义实验室开源的通用GUI智能体基座模型,具备跨应用操作、模糊语义理解、主动用户交互和多步骤流程协调四大能力。采用端云协同架构,轻量模型驻守设备处理日常任务,复杂任务可调用云端大...最新AI资源2个月前031.5K
MiniMax M2.1 - MiniMax开源的编码和代理模型MiniMax M2.1 是MiniMax开源的编码和代理模型,拥有100亿激活量,支持多种主流编程语言,如 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeS...最新AI资源2个月前019.1K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术InstanceAssemble是小红书和复旦大学联合开源的布局控制生成技术,通过“实例组装注意力”机制,实现了从简单到复杂、从稀疏到密集布局的精准图像生成。采用两阶段级联架构,先生成图像背景,再逐个...最新AI资源2个月前016K
Zen Browser - 基于Firefox内核的开源AI网页浏览器Zen Browser是基于Firefox内核的开源浏览器,主打简洁高效的浏览体验,核心特色是垂直标签栏和工作区隔离功能。采用侧边栏设计,能清晰展示50+个标签页的完整标题,支持多窗口分屏浏览。最新AI资源2个月前026.2K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型QwenLong-L1.5是阿里巴巴通义实验室开源的长文本推理模型,专注于解决超长上下文(如1M-4M tokens)的复杂推理问题。核心突破在于后训练阶段的三大创新:通过知识图谱、SQL解析和多智能...最新AI资源2个月前021.5K
Infographic - 阿里AntV团队开源的信息图生成框架Infographic是阿里AntV团队开源的新一代框架,基于G2和Ant Design开发,专注于快速生成高质量信息图,提供30+布局模板、120+预设主题及AI智能生成功能。最新AI资源2个月前022.7K
opcode - 专为Claude Code设计的开源图形化桌面应用opcode是专为Claude Code设计的开源图形化桌面应用,开发者winfunc基于Tauri 2 + React 18 + Rust开发。提供可视化界面管理Claude Code项目,支持创建...最新AI资源2个月前023.2K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架TurboDiffusion是清华大学、生数科技和加州大学伯克利分校联合开源的视频生成加速框架,能在保持画质几乎无损的情况下,将视频生成速度提升100-200倍。通过稀疏线性注意力、采样步数蒸馏和8位...最新AI资源3个月前025.6K
MedASR - 谷歌开源的医疗语音识别模型MedASR是谷歌开源的1.05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4.6...最新AI资源3个月前027.6K