SpatialGen - 群核科技推出的开源3D场景生成模型SpatialGen 是群核科技开源的 3D 场景生成模型,基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局生成时空一致的多视角图像,并进一步生成 3D 高斯场景,渲染出漫游视频。最新AI资源8个月前047.2K
Shortbread - AI漫画生成工具,自然语言描述完成漫画创作Shortbread是AI漫画生成工具,用户基于简单的自然语言描述快速创作出完整的漫画作品。Shortbread无需任何绘图技能,只需输入文字,AI快速生成具有独特角色、场景和情感的个性化漫画。Sho...最新AI资源11个月前047.2K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具综合介绍 “Why My Wife Yelling At Me”是一个独特的婚姻关系模拟网站,旨在通过人工智能帮助用户理解伴侣的情感反应和沟通模式。用户可以输入不同场景,体验虚拟伴侣的反应,模拟真实的...最新AI资源1年前047.1K
Ovis-U1 - 阿里推出的多模态统一AI模型Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,参数规模达到30亿。模型具备多模态理解、文本到图像生成以及图像编辑等三大核心能力,凭借先进的架构设计和协同统一训练方法,支持实现高保真图像...最新AI资源10个月前047.1K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白...最新AI资源7个月前047K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型Confucius3-Math是网易有道开源的国内首个专注于数学教育的开源推理模型。具有140亿参数,专为K-12数学教育场景优化,可在单块消费级GPU(如RTX 4090D)上高效运行,推理性能约为...最新AI资源10个月前047K
HeyGen - AI 数字人视频创作平台,支持多语言翻译配音HeyGen是AI驱动的数字人视频创作平台,支持简化视频制作流程,让用户快速生成专业水准的数字人视频。平台基于先进的AI技术,赋予用户对数字人物形象和声音的完全控制权,提供丰富的素材库,包括多样化背景...最新AI资源11个月前047K
用语音和文字控制macOS操作的开源工具综合介绍 MacOS LLM Controller 是一个开源桌面应用,托管在 GitHub 上,允许用户通过语音或文字输入自然语言指令来执行 macOS 系统命令。它基于 Llama-3.2-3B...最新AI资源1年前047K
AnimaTensor - 吐司AI等机构推出的二次元图像生成模型AnimaTensor 是 CagliostroLab 团队与 TensorArt 联合推出的二次元图像生成模型,基于创新的 V-Prediction 技术,用预测图像生成过程中的“速度”优化噪声调度...最新AI资源10个月前046.9K
EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型EchoMimicV3是蚂蚁集团推出的多模态数字人视频生成模型,拥有13亿参数,能处理音频、文本、图像等多种输入,生成高质量的数字人动画。最新AI资源8个月前046.9K
Magentic-UI - 微软开源的人机协作AI AgentMagentic-UI是微软开源的人机协作AI Agent研究工具。Magentic-UI基于与用户紧密协作,助力完成复杂的Web任务,比如网页浏览、代码执行和文件处理等。工具强调协作规划,让用户能提...最新AI资源10个月前046.9K
Report mAIstro:生成任意自定义主题的详细报告文档,例如商业分析、年终汇报等综合介绍 报告生成工具(Report mAIstro)是一个强大的工具,旨在通过自然语言处理技术,帮助用户轻松创建自定义报告。该工具利用LangChain技术,将用户提供的主题和结构转化为详细的报告内...最新AI资源# AI开源项目# 生成深度研究报告1年前046.9K
Higress MCP - 今日投资推出的MCP服务平台Higress MCP 是今日投资推出的创新型平台,支持将传统金融数据API快速转化为现代化的MCP服务。Higress MCP基于简单配置即可实现REST API到MCP Server的转换,无需编...最新AI资源10个月前046.8K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台优雅YOYA是中科闻歌推出的多模态文生视频平台,平台基于AI多模态技术赋能视频内容创作全链路。用户只需输入主题要求,平台能快速生成脚本、图像、视频,且能完成智能剪辑、语音合成和人物口型驱动等操作,输出...最新AI资源11个月前046.7K
FireRedChat - 小红书开源的全双工语音交互系统FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。最新AI资源7个月前046.7K
Mistral Code - Mistral AI推出面向企业的AI编程助手Mistral Code是Mistral AI推出的面向企业开发团队的AI编程助手,集成Codestral、Codestral Embed、Devstral 和Mistral Medium四大模型,支...最新AI资源11个月前046.6K
gpt-oss - OpenAI推出的开源推理模型系列gpt-oss是 OpenAI 推出的开源推理模型系列,支持为开发者提供高效、灵活且易于部署的 AI 解决方案。gpt-oss包含两个版本,gpt-oss-120B 拥有 1170 亿参数,支持在 8...最新AI资源9个月前046.5K
有道小P - 网易有道推出的新一代AI全科学习助手有道小P是网易有道推出的AI全科学习助手,专为K12学生设计,搭载有道子曰教育大模型,覆盖小学、初中、高中全学科答疑,提供个性化学习建议。有道小P具备AI查词、AI翻译功能,帮助学生快速解决语言难题...最新AI资源11个月前046.4K
FLUX.1 Kontext - 黑森林推出的图像生成与编辑模型FLUX.1 Kontext是Black Forest Labs推出的图像生成与编辑模型,提供上下文感知的图像处理技术。模型能理解响应文本和图像提示,执行对象修改、风格转换、背景替换等任务,同时保持角...最新AI资源11个月前046.4K
AudioFly - 科大讯飞开源的文本生成音效AI模型AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...最新AI资源7个月前046.4K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具Banana Slides是基于Nano Banana Pro AI模型的开源智能PPT生成工具,支持通过自然语言指令快速创建专业演示文稿。允许用户用一句话描述主题(如“人类对生态环境的影响”),可自...最新AI资源5个月前046.2K
Magistral - Mistral AI 推出的系列推理模型Magistral 是 Mistral AI 推出的推理模型,专注透明、多语言和特定领域的推理能力。模型包含开源版(Magistral Small)和企业版(Magistral Medium),后者在...最新AI资源11个月前046.1K
DragonV2.1 - 微软推出的零样本语音合成模型DragonV2.1 是微软推出的先进的零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语音提示能生成自然、富有表现力的语音。最新AI资源9个月前046.1K
gpt-realtime - OpenAI最新推出的AI语音模型gpt-realtime 是 OpenAI 推出的先进语音模型,支持直接处理音频,生成自然流畅的语音。模型支持多种语言和风格,能理解非语言线索,如笑声,能在不同语言间切换。最新AI资源8个月前046.1K
OpenReasoning-Nemotron - 英伟达推出的开源系列推理模型OpenReasoning-Nemotron 是英伟达开源的一系列大型语言模型,支持处理数学、科学和代码领域的推理任务。模型基于 DeepSeek R1 0528 模型蒸馏而成,参数规模有 1.5B...最新AI资源9个月前046K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。最新AI资源10个月前045.9K
MindLink - 昆仑万维推出的开源推理大模型MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制,可根据任务复杂度灵活切换推理模式,简单任务快速生成,复杂任务深度推理,兼顾效率与准确性。计划驱动推理范式去掉了“think”标签,降...最新AI资源9个月前045.9K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征,如音素和语调,生成精确的唇部同步和细腻的情感表达,为虚拟角色赋予生动的人类表情。最新AI资源7个月前045.8K
nanobot - HKUDS开源的超轻量级个人AI助手框架nanobot 是香港大学数据智能实验室(HKUDS)开源的超轻量级个人AI助手框架,仅用约 4,000行Python代码实现了完整的多通道AI助手功能。作为 OpenClaw 的轻量替代品,nano...最新AI资源3个月前045.7K
通义DeepResearch - 阿里通义开源的深度研究智能体通义DeepResearch(Tongyi DeepResearch)是阿里巴巴推出的开源智能体,专为深度信息检索和复杂任务推理设计,具备300亿参数,支持多种推理模式,包括ReAct模式和深度模式...最新AI资源7个月前045.6K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型Skywork-SWE-32B是昆仑万维推出的开源的32B规模的软件工程(SWE)自主代码智能体基座模型。模型专注于软件工程任务,具备强大的仓库级代码修复能力,能在多轮交互和长文本处理的复杂场景中表现...最新AI资源10个月前045.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型InternVLA-A1 是上海人工智能实验室开源的具身操作大模型。具备理解、想象、执行一体化的能力,能精准地完成任务。模型融合了真实和模拟的操作数据,通过大规模虚实混合场景资产,自动化构建海量多模态...最新AI资源7个月前045.4K
万兴天幕 – 万兴科技推出AIGC视频创作平台万兴天幕是万兴科技推出的AIGC视频创作平台,覆盖视频、图片及音频生成三大创作领域,专为传媒和文化产业工作者、影视/后期工作者、艺术与设计工作者、广告和营销从业者等打造,提供一站式专业创作解决方案。最新AI资源10个月前045.3K
问小白5 - 问小白推出的全能AI模型问小白5是“All in One”旗舰大模型,智能水平极高。模型在多项评测中表现卓越,如AA - Index综合评估得分64.7分,STEM能力评测86分,接近全球领先的GPT - 5。最新AI资源8个月前045.3K
FactSnap - 新一代AI信息核查工具FactSnap是新一代AI信息核查工具,帮助用户快速验证网页信息的真实性。通过集成多种模型和搜索引擎,在用户浏览网页时对选中的文字进行实时核查。最新AI资源10个月前045.3K
Moltbot - 开源的本地优先AI助手,支持多渠道与用户交互Moltbot(原名Clawdbot)是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手,WhatsApp、Telegram、Discord、Slack、iMessage...最新AI资源3个月前045.2K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型Gemini 2.5 Deep Think 是谷歌推出的 AI 推理模型,专为解决复杂任务设计。是获得 2025 年国际数学奥林匹克竞赛(IMO)金牌的模型的变体,通过并行思考技术(Parallel ...最新AI资源9个月前045.2K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集Meeseeks 是美团 M17 团队开源的大模型评测集,用在评估模型的指令遵循能力。Meeseeks 通过三级评测框架,从宏观到微观全面衡量模型是否能严格按照用户指令生成回答,不评估回答内容的知识正...最新AI资源8个月前045.1K
TRELLIS.2 - 微软开源的大型3D生成模型TRELLIS.2是微软开源的大型3D生成模型,拥有40亿参数,专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构,能高效处理复杂拓扑和锐利特征,生成具有全PBR材质的高质量3D资...最新AI资源4个月前045.1K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型,专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色,支持从初始规划...最新AI资源7个月前045K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议职达AI简历是高效便捷的智能简历生成与优化平台。平台基于AI技术,帮助用户快速生成专业个性化的简历。用户只需输入基本信息和经历,平台能在短时间内生成优质简历,提供2800+精美模板,覆盖多种岗位。最新AI资源11个月前045K
Seed LiveInterpret 2.0 - 字节跳动推出的同声传译模型Seed LiveInterpret 2.0 是字节跳动 Seed 团队推出的先进同声传译模型,支持中英双向翻译。模型具备接近真人水平的翻译准确率和极低延迟,平均语音到语音延迟仅 2 - 3 秒,较传...最新AI资源9个月前045K
FineVision - Hugging Face推出的开源视觉语言数据集FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...最新AI资源8个月前045K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字...最新AI资源7个月前044.9K
LandPPT - 开源免费的AI PPT生成工具,支持本地部署和云端协作LandPPT是基于大语言模型的开源AI PPT生成工具,支持通过主题或上传文档(PDF/Word/Excel)一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能,提供丰富的模板和场景...最新AI资源4个月前044.7K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI AgentCRIC深度智联是克而瑞自主研发的中国房地产首个AI智能体,基于克而瑞20年房地产行业经验和数据积累与多模态大模型技术,打通数据整合、智能分析到内容生成全链路。最新AI资源11个月前044.7K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型LongCat-Video-Avatar 是美团开源的基于 LongCat-Video 构建的先进音频驱动视频生成模型,专注于生成超逼真、唇部同步且具有自然动态和一致身份的长视频。最新AI资源4个月前044.7K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...最新AI资源8个月前044.7K
AionUi - 免费开源的多AI Agent桌面应用AionUi是一个免费开源的多AI Agent桌面应用,支持将Gemini CLI、Claude Code等命令行AI工具整合到图形界面,提供本地文件操作、多会话管理、跨平台运行等功能。支持macOS...最新AI资源2个月前044.6K
Logics-Parsing - 阿里开源的文档解析模型Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...最新AI资源7个月前044.6K
Gemini Robotics On-Device - 谷歌推出首个在本地运行的具身智能模型Gemini Robotics On-Device 是谷歌 DeepMind 推出的支持在机器人本地运行的视觉-语言-动作模型。模型能离线执行任务,依据自然语言指令完成精细动作,如叠衣服、拉开袋子等...最新AI资源10个月前044.6K
Wide Research - Manus平台推出的多智能体协同功能Wide Research 是 Manus 平台推出的强大功能,专为处理复杂且大规模的任务而设计。平台通过系统级的并行处理机制和智能体协作协议,能支持上百个通用智能体同时工作。最新AI资源9个月前044.6K
2024年自动化流程执行创作工作的14款出色AI工具如果您希望利用人工智能的力量来协助日常事务,并在个人和工作生活中实现工作流程自动化,那么您可能会对现有的多款 AI 工具感兴趣。 AssemblyAI 制作了一段五分钟的视频,详细介绍了您可以用来自动...最新AI资源1年前044.5K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整AntSK FileChunk 是免费的智能文档切片工具,专为 RAG(检索增强生成)应用设计。以语义为核心,将文档智能切分为语义完整、连贯的片段,支持多语言,可动态调整切片大小,确保上下文连贯性。最新AI资源8个月前044.5K
Midjourney V1- Midjourney推出的首个图生视频模型Midjourney V1 是Midjourney公司推出的首个 AI 视频生成模型,借助先进的AI技术,支持将静态图片转化为生动的动态视频。用户只需上传图片或用 Midjourney 生成的图像,点...最新AI资源11个月前044.4K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持...最新AI资源8个月前044.4K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型Lumina-DiMOO是上海人工智能实验室联合华为昇腾在2025年世界人工智能大会上推出的新一代多模态生成与理解统一模型。基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件,完成了...最新AI资源8个月前044.4K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强文心大模型X1.1是百度推出的深度思考模型,基于混合强化学习框架,专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色,能准确地提供知识性答案和高质量的文本内容。最新AI资源8个月前044.3K
Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台Paper2Any是北京大学DCAI课题组开源的多模态辅助平台,专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能,能从多种输入源生成模型架构图、技术路线图和实验数据图等...最新AI资源4个月前044.3K
女娲智能体OS - 西南财经开源的通用智能体操作系统女娲智能体OS(Nuwax Agent OS)是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎,可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...最新AI资源4个月前044.3K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型Qwen-Image-Layered是阿里团队开源的AI图像编辑模型,能将普通图片智能分解为独立的透明图层,实现类似Photoshop的精准编辑。模型采用Apache 2.0协议开源,支持灵活控制图层...最新AI资源4个月前044.2K
Klear-Reasoner - 快手推出的全新推理模型Klear-Reasoner 是快手推出的高性能推理模型,基于 Qwen3-8B-Base 进行开发。模型通过长思维链监督微调和强化学习训练,在数学和代码推理方面表现出色。Klear-Reasoner...最新AI资源8个月前044.2K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿DeckSpeed是AI演示文稿制作工具,基于对话式交互,用户基于自然语言表达需求,快速生成个性化幻灯片,无需依赖传统模板。工具支持实时反馈调整,用户能随时修改幻灯片的颜色、风格和内容,确保演示文稿完...最新AI资源11个月前044.2K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型VoxCPM 1.5 是面壁智能发布的开源语音生成模型,基于无需分词器的文本到语音(TTS)技术,具有多项创新和改进。采用端到端的扩散自回归架构,直接从文本生成连续的语音波形,避免了传统分词方法的局限...最新AI资源5个月前044.2K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型Xiaomi-MiMo-Audio 是小米开源的70亿参数端到端语音大模型,具备多语言对话、语音续写、少样本泛化和音频理解等强大功能,能在语音智能和音频理解基准测试中达到SOTA水平,超越谷歌Gemi...最新AI资源7个月前044.1K
TuriX-CUA - 开源AI桌面自动化工具,AI直接操作电脑桌面TuriX-CUA 是开源的 AI 桌面自动化工具,能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统,通过先进的计算机...最新AI资源4个月前044K
EmbodiChain - 跨维智能推出的开源具身智能开发平台EmbodiChain是跨维智能推出的开源具身智能开发平台,专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增,从根本上...最新AI资源3个月前044K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型NeuTTS Air是开源的轻量级语音合成模型,由Neuphonic团队开发,可在本地设备(如手机、笔记本、树莓派)上实时运行,无需依赖云端。采用0.5B参数的Qwen架构和自研NeuCodec编解码...最新AI资源7个月前043.8K
OpenAkita - 开源的自进化AI助手框架,多平台无缝协作OpenAkita是开源的自进化AI助手框架,提供智能、灵活且易于使用的AI辅助工具。每日自动执行内存整合、错误自检与修复、任务复盘,遇到卡壳时自动生成新技能并安装依赖,越用越聪明。支持Windows...最新AI资源2个月前043.8K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架Youtu-GraphRAG 是腾讯优图实验室开源的图检索增强生成框架,帮助大语言模型更精准地处理复杂问答任务。通过构建四层知识树,将知识拆解为属性、关系、关键词和社区四个层次,实现跨领域知识的自主演...最新AI资源8个月前043.7K
阶跃深研 - 阶跃星辰推出的AI深入研究工具阶跃深研是阶跃星辰推出的高效AI研究工具,能在短时间内自主完成复杂问题的研究并生成专业报告。工具专为金融、咨询、医疗、法律等领域设计,凭借深度搜索与信息整合能力,在行业评测中表现优异。最新AI资源9个月前043.7K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列Tencent-HY-MT1.5是腾讯混元开源的翻译模型1.5版本,包含1.8B和7B两个模型,支持33种国际语言及5种民汉/方言互译。1.8B模型专为手机等消费级设备优化,仅需1GB内存即可实现端侧...最新AI资源4个月前043.6K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型MiniMax Music 1.5 是先进的 AI 音乐生成工具,支持根据用户的自然语言描述,生成长达4分钟的音乐作品。模型支持多种音乐风格和情绪定制,生成的人声音色自然饱满,转音顺畅,编曲层次丰富...最新AI资源8个月前043.6K
Hyprnote - 开源的本地优先AI会议笔记工具Hyprnote 是开源的本地优先 AI 会议笔记工具,专为专业人士设计,保护用户隐私并提升会议效率。采用“本地优先”原则,所有数据存储和处理均在用户本地设备上完成,确保数据安全,支持离线运行。最新AI资源8个月前043.5K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别(OCR)模型,通过“上下文光学压缩”技术,将文本转换为图像,利用视觉 token 进行压缩和解码,实现高效长文本处理。最新AI资源6个月前043.5K
Neovate Code - 蚂蚁开源的智能编程助手Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手,通过人工智能技术提升开发效率。具备对话式开发功能,开发者可以通过自然语言描述需求,Neovate Code 能理解并生成相应的代...最新AI资源7个月前043.4K
FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型FireRed-Image-Edit 是小红书 Super Intelligence 团队开源的通用图像编辑模型,基于扩散 Transformer 架构,在 GEdit、ImgEdit 等多个权威评测...最新AI资源2个月前043.3K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型SoulX-Podcast 是 Soul AI Lab 开源的先进多说话者对话式语音合成模型,专为生成高质量播客内容设计。具备多轮对话生成能力,能模拟真实播客场景中的流畅对话,支持普通话、英语及多种中...最新AI资源6个月前043.2K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架ZeroSearch是阿里巴巴通义实验室开源的创新大模型搜索引擎框架。框架无需与真实搜索引擎交互,基于模拟搜索引擎的方式,用大模型自身的预训练知识生成相关或噪声文档,大幅降低训练成本(降低80%以上...最新AI资源11个月前043.1K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...最新AI资源7个月前043K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列Molmo 2是Allen Institute for AI(Ai2)发布的开源多模态模型,提升视频和多图像理解能力。包含三个变体:Molmo 2(8B)、Molmo 2(4B)和Molmo 2-O...最新AI资源4个月前043K
OneCAT - 美团联合上海交大开源的多模态模型OneCAT是美团联合上海交大推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的...最新AI资源8个月前043K
WebWeaver - 阿里通义开源的新型双智能体框架WebWeaver是阿里巴巴通义团队推出的新型双智能体框架,主要用在开放性深度研究,能模拟人类研究过程,分为规划和写作两个智能体。最新AI资源7个月前042.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构Kimi Linear 是月之暗面开源的新型混合线性注意力架构,以 Kimi Delta Attention(KDA)为核心,通过更细粒度的门控机制优化了传统注意力模型,显著提升了硬件效率和内存控制能...最新AI资源6个月前042.5K
OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统OpenScreen 是开源免费的屏幕录制工具,为用户提供一个简单易用且功能完善的 Screen Studio 替代品。支持 Mac 和 Windows 双系统,完全免费且遵循 MIT 协议,可用于个...最新AI资源5个月前042.4K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发飞算JavaAI是飞算科技推出的智能Java开发助手。平台支持自然语言输入,实现从需求分析到代码生成的全流程智能化开发。开发者只需输入需求描述,飞算JavaAI能精准理解、生成完整的工程代码框架,平台...最新AI资源11个月前042.3K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱综合介绍 美间 是一个专注于家居设计和营销谈单的在线平台。该网站提供丰富的设计素材、软装和提案PPT模板、海报模板等,帮助设计师和业主快速生成高质量的设计方案。美间的在线软装设计工具可以在短短10秒内...最新AI资源# AI图像编辑# AI生成演示文稿/PPT10个月前042.3K
Qwen3-Omni - 阿里通义推出的全模态AI模型Qwen3-Omni 是阿里通义团队推出的全模态 AI 模型,能处理文本、图像、音频和视频等多种数据类型,支持 119 种语言的文本交互,具备低延迟和高度可控的特点。最新AI资源7个月前042.3K
GLM-ASR - 智谱AI开源的高性能语音识别模型系列GLM-ASR是智谱AI开源的高性能语音识别模型系列,包含云端模型GLM-ASR-2512和开源端侧模型GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多...最新AI资源5个月前042.1K
IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列,专注于代码智能领域,具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式,从代码库演化...最新AI资源4个月前042K
Code2Video - Show Lab开源的AI教学视频生成框架Code2Video是创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些...最新AI资源7个月前042K
Step-GUI - 阶跃星辰开源的AI Agent系列模型Step-GUI是阶跃星辰公司开源的AI Agent系列模型,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议,以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。专...最新AI资源4个月前041.9K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具PromptEnhancer 是腾讯混元团队开源的提示词增强工具,提升文本到图像(Text-to-Image,T2I)模型的生成效果。通过链式推理(Chain-of-Thought,CoT)的方式对用...最新AI资源8个月前041.8K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动,能生成高分辨率、长时长且视觉一致的人物视频。最新AI资源8个月前041.6K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架Stand-In 是腾讯微信视觉团队推出的轻量级、即插即用的身份保留视频生成框架。专注于在视频生成中保留特定身份特征,仅需训练基础模型1%的额外参数,能在人脸相似度和自然度方面取得优异效果。最新AI资源8个月前041.6K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架MobiAgent 是上海交通大学 IPADS 实验室开源的移动端智能体工具链,帮助用户构建专属的手机智能助手。通过记录用户操作轨迹并生成高质量数据,训练出能理解自然语言指令的智能体。核心特点包括高效...最新AI资源8个月前041.5K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差...最新AI资源7个月前041.4K
FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架,能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术,将视频拆解为0.5秒一小段接力处理,配合结构化...最新AI资源3个月前041.4K
Ouro - 字节跳动Seed团队开源的新型循环语言模型Ouro是字节跳动Seed团队开发的新型循环语言模型(Looped Language Models),核心创新在于通过参数共享的循环计算结构,在预训练阶段直接构建推理能力。模型采用24层作为基础块,通...最新AI资源6个月前041.3K