最新のAIリソース

共 3045 篇文章

コース情報最新のAIリソース AI知識ベース AIニュース

順番に並べる

目を通すブックマーク

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

最新のAIリソース

2ヶ月前

027.2K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

最新のAIリソース

2ヶ月前

027.1K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

最新のAIリソース

2ヶ月前

027K

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型，核心创新在于采用DeepEncoder V2架构，将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...

最新のAIリソース

2ヶ月前

034.5K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

最新のAIリソース

2ヶ月前

030.7K

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot（原名Clawdbot）是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手，WhatsApp、Telegram、Discord、Slack、iMessage...

最新のAIリソース

2ヶ月前

040K

json-render - Vercel Labs开源的AI生成UI的工具

json-render - Vercel Labs开源的AI生成UI的工具

json-render是Vercel Labs开源的AI生成UI的工具，通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据，前端再...

最新のAIリソース

2ヶ月前

033.1K

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架，能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术，将视频拆解为0.5秒一小段接力处理，配合结构化...

最新のAIリソース

2ヶ月前

035.7K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

最新のAIリソース

2ヶ月前

031K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

最新のAIリソース

3ヶ月前

029K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

最新のAIリソース

3ヶ月前

026.9K

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain是跨维智能推出的开源具身智能开发平台，专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增，从根本上...

最新のAIリソース

3ヶ月前

039.9K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

最新のAIリソース

3ヶ月前

027.6K

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型，拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程，采用统一的Transformer架构，能同步处理语音理解与生成。模型支持全...

最新のAIリソース

3ヶ月前

030.5K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

最新のAIリソース

3ヶ月前

027.1K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

最新のAIリソース

3ヶ月前

026.1K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

最新のAIリソース

3ヶ月前

034.8K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

最新のAIリソース

3ヶ月前

022.1K

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork是开源的智能代理工作流桌面应用，作为Claude Cowork的免费替代品，提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node.js技术栈，支持技能插件扩展和模...

最新のAIリソース

3ヶ月前

070.9K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

最新のAIリソース

3ヶ月前

020K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

最新のAIリソース

3ヶ月前

032.4K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

最新のAIリソース

3ヶ月前

021.5K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

最新のAIリソース

3ヶ月前

025.2K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

最新のAIリソース

3ヶ月前

024.1K

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS（Nuwax Agent OS）是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎，可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...

最新のAIリソース

3ヶ月前

037.4K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

最新のAIリソース

3ヶ月前

026.1K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

最新のAIリソース

3ヶ月前

028.9K

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型，属于Qwen3-VL系列，主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间，通过双塔架构生成向量表...

最新のAIリソース

3ヶ月前

031.7K

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed（蚂蚁·安诊儿医疗大模型）是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构（MoE），总参数量达1000亿...

最新のAIリソース

3ヶ月前

034.7K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

最新のAIリソース

3ヶ月前

026K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

最新のAIリソース

3ヶ月前

031.1K

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型，参数规模为 19.6 亿。专为智能体任务设计，具备强大的“原生智能体能力”，在多项任务中超越同规模甚至更大模型。

最新のAIリソース

3ヶ月前

026.1K

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建，融合三维重建、视觉生成技术与物理引擎，实现毫米级精准复刻真实环境，通过自然语言指...

最新のAIリソース

3ヶ月前

025.1K

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT是基于大语言模型的开源AI PPT生成工具，支持通过主题或上传文档（PDF/Word/Excel）一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能，提供丰富的模板和场景...

最新のAIリソース

3ヶ月前

038.8K

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA 是开源的 AI 桌面自动化工具，能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统，通过先进的计算机...

最新のAIリソース

3ヶ月前

037.8K

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型，基于 Qwen3 系列开发，包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术，支持 256K 上下文...

最新のAIリソース

3ヶ月前

044.1K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

最新のAIリソース

3ヶ月前

028.6K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

最新のAIリソース

3ヶ月前

028.6K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

最新のAIリソース

3ヶ月前

027.4K

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any是北京大学DCAI课题组开源的多模态辅助平台，专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能，能从多种输入源生成模型架构图、技术路线图和实验数据图等...

最新のAIリソース

3ヶ月前

037.6K

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统，专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术，自动存储关键帧并在后续生成时参考，确保人物外貌、服装、场景元素...

最新のAIリソース

3ヶ月前

027.2K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

最新のAIリソース

3ヶ月前

030.3K

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban是开源的AI编程代理任务管理工具，专为同时使用多个AI编程助手（如Claude Code、Gemini CLI、Codex等）的开发者设计。通过看板形式统一管理任务进度，支持并行...

最新のAIリソース

3ヶ月前

030.2K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

最新のAIリソース

3ヶ月前

030.7K

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列，专注于代码智能领域，具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式，从代码库演化...

最新のAIリソース

3ヶ月前

036.5K

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team オープンソーステキスト生成3Dモーションモデル

Hybrid Motion1.0（HY-Motion1.0）は、テンセントハイブリッドチームオープンソースのテキスト生成3Dアクションモデルであり、10億パラメータ拡散トランスフォーマーアーキテクチャを使用して、高品質の3Dキャラクターアニメーションの自然言語記述を通じて直接生成することができます。

最新のAIリソース

3ヶ月前

035.1K

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデル

Yume 1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルで、リアルタイムのインタラクティブレンダリング（シングルカードで12FPS）が可能です。時空間結合チャネルモデリング（TSCM）技術を採用しており、コンテキストの長さが長くなっても...

最新のAIリソース

3ヶ月前

029.6K

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P オープンソース・フリー・ミュージックビデオ生成システム。

AutoMVは、M-A-Pチームが複数の大学と共同で開発したオープンソースのミュージックビデオ生成システムで、トレーニングなしで完成した楽曲をもとに首尾一貫したミュージックビデオを自動生成することができる。音楽分析、脚本作成、演出、品質管理モジュールを含むマルチインテリジェンス協調モデルを採用しており、歌詞、ビート、...

最新のAIリソース

3ヶ月前

032.2K

Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - テンセントハイブリッドオープンソース翻訳モデルシリーズ

Tencent-HY-MT1.5はTencentハイブリッドオープンソース翻訳モデルバージョン1.5であり、1.8Bと7Bの2つのモデルを含み、33の国際言語と5種類の中国語および中国語/方言翻訳をサポートしています。

最新のAIリソース

3ヶ月前

038.4K

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

ペルソナライブ - マカオ大学をはじめとするオープンソースのリアルタイムAI似顔絵アニメーション生成ライブフレームワーク

PersonaLiveは、マカオ大学、dzine.ai、グレーターベイエリア大学GVCラボが共同開発したオープンソースのリアルタイムAI顔交換ライブストリーミングフレームワークである。一般的なコンシューマーグレードのグラフィックカード（12GBのビデオメモリ）で、低レイテンシー、高フレームレートのデジタルパーソンドライブを実現し、カメラを通してリアルタイムをサポートする。

最新のAIリソース

3ヶ月前

031K

Computer Use Preview - Google开源的AI浏览器自动化工具

コンピュータ利用プレビュー - GoogleのオープンソースAIブラウザ自動化ツール

コンピュータの使用プレビューは、Webページの対話を達成するために自然言語コマンドを介して、ジェミニモデルに基づいて、GoogleのオープンソースのAIブラウザ自動化ツールです。視覚認識プロセスの「スクリーンショット→分析→実行」を使用し、Playwrighをサポートします。

最新のAIリソース

3ヶ月前

026.1K

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI - オープンソースのAI動画から手描き分割画面ツール、Bステーション、小さな赤い本をサポート

ClipSketch AIは、ショートビデオクリエイターのために設計されたオープンソースの動画から手描き風分割画面への変換ツールです。B station、Xiaohongshu、その他のプラットフォームからの動画をワンクリックで手描き風のストーリーボードに変換でき、キーフレームのマーキング、サブシーンとソーシャルコピーの自動生成をサポートし、ユーザー定義のロールを統合できます。

最新のAIリソース

3ヶ月前

031.4K

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル

MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能：クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...

最新のAIリソース

3ヶ月前

035.3K

MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 - MiniMaxオープンソースコーディングとエージェントモデル

MiniMax M2.1は、MiniMaxのオープンソースのコーディングとエージェントモデルで、100億のアクティブ化と、Rust、Java、Golang、C++、Kotlin、Objective-C、TypeS...などの多くの主要なプログラミング言語をサポートしています。

最新のAIリソース

3ヶ月前

022.8K

InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - リトルレッドブックと復旦大学のオープンソースレイアウト制御生成技術

InstanceAssembleは、Xiaohongshuと復旦大学が共同でオープンソース化したレイアウト制御生成技術で、「Instance Assemble Attention」のメカニズムにより、単純なレイアウトから複雑なレイアウトまで、また疎なレイアウトから密なレイアウトまで、正確な画像生成を実現します。2段階のカスケードアーキテクチャを採用し、最初に画像の背景に入り、次に1つずつ...

最新のAIリソース

3ヶ月前

019.6K

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ

Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。

最新のAIリソース

3ヶ月前

031.8K

QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - Ali Tongyi Lab オープンソース長文推論モデル

QwenLong-L1.5は、Alibaba Tongyi Labによるオープンソースのロングテキスト推論モデルであり、超ロングコンテキスト（例えば1M-4Mトークン）の複雑な推論問題の解決に焦点を当てている。核となるブレークスルーは、学習後の段階における3つの大きな革新にある。知識グラフ、SQL構文解析、マルチインテリジェンスによる...

最新のAIリソース

3ヶ月前

024.3K

Infographic - 阿里AntV团队开源的信息图生成框架

インフォグラフィック - Ali AntV team オープンソース・インフォグラフィック生成フレームワーク

インフォグラフィックは、Ali AntVチームの新世代のオープンソースフレームワークで、G2とAnt Designの開発に基づいており、高品質のインフォグラフィックの迅速な生成に焦点を当て、30以上のレイアウトテンプレート、120以上のプリセットテーマとAIインテリジェント生成機能を提供します。

最新のAIリソース

3ヶ月前

029.4K

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - クロードコード用に設計されたオープンソースのグラフィカルデスクトップアプリケーション

opcodeはクロードコードオープンソースのグラフィカルなデスクトップアプリケーションのために設計されています , Tauri 2 + React 18 + Rustの開発に基づいて開発者winfunc .クロードコードのプロジェクトを管理するための視覚的なインターフェイスを提供します。

最新のAIリソース

3ヶ月前

026.6K

TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク

TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100～200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...

最新のAIリソース

4ヶ月前

030.8K

MedASR - 谷歌开源的医疗语音识别模型

MedASR - Googleのオープンソース医療音声認識モデル

MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。

最新のAIリソース

4ヶ月前

031.3K

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデル

Fun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチビッグモデルで、ASR+LLM+TTSスプライシングを必要としない直接音声インスピーチアウト、流暢な中国語と英語のバイリンガル、低遅延で自然な音色です。25Hzのデュアル解像度共有LLMを使用...

最新のAIリソース

4ヶ月前

027.7K

PromptFill - 开源的结构化提示词生成AI工具，专为AI绘画设计

PromptFill - AI絵画のために設計されたオープンソースの構造化キューワード生成AIツール

PromptFillはAI描画のために設計された構造化キュー生成ツールで、視覚的な「穴埋め」インタラクションを通じて、複雑なプロンプトを素早く構築、管理、反復することができ、AI画像生成の効率と品質を向上させます。PromptFillのコア機能...

最新のAIリソース

4ヶ月前

027.5K

GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - ウィズダムスペクトラムAIオープンソースの最新世代フラッグシップ大型モデル

GLM-4.7は、Smart Spectrum AIによってリリースされ、オープンソース化されたフラッグシップ・グランドモデルの最新世代で、AIプログラミング、複雑な推論、知的身体タスクのために深く最適化されています。このモデルは、200kのコンテキスト長と128kの最大出力をサポートし、多言語コーディング、長距離タスク計画、ツールコラボレーション機能を備えています。

最新のAIリソース

4ヶ月前

043.5K

NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - NVIDIAがスタンフォード大学、カリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデル

NitroGenは、NVIDIAがスタンフォード大学やカリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデルで、1,000種類以上のゲームをプレイすることができる。このモデルはGROOT N1.5アーキテクチャをベースとしており、4万時間に及ぶゲーム映像データ（ジョイスティック操作のアノテーションを含む）を分析することで実現されています...

最新のAIリソース

4ヶ月前

036.3K

Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - AI画像編集モデルをAliチームがオープンソース化

Qwen-Image-Layeredは、AliチームによるオープンソースのAI画像編集モデルで、通常の画像を独立した透明なレイヤーにインテリジェントに分解し、Photoshopのような精密な編集を実現する。このモデルはApache 2.0プロトコルを使用してオープンソース化されており、レイヤーの柔軟な制御をサポートしています。

最新のAIリソース

4ヶ月前

039.2K

VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMaxコンク・ビデオ・チームのオープンソース視覚的生成モデリング技術

VTP（Visual Tokenizer Pre-training）とは、MiniMax Conch Videoチームが提唱するビジュアル生成モデルのキーテクノロジーで、ビジュアル・トークナイザー（トークナイザー）の事前学習方法を改善することで、生成システムのパフォーマンスを向上させるものです。従来の方法...

最新のAIリソース

4ヶ月前

031.4K

T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト（最大128K）を処理することができる。

最新のAIリソース

4ヶ月前

030.1K

FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデル

FunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...

最新のAIリソース

4ヶ月前

029.8K

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - アップルのオープンソース単眼3Dシーン合成技術

SHARP（Sharp Monocular View Synthesis in Less Than a Second）は、アップルのオープンソース単眼ビュー合成技術です。1枚の写真からシーンのリアルな3D表現を1秒以内に素早く生成できる。

最新のAIリソース

4ヶ月前

033.4K

TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - マイクロソフトのオープンソース大規模3D生成モデル

TRELLIS.2は、40億のパラメータを持つマイクロソフトのオープンソース大規模3Dジェネレーティブモデルです。革新的な "O-Voxel "スパースボクセル構造を使用して、複雑なトポロジーとシャープな特徴を効率的に処理し、完全なPBRマテリアルで高品質な3D情報を生成することができます。

最新のAIリソース

4ヶ月前

039.8K

Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - ステップスターオープンソースAIエージェントシリーズモデル

Step-GUIはStep-StarのオープンソースAIエージェントシリーズで、クラウドモデルStep-GUI、GUIエージェントのための最初のMCPプロトコル、携帯電話の展開をサポートする業界初のオープンソースエンドサイドモデルStep-GUI Edgeを含みます。

最新のAIリソース

4ヶ月前

037.5K

A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - エージェント駆動型ユーザー・インタラクション・インターフェースのためのGoogleのオープンソース宣言型プロトコル

A2UI（Agent-to-User Interface）は、Googleがオープンソースで提供するエージェント駆動型インターフェース・プロトコルであり、AIエージェント向けに複雑な対話型インターフェースを生成する際の課題に対処する。AIエージェントがユーザーインターフェースの構造を記述できるようにする宣言的なJSONフォーマットを通じて、クライアントアプリケーションは、AIエージェントがユーザーインターフェースの構造を記述できるようにします。

最新のAIリソース

4ヶ月前

044.2K

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル（Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。

最新のAIリソース

4ヶ月前

032.1K

混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5（Tencent HY WorldPlay）は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...

最新のAIリソース

4ヶ月前

033.3K

Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - Ai2オープンソース・マルチモーダル動画像理解モデルファミリー

Molmo 2は、Allen Institute for AI (Ai2)によって公開されたオープンソースのマルチモーダルモデルで、ビデオやマルチイメージの理解を向上させる。Molmo 2 (8B)、Molmo 2 (4B)、Molmo 2-O...の3種類があります。

最新のAIリソース

4ヶ月前

038K

LongCat-Video-Avatar - Meituanオープンソースアバタービデオ生成モデル

LongCat-Video-Avatarは、Meituanによってオープンソース化されたLongCat-Videoをベースに構築された先進的な音声駆動型ビデオ生成モデルであり、自然なダイナミクスと一貫したアイデンティティを持つ、超リアルでリップシンクされたロングビデオの生成に焦点を当てている。

最新のAIリソース

4ヶ月前

038.9K

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - シャオミが公開したオープンソースMoEアーキテクチャの大型モデル

MiMo-V2-FlashはXiaomiが発表したオープンソースのMoEアーキテクチャの大型モデルで、総パラメータは3,090億、アクティブパラメータは150億であり、効率的な推論とインテリジェントボディの応用に焦点を当てている。ハイブリッドアテンションアーキテクチャと多言語メタ予測技術を採用し、推論速度は150トークン/秒である。

最新のAIリソース

4ヶ月前

035.2K

Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 - NVIDIAがリリースしたオープンソースのAIモデルファミリー

Nemotron 3は、NVIDIAがNano、Super、UltraサイズでリリースしたオープンソースのAIモデルファミリーです。Nemotron 3は、潜在MoEアーキテクチャを採用し、推論効率を大幅に向上させ、運用コストを削減している。そのうちの1つ...

最新のAIリソース

4ヶ月前

031.8K

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - アリ・トンイのオープンソースAI動画生成フレームワーク、清華大学らと共同開発

Wan-Moveは、Ali Tongyi Labsと清華大学などが共同開発したオープンソースのAI動画生成フレームワークで、精密なモーションコントロール技術による高品質な動画合成に焦点を当てている。核心技術は「潜在的軌道誘導」で、既存の画像-動画モデルに点レベルのモーション制御をシームレスに追加することができる。

最新のAIリソース

4ヶ月前

031.9K

PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - StepStarのオープンソース並列協調AI推論フレームワーク

PaCoRe (Parallel Coordinated Reasoning)は、StepFunのオープンソースの革新的な並列協調推論フレームワークで、超並列思考メカニズムを通じて、複数の視点から同時に問題解決策を探索し、従来の...

最新のAIリソース

4ヶ月前

035.1K

Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides - Nano Banana Proモデルに基づいたオープンソースのAI PPT生成ツール

Banana Slidesは、Nano Banana Pro AIモデルに基づいたオープンソースのインテリジェントなPPTジェネレーターです。ユーザーがトピックを一文で説明することができ（例えば「生態系への人間の影響」）、それを自己...

最新のAIリソース

4ヶ月前

040.5K

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル

Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。複数の参照画像を通して被写体一貫性のある動画を生成し、多被写体一貫性と背景デカップリングにおける既存モデルの欠陥を解決します。

最新のAIリソース

4ヶ月前

030.8K

Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 香港大学のオープンソース学術論文をスライドに変換するAIツール

Paper2Slidesは、香港大学のData Intelligence LaboratoryによるオープンソースのAIツールで、学術論文をワンクリックでプロフェッショナルなスライドやポスターに変換する。RAG (Retrieval Augmented Generation)技術を使用し、ネットワーク情報に依存するのではなく、ドキュメントの内容を直接解析することで、生成されるPPTが元のPPTと高い整合性を持つようにします。

最新のAIリソース

4ヶ月前

032.8K

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AIのオープンソース・リアルタイム・ストリーミング映像生成システム

RealVideoは、Smart Spectrum AIが提供するオープンソースのリアルタイム・ストリーミング・ビデオ生成システムで、2～3秒で自然で滑らかなビデオ応答を素早く生成することができる。ユーザーは写真をアップロードしてテキストを入力するだけで、対応する音声と動画を生成し、AIキャラクターとのリアルタイム対話を可能にする。

最新のAIリソース

4ヶ月前

029.6K

OpenScreen - 开源免费的屏幕录制工具，支持Mac和Windows双系统

OpenScreen - Mac と Windows 用のオープンソースのフリーのスクリーン録画ツール。

OpenScreenは、Screen Studioに代わる使いやすく機能的なオープンソースの無料画面録画ツールです。MacとWindowsの両方をサポートし、完全にフリーで、MITプロトコルに従っています。

最新のAIリソース

4ヶ月前

036.9K

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - Wisdom spectrumとTsinghuaのオープンソース映画・テレビキャラクタアニメーション生成フレームワーク

SCAIL（Studio-Grade Character Animation via In-Context Learning）は、Smart Spectrumが清華大学のLiu Yongjin教授のグループと共同で提案した、映画・テレビ用のキャラクターアニメーション生成フレームワークです。このフレームワークを通して...

最新のAIリソース

4ヶ月前

032.2K

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - GoogleのオープンソースAI研究エージェントのテストベンチマーク

DeepSearchQAはGoogleのオープンソースAI研究エージェントテストベンチマークであり、複雑なマルチステップクエリタスクにおける知能のパフォーマンスを評価するために設計されている。17のドメインをカバーする900の手作業で設計された「因果連鎖」タスクで構成され、AIは人間の研究者のように行動し、多段階のクエリを実行する必要があります。

最新のAIリソース

4ヶ月前

032.3K

Claude-Mem - 开源Claude Code记忆插件，支持跨会话持久化记忆

Claude-Mem - クロスセッション永続メモリをサポートするオープンソースクロードコードメモリプラグイン

Claude-MemはClaude Codeのオープンソースプラグインであり、セッション間のAIによる記憶喪失の問題に対処する。ツールによるオブザベーションの使用を自動的にキャプチャし、セマンティックサマリーを生成し、後続のセッションで関連するコンテキストを注入することで、Claudeを支援します...

最新のAIリソース

4ヶ月前

051.1K

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA - Q&Aプラットフォームの迅速な構築を支援するオープンソースのAIアフターサービスシステム

KoalaQAはChaitinチームによって開発されたオープンソースのインテリジェントなアフターサービスシステムです。AIモデルに基づいて、AIカスタマーサービス、AI検索、ナレッジベース管理機能を提供し、企業がインテリジェントQ&Aプラットフォームを迅速に構築できるよう支援します。このシステムは、24時間365日のリアルタイム応答をサポートしています。

最新のAIリソース

4ヶ月前

028K

VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング

VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成（TTS）技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...

最新のAIリソース

4ヶ月前

038.8K

Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Mistral AIによるオープンソースコマンドラインコーディングアシスタント

Mistral Vibeは、Devstralモデルに基づいて開発されたMistral AIによるオープンソースのコマンドラインコーディングアシスタントで、コード検索、ファイル操作、バージョン管理などのタスクを完了するための自然言語対話をサポートします。プロジェクトの構造やGitのステータスを@記号で自動的にスキャンすることができます。

最新のAIリソース

4ヶ月前

029.9K

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システム

GLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。

最新のAIリソース

4ヶ月前

029.5K

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - ミストラルAIの次世代プログラミング・モデル・ファミリー

Devstral 2は、Mistral AIが提供するソフトウェア・エンジニアリング・タスクのために設計された新世代プログラミング・モデル・ファミリーで、Devstral 2（123Bパラメータ）とDevstral Small 2（24Bパラメータ）から構成されている。

最新のAIリソース

4ヶ月前

029K

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - Wisdom Spectrum AIオープンソース高性能音声認識モデルシリーズ

GLM-ASRは、Smart Spectrum AIがオープンソース化した高性能音声認識モデル群で、クラウドベースのモデルGLM-ASR-2512とオープンソースのエンドサイドモデルGLM-ASR-Nano-2512があります。GLM-ASR-2512は、世界をリードするクラウドベースの音声認識モデルで、複数の...

最新のAIリソース

4ヶ月前

035.6K

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデル

OpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。

最新のAIリソース

4ヶ月前

032K

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピント

SurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。

最新のAIリソース

4ヶ月前

029.7K

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズ

GLM-4.6Vは、Smart Spectrum AIによってオープンソース化されたマルチモーダル大規模言語モデルのシリーズです。このシリーズには2つのバージョンがあります：GLM-4.6V (106B-A12B)は、クラウドおよび高性能クラスタシナリオ用の基本バージョンで、Mixed Expert (MoE)アーキテクチャ、合計約1060億参照、および活性化...

最新のAIリソース

4ヶ月前

026.9K

InkSight - Google开源的AI手写识别工具

InkSight - GoogleのオープンソースAI手書き文字認識ツール

InkSightはGoogleのオープンソースAI手書き認識ツールで、紙の手書きメモを編集可能なデジタルインクファイル（SVG形式など）に変換します。従来のOCRとは異なり、テキストコンテンツを認識し、手書きスタイル、段落構造、フォーカスマークを復元することができます。

最新のAIリソース

4ヶ月前

025.8K

もっと読む