최신 AI 리소스

共 3045 篇文章

코스 정보 최신 AI 리소스 AI 기술 자료 AI 뉴스

순서대로 정렬

훑어보기 북마크(인터넷)

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

최신 AI 리소스

2개월 전

027.2K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

최신 AI 리소스

2개월 전

027.1K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

최신 AI 리소스

2개월 전

027K

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型，核心创新在于采用DeepEncoder V2架构，将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...

최신 AI 리소스

2개월 전

034.5K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

최신 AI 리소스

2개월 전

030.7K

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot（原名Clawdbot）是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手，WhatsApp、Telegram、Discord、Slack、iMessage...

최신 AI 리소스

2개월 전

040K

json-render - Vercel Labs开源的AI生成UI的工具

json-render - Vercel Labs开源的AI生成UI的工具

json-render是Vercel Labs开源的AI生成UI的工具，通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据，前端再...

최신 AI 리소스

2개월 전

033.1K

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架，能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术，将视频拆解为0.5秒一小段接力处理，配合结构化...

최신 AI 리소스

2개월 전

035.7K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

최신 AI 리소스

2개월 전

031K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

최신 AI 리소스

3 개월 전

029K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

최신 AI 리소스

3 개월 전

026.9K

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain是跨维智能推出的开源具身智能开发平台，专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增，从根本上...

최신 AI 리소스

3 개월 전

039.9K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

최신 AI 리소스

3 개월 전

027.6K

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型，拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程，采用统一的Transformer架构，能同步处理语音理解与生成。模型支持全...

최신 AI 리소스

3 개월 전

030.5K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

최신 AI 리소스

3 개월 전

027.1K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

최신 AI 리소스

3 개월 전

026.1K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

최신 AI 리소스

3 개월 전

034.8K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

최신 AI 리소스

3 개월 전

022.1K

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork是开源的智能代理工作流桌面应用，作为Claude Cowork的免费替代品，提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node.js技术栈，支持技能插件扩展和模...

최신 AI 리소스

3 개월 전

070.9K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

최신 AI 리소스

3 개월 전

020K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

최신 AI 리소스

3 개월 전

032.4K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

최신 AI 리소스

3 개월 전

021.5K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

최신 AI 리소스

3 개월 전

025.2K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

최신 AI 리소스

3 개월 전

024.1K

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS（Nuwax Agent OS）是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎，可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...

최신 AI 리소스

3 개월 전

037.4K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

최신 AI 리소스

3 개월 전

026.1K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

최신 AI 리소스

3 개월 전

028.9K

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型，属于Qwen3-VL系列，主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间，通过双塔架构生成向量表...

최신 AI 리소스

3 개월 전

031.7K

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed（蚂蚁·安诊儿医疗大模型）是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构（MoE），总参数量达1000亿...

최신 AI 리소스

3 개월 전

034.7K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

최신 AI 리소스

3 개월 전

026K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

최신 AI 리소스

3 개월 전

031.1K

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型，参数规模为 19.6 亿。专为智能体任务设计，具备强大的“原生智能体能力”，在多项任务中超越同规模甚至更大模型。

최신 AI 리소스

3 개월 전

026.1K

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建，融合三维重建、视觉生成技术与物理引擎，实现毫米级精准复刻真实环境，通过自然语言指...

최신 AI 리소스

3 개월 전

025.1K

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT是基于大语言模型的开源AI PPT生成工具，支持通过主题或上传文档（PDF/Word/Excel）一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能，提供丰富的模板和场景...

최신 AI 리소스

3 개월 전

038.8K

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA 是开源的 AI 桌面自动化工具，能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统，通过先进的计算机...

최신 AI 리소스

3 개월 전

037.8K

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型，基于 Qwen3 系列开发，包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术，支持 256K 上下文...

최신 AI 리소스

3 개월 전

044.1K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

최신 AI 리소스

3 개월 전

028.6K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

최신 AI 리소스

3 개월 전

028.6K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

최신 AI 리소스

3 개월 전

027.4K

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any是北京大学DCAI课题组开源的多模态辅助平台，专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能，能从多种输入源生成模型架构图、技术路线图和实验数据图等...

최신 AI 리소스

3 개월 전

037.6K

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统，专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术，自动存储关键帧并在后续生成时参考，确保人物外貌、服装、场景元素...

최신 AI 리소스

3 개월 전

027.2K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

최신 AI 리소스

3 개월 전

030.3K

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban是开源的AI编程代理任务管理工具，专为同时使用多个AI编程助手（如Claude Code、Gemini CLI、Codex等）的开发者设计。通过看板形式统一管理任务进度，支持并行...

최신 AI 리소스

3 개월 전

030.2K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

최신 AI 리소스

3 개월 전

030.7K

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列，专注于代码智能领域，具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式，从代码库演化...

최신 AI 리소스

3 개월 전

036.5K

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

혼합 모션 1.0 - 텐센트 혼합 모션 팀 오픈 소스 텍스트 생성 3D 모션 모델

하이브리드 모션1.0(HY-Motion1.0)은 텐센트 하이브리드 팀의 오픈 소스 텍스트 생성 3D 액션 모델로, 10억 개의 파라미터 확산 트랜스포머 아키텍처를 사용하여 고품질 3D 캐릭터 애니메이션의 자연어 설명을 통해 직접 생성할 수 있습니다.

최신 AI 리소스

3 개월 전

035.1K

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 상하이 인공지능 연구소와 푸단대학교에서 오픈소스화한 인터랙티브 월드 제너레이션 모델

Yume 1.5는 상하이 인공지능 연구소, 푸단대학교, 상하이 혁신 연구소가 공동 개발한 오픈 소스 인터랙티브 월드 생성 모델로, 실시간 인터랙티브 렌더링(단일 카드에서 12FPS)이 가능합니다. 컨텍스트 길이가 증가하더라도 공동 시공간 채널 모델링(TSCM) 기술을 채택하여...

최신 AI 리소스

3 개월 전

029.6K

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - 베이퍄오, NU 등과 연계한 M-A-P 오픈 소스 무료 뮤직비디오 생성 시스템

AutoMV는 M-A-P 팀이 여러 대학과 협력하여 개발한 오픈 소스 뮤직비디오 생성 시스템으로, 교육 없이도 완성된 곡을 기반으로 일관된 뮤직비디오를 자동으로 생성할 수 있으며, 음악 분석, 대본 작성, 연출 및 품질 관리 모듈을 포함한 다중 지능 협업 모델을 채택하여 가사, 비트 등을 정확하게 분석할 수 있습니다....

최신 AI 리소스

3 개월 전

032.2K

Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - 텐센트 하이브리드 오픈 소스 번역 모델 시리즈

텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5는 1.8B와 7B 두 가지 모델을 포함하여 33 개 국제 언어와 5 가지 중국어 및 중국어 / 방언 번역을 지원하는 텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5입니다.1.8B 모델은 휴대 전화 및 기타 소비자 등급 장치에 특별히 최적화되어 있으며 1GB의 RAM 만 얻을 수 있습니다.

최신 AI 리소스

3 개월 전

038.4K

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

페르소나라이브 - 마카오 대학교 및 기타 오픈 소스 실시간 AI 인물 애니메이션 생성 라이브 프레임워크

페르소나라이브는 마카오 대학교, dzine.ai, 그레이터 베이 지역 대학교의 GVC 랩이 공동 개발한 오픈 소스 실시간 AI 얼굴 교체 라이브 스트리밍 프레임워크입니다. 일반 소비자용 그래픽 카드(12GB 비디오 메모리)에서 지연 시간이 짧고 프레임 속도가 빠른 디지털 퍼스널 드라이브를 구현할 수 있으며 카메라를 통한 실시간 스트리밍을 지원합니다....

최신 AI 리소스

3 개월 전

031K

Computer Use Preview - Google开源的AI浏览器自动化工具

컴퓨터 사용 미리보기 - Google의 오픈 소스 AI 브라우저 자동화 도구

컴퓨터 사용 미리보기는 자연어 명령을 통해 웹 페이지 상호 작용을 달성하기 위해 쌍둥이 자리 모델에 기반한 Google의 오픈 소스 AI 브라우저 자동화 도구입니다. 시각적 인식 프로세스의 "스크린 샷 → 분석 → 실행"을 사용하여 Playwrigh ...

최신 AI 리소스

3 개월 전

026.1K

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI - 오픈 소스 AI 비디오를 손으로 그린 분할 화면 도구로 변환, B 스테이션, 작은 빨간 책 지원

ClipSketch AI는 짧은 동영상 제작자를 위해 설계된 오픈 소스 동영상에서 손으로 그린 분할 화면 도구입니다. B 스테이션, 샤오홍슈 및 기타 플랫폼의 동영상을 한 번의 클릭으로 손으로 그린 스타일의 스토리보드로 변환하고, 키 프레임 표시, 서브 장면 자동 생성 및 소셜 카피를 지원하며, 사용자 정의 역할을 통합할 수 있습니다.

최신 AI 리소스

3 개월 전

031.4K

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - 알리 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기본 모델

MAI-UI는 알리바바 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기반 모델로, 애플리케이션 간 작동, 퍼지 의미 이해, 능동적 사용자 상호 작용 및 다단계 프로세스 조정이라는 네 가지 주요 기능을 갖추고 있습니다. 엔드 클라우드 협업 아키텍처를 채택한 경량 모델은 장치에 상주하여 일상적인 작업을 처리하고 복잡한 작업은 클라우드를 대규모로 호출할 수 있습니다.

최신 AI 리소스

3 개월 전

035.3K

MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 - MiniMax 오픈 소스 코딩 및 에이전트 모델

MiniMax M2.1은 100억 건의 활성화를 달성한 MiniMax의 오픈 소스 코딩 및 에이전트 모델이며 Rust, Java, Golang, C++, Kotlin, Objective-C, TypeS 등 여러 주요 프로그래밍 언어를 지원합니다....

최신 AI 리소스

3 개월 전

022.8K

InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

인스턴스어셈블 - 리틀 레드북과 푸단대학교 오픈 소스 레이아웃 제어 생성 기술

인스턴스어셈블은 샤오홍슈와 푸단대학교가 공동으로 오픈소스화한 레이아웃 제어 생성 기술로, '인스턴스 어셈블 주의' 메커니즘을 통해 단순한 레이아웃에서 복잡한 레이아웃, 희박한 레이아웃에서 조밀한 레이아웃까지 정확한 이미지 생성을 달성합니다. 먼저 이미지 배경에 2단계 캐스케이드 아키텍처를 채택한 다음 하나씩 하나씩 ...

최신 AI 리소스

3 개월 전

019.6K

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - 파이어폭스 커널 기반의 오픈 소스 AI 웹 브라우저

Zen 브라우저는 Firefox 커널 기반의 오픈 소스 브라우저로, 세로 탭 표시줄 및 작업 공간 분리와 같은 핵심 기능을 통해 간단하고 효율적인 브라우징 경험에 중점을 두고 있습니다. 사이드바 디자인으로 50개 이상의 탭의 전체 제목을 명확하게 표시하고 다중 창 분할 화면 브라우징을 지원합니다.

최신 AI 리소스

3 개월 전

031.8K

QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - 알리 통이 연구소 오픈 소스 긴 텍스트 추론 모델

QwenLong-L1.5는 알리바바 통이 연구소의 오픈 소스 긴 텍스트 추론 모델로, 매우 긴 컨텍스트(예: 100만~4백만 토큰)의 복잡한 추론 문제를 해결하는 데 중점을 둡니다. 핵심 혁신은 지식 그래프, SQL 구문 분석 및 다중 지능을 통한 학습 후 단계의 세 가지 주요 혁신에 있습니다 ...

최신 AI 리소스

3 개월 전

024.3K

Infographic - 阿里AntV团队开源的信息图生成框架

인포그래픽 - Ali AntV 팀 오픈 소스 인포그래픽 생성 프레임워크

인포그래픽은 G2 및 앤트 디자인 개발을 기반으로 한 차세대 Ali AntV 팀 오픈 소스 프레임워크로, 고품질 인포그래픽의 빠른 생성에 중점을 두고 30개 이상의 레이아웃 템플릿, 120개 이상의 사전 설정 테마 및 AI 지능형 생성 기능을 제공합니다.

최신 AI 리소스

3 개월 전

029.4K

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - 클로드 코드용으로 설계된 오픈 소스 그래픽 데스크톱 애플리케이션

opcode는 클로드 코드 오픈 소스 그래픽 데스크톱 애플리케이션, Tauri 2 + React 18 + Rust 개발을 기반으로 한 개발자 winfunc를 위해 설계되었습니다. 클로드 코드 프로젝트를 관리하기위한 시각적 인터페이스 제공, 생성 지원 ...

최신 AI 리소스

3 개월 전

026.6K

TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - 원시 디지털 기술, 칭화 및 기타 오픈 소스 비디오 생성 가속 프레임워크

터보디퓨전은 칭화대학교, 바이오디지털 테크놀로지, UC버클리가 공동으로 오픈소스화한 동영상 생성 가속 프레임워크로, 거의 무손실 화질을 유지하면서 동영상 생성 속도를 100~200배까지 향상시킬 수 있습니다. 스파스 선형 주의, 샘플 단계 증류 및 8비트...

최신 AI 리소스

4개월 전

030.8K

MedASR - 谷歌开源的医疗语音识别模型

MedASR - Google의 오픈 소스 의료 음성 인식 모델

MedASR은 구글이 오픈소스화한 1억 5천만 개의 파라미터 의료 음성 인식 모델로, 5,000시간의 감작된 임상 말뭉치를 기반으로 미세 조정되어 약물, 용량 및 해부학 용어에 최적화되어 있으며, 6그램의 의료 언어 모델이 내장되어 있고 민간 방사선 데이터 세트 RAD-DICT에서 단어 오류율이 4.6에 불과합니다....

최신 AI 리소스

4개월 전

031.3K

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - 알리 통이의 오픈 소스 엔드투엔드 음성 인터랙션 매크로 모델

Fun-Audio-Chat-8B는 알리 통이 팀의 오픈 소스 80억 매개 변수 엔드 투 엔드 음성 빅 모델, 음성 출력에서 직접 음성, ASR + LLM + TTS 접합 필요 없음, 중국어와 영어에 유창하며 지연 시간이 짧고 자연스러운 음색을 가진 이중 언어입니다. 25Hz의 이중 해상도 공유 LLM 사용...

최신 AI 리소스

4개월 전

027.7K

PromptFill - 开源的结构化提示词生成AI工具，专为AI绘画设计

PromptFill - AI 페인팅을 위해 설계된 오픈 소스 구조화된 큐 워드 생성 AI 도구

PromptFill은 AI 드로잉을 위해 설계된 구조화된 큐 생성 도구로, 시각적 '빈칸 채우기' 상호 작용을 통해 복잡한 프롬프트를 빠르게 구축, 관리 및 반복하여 AI 이미지 생성의 효율성과 품질을 향상시킵니다.PromptFill의 핵심 기능...

최신 AI 리소스

4개월 전

027.5K

GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - Wisdom Spectrum AI 오픈 소스의 최신 세대 플래그십 대형 모델

GLM-4.7은 AI 프로그래밍, 복잡한 추론 및 지능형 신체 작업에 심도 있게 최적화된 스마트 스펙트럼 AI에서 출시하고 오픈소스로 제공하는 최신 플래그십 그랜드 모델입니다. 이 모델은 다국어 코딩, 장거리 작업 계획 및 도구 협업 기능을 통해 200k 컨텍스트 길이와 최대 128k 출력을 지원합니다....

최신 AI 리소스

4개월 전

043.5K

NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - 스탠포드, 칼텍 등과 협력하는 NVIDIA의 오픈 소스 게이밍 AI 모델입니다.

NitroGen은 NVIDIA가 스탠포드 대학, 칼텍 및 기타 기관과 함께 개발한 오픈 소스 게임 AI 모델로, 1,000개 이상의 다양한 유형의 게임을 플레이할 수 있습니다. 이 모델은 GROOT N1.5 아키텍처를 기반으로 하며, 40,000시간의 게임 비디오 데이터(조이스틱 조작 주석 포함)를 분석하여 완성되었습니다....

최신 AI 리소스

4개월 전

036.3K

Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - Ali 팀에서 오픈소스한 AI 이미지 편집 모델

Qwen-Image-Layered는 Ali 팀의 오픈 소스 AI 이미지 편집 모델로, 일반 이미지를 독립적인 투명 레이어로 지능적으로 분해하여 포토샵과 같은 정밀 편집을 구현합니다. 이 모델은 Apache 2.0 프로토콜을 사용하여 오픈 소스이며 유연한 레이어 제어를 지원합니다....

최신 AI 리소스

4개월 전

039.2K

VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - 미니막스 콘치 비디오 팀의 오픈 소스 비주얼 제너레이티브 모델링 기술

VTP(Visual Tokenizer Pre-training)는 미니막스 콘치 비디오 팀이 비주얼 토큰화(토큰라이저)의 사전 학습 방식을 개선하여 제너레이티브 시스템의 성능을 향상시키기 위해 제안한 비주얼 제너레이티브 모델의 핵심 기술입니다. 기존 방식은...

최신 AI 리소스

4개월 전

031.4K

T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - Google의 오픈 소스 차세대 인코더-디코더 모델

T5Gemma 2는 Google에서 오픈소스로 제공하는 차세대 인코더-디코더 모델로, 멀티모달 및 긴 컨텍스트 처리 기능으로 업그레이드된 Gemma 3 아키텍처를 기반으로 합니다. 텍스트와 이미지를 포함한 다양한 데이터 유형을 지원하며, 생성 시 매우 긴 컨텍스트(최대 128K)를 처리할 수 있습니다.

최신 AI 리소스

4개월 전

030.1K

FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 함수 호출에 최적화된 Google 오픈 소스 경량 AI 모델

FunctionGemma는 2억 7천만 개의 매개변수를 가진 Gemma 3 기본 모델을 기반으로 개발된 Google의 함수 호출에 최적화된 경량 AI 모델로, 휴대폰, 브라우저 및 기타 기기에서 자연어를 실시간으로 실행 가능한 API 명령으로 변환합니다. 핵심 기능은 로컬 오프...

최신 AI 리소스

4개월 전

029.8K

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - Apple의 오픈 소스 단안경 3D 장면 구성 기술

SHARP(1초 미만의 선명한 단안 보기 합성)는 Apple의 오픈 소스 단안 보기 합성 기술입니다. 1초 이내에 한 장의 사진에서 사실적인 3D 장면을 빠르게 생성할 수 있습니다....

최신 AI 리소스

4개월 전

033.4K

TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Microsoft 오픈 소스 대규모 3D 제너레이티브 모델

TRELLIS.2는 40억 개의 파라미터를 갖춘 Microsoft의 오픈 소스 대규모 3D 생성 모델로, 고충실도 이미지에서 3D 생성에 중점을 두고 있습니다. 혁신적인 "O-Voxel"스파 스 복셀 구조를 사용하여 복잡한 토폴로지와 날카로운 특징을 효율적으로 처리하여 전체 PBR 재료로 고품질 3D 정보를 생성 할 수 있습니다 ...

최신 AI 리소스

4개월 전

039.8K

Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Step-Star 오픈 소스 AI 에이전트 시리즈 모델

Step-GI는 스텝스타의 오픈 소스 AI 에이전트 시리즈 모델로서, 클라우드 모델인 Step-GUI, GUI 에이전트를 위한 최초의 MCP 프로토콜, 휴대폰 배포를 지원하는 업계 최초의 오픈 소스 엔드사이드 모델인 Step-GUI Edge를 포함합니다.전문화된 ...

최신 AI 리소스

4개월 전

037.5K

A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - 에이전트 중심 사용자 상호작용 인터페이스를 위한 Google의 오픈 소스 선언적 프로토콜입니다.

A2UI(에이전트-사용자 인터페이스)는 AI 에이전트를 위한 복잡한 대화형 인터페이스를 생성하는 문제를 해결하는 Google의 오픈 소스 에이전트 중심 인터페이스 프로토콜입니다. AI 에이전트가 사용자 인터페이스, 클라이언트 애플리케이션의 구조를 설명할 수 있는 선언적 JSON 형식을 통해 ...

최신 AI 리소스

4개월 전

044.2K

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델

SAM 오디오는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리하기 위해 메타에서 도입한 오픈 소스 멀티모달 오디오 세분화 모델입니다. 텍스트, 시각 및 시간적 차원의 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 등의 작업을 유연하고 효율적으로 처리할 수 있습니다.

최신 AI 리소스

4개월 전

032.1K

混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

혼합 월드 모델 1.5 - 텐센트 혼합 오픈 소스 실시간 월드 모델 생성 프레임워크

하이브리드 월드 모델 1.5(텐센트 HY 월드플레이)는 텐센트에서 출시한 업계 최초의 오픈 소스 실시간 월드 모델 프레임워크로, 데이터, 훈련 및 스트리밍 추론 배포의 전체 체인을 포괄합니다. 핵심은 Next-F를 사용하는 WorldPlay 자동 회귀 확산 모델입니다.

최신 AI 리소스

4개월 전

033.3K

Molmo 2 - Ai2开源的多模态视频图像理解模型系列

몰모 2 - Ai2 오픈 소스 멀티모달 비디오 이미지 이해 모델 제품군

몰모 2는 동영상 및 다중 이미지 이해도를 높이기 위해 Allen Institute for AI(Ai2)에서 출시한 오픈 소스 멀티모달 모델입니다. 몰모 2(8B), 몰모 2(4B), 몰모 2-O의 세 가지 변형이 포함되어 있습니다.

최신 AI 리소스

4개월 전

038K

롱캣-비디오-아바타 - 메이투안 오픈 소스 아바타 비디오 생성 모델

롱캣-비디오-아바타는 메이투안에서 오픈소스한 롱캣-비디오를 기반으로 구축한 고급 오디오 기반 비디오 생성 모델로, 자연스러운 역동성과 일관된 정체성을 지닌 초현실적이고 립싱크된 긴 비디오를 생성하는 데 중점을 둡니다.

최신 AI 리소스

4개월 전

038.9K

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Xiaomi에서 출시한 오픈 소스 MoE 아키텍처의 대형 모델입니다.

MiMo-V2-Flash는 효율적인 추론과 지능형 신체 애플리케이션에 초점을 맞춘 총 파라미터 3090억 개와 활성 파라미터 150억 개를 갖춘 Xiaomi에서 출시한 오픈 소스 MoE 아키텍처 대형 모델입니다. 이 모델은 하이브리드 주의 집중 아키텍처와 다중 단어 메타 예측 기술을 채택하여 초당 150 토큰의 추론 속도로 ...

최신 AI 리소스

4개월 전

035.2K

Nemotron 3 - 英伟达发布的开源 AI 模型系列

네모트론 3 - NVIDIA에서 출시한 오픈 소스 AI 모델 제품군

Nemotron 3는 NVIDIA에서 나노, 슈퍼 및 울트라 크기로 출시한 오픈 소스 AI 모델 제품군입니다. 네모트론 3는 잠재적 MoE 아키텍처를 채택하여 추론 효율을 크게 개선하고 운영 비용을 절감합니다. 그 중 하나는...

최신 AI 리소스

4개월 전

031.8K

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - 칭화대 등이 참여한 알리 통이의 오픈 소스 AI 동영상 생성 프레임워크

완무브는 알리 통이 연구소, 칭화대학교 및 기타 기관이 공동 개발한 오픈 소스 AI 비디오 생성 프레임워크로, 정밀한 모션 제어 기술을 통한 고품질 비디오 합성에 중점을 두고 있습니다. 핵심 기술은 기존 이미지 대 비디오 모델에 포인트 수준의 모션 제어를 원활하게 추가 할 수있는 "잠재적 궤적 안내"입니다 ...

최신 AI 리소스

4개월 전

031.9K

PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - StepStar의 오픈 소스 병렬 협업 AI 추론 프레임워크

PaCoRe(병렬 조정 추론)는 여러 관점에서 동시에 문제 해결책을 탐색하는 대규모 병렬 사고 메커니즘을 통해 전통적인 방식을 뛰어넘는 StepFun의 혁신적인 오픈 소스 병렬 협업 추론 프레임워크입니다....

최신 AI 리소스

4개월 전

035.1K

Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

바나나 슬라이드 - 나노 바나나 프로 모델 기반의 오픈 소스 AI PPT 생성 도구

바나나 슬라이드는 자연어 명령을 사용해 전문적인 프레젠테이션을 빠르게 만들 수 있도록 지원하는 나노 바나나 프로 AI 모델을 기반으로 하는 오픈 소스 지능형 PPT 생성기입니다. 사용자가 주제를 한 문장(예: "인간이 생태계에 미치는 영향")으로 설명할 수 있으며, 이는 스스로 할 수 있습니다.

최신 AI 리소스

4개월 전

040.5K

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

칼레이도 - 칭화대학교 등과 함께 Smart Spectrum AI가 오픈소스화한 다중 피사체 참조 비디오 생성 모델입니다.

칼레이도는 허페이 공과대학교, 칭화대학교, 스마트 스펙트럼 AI가 공동 개발한 오픈 소스 다중 피사체 참조 비디오 생성 모델입니다. 여러 참조 이미지를 통해 피사체 일관된 비디오를 생성하여 다중 피사체 일관성 및 배경 분리에서 기존 모델의 결함을 해결합니다.Kaleido는 특수한 데이터를 통해 비디오를 생성합니다.

최신 AI 리소스

4개월 전

030.8K

Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 홍콩 대학교 오픈 소스 학술 논문을 슬라이드로 변환하는 AI 도구

Paper2Slides는 홍콩대학교 데이터 인텔리전스 연구소의 오픈 소스 AI 도구로, 클릭 한 번으로 학술 논문을 전문적인 슬라이드나 포스터로 변환해 줍니다. 네트워크 정보에 의존하지 않고 문서 내용을 직접 구문 분석하는 RAG(검색 증강 생성) 기술을 사용하여 생성된 PPT가 원본과 매우 일치하도록 보장합니다.

최신 AI 리소스

4개월 전

032.8K

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AI의 오픈 소스 실시간 스트리밍 비디오 생성 시스템

리얼비디오는 스마트 스펙트럼 AI의 오픈소스 실시간 스트리밍 비디오 생성 시스템으로, 2~3초 안에 자연스럽고 부드러운 비디오 응답을 빠르게 생성할 수 있습니다. 사용자가 사진을 업로드하고 텍스트를 입력하기만 하면 시스템이 해당 음성과 영상을 생성하여 AI 캐릭터와 실시간으로 대화할 수 있습니다...

최신 AI 리소스

4개월 전

029.6K

OpenScreen - 开源免费的屏幕录制工具，支持Mac和Windows双系统

OpenScreen - Mac 및 Windows용 오픈 소스 무료 화면 녹화 도구입니다.

오픈스크린은 사용하기 쉽고 기능적인 스크린 스튜디오의 대안을 제공하는 오픈 소스 무료 화면 녹화 도구입니다. Mac과 Windows를 모두 지원하며 완전 무료이고 MIT 프로토콜을 따르며 개인용으로도 사용할 수 있습니다.

최신 AI 리소스

4개월 전

036.9K

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - Wisdom 스펙트럼과 칭화대 오픈 소스 영화 및 TV 캐릭터 애니메이션 생성 프레임워크

SCAIL(맥락 내 학습을 통한 스튜디오급 캐릭터 애니메이션)은 스마트 스펙트럼이 칭화대학교의 류용진 교수 그룹과 협력하여 제안한 영화 및 TV급 캐릭터 애니메이션 생성 프레임워크입니다. 통해...

최신 AI 리소스

4개월 전

032.2K

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크

DeepSearchQA는 복잡한 다단계 쿼리 작업에서 지능의 성능을 평가하기 위해 설계된 Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크입니다. 17개 도메인을 포괄하는 900개의 수작업으로 설계된 "인과 관계 체인" 작업으로 구성되어 있으며, AI가 인간 연구원처럼 행동하고 다단계 작업을 수행하도록 요구합니다.

최신 AI 리소스

4개월 전

032.3K

Claude-Mem - 开源Claude Code记忆插件，支持跨会话持久化记忆

Claude-Mem - 크로스 세션 퍼시스턴트 메모리를 지원하는 오픈 소스 클로드 코드 메모리 플러그인

Claude-Mem은 세션 전반에 걸친 AI의 메모리 손실 문제를 해결하는 Claude Code용 오픈 소스 플러그인입니다. 이 플러그인은 도구의 관찰 사용을 자동으로 캡처하고, 시맨틱 요약을 생성하고, 후속 세션에 관련 컨텍스트를 삽입하여 Claude를 지원합니다....

최신 AI 리소스

4개월 전

051.1K

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA - 기업이 Q&A 플랫폼을 빠르게 구축할 수 있도록 지원하는 오픈 소스 AI 애프터 서비스 시스템

KoalaQA는 Chaitin 팀이 개발한 오픈소스 지능형 애프터서비스 시스템입니다. AI 모델을 기반으로 AI 고객 서비스, AI 검색 및 지식 기반 관리 기능을 제공하여 기업이 지능형 Q&A 플랫폼을 신속하게 구축할 수 있도록 지원합니다. 이 시스템은 연중 무휴 실시간 응답을 지원합니다 ...

최신 AI 리소스

4개월 전

028K

VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - 패싯 인텔리전스 오픈 소스 엔드투엔드 텍스트 음성 변환 모델링

VoxCPM 1.5는 Facade Intelligence에서 출시한 오픈 소스 음성 생성 모델로, 스플리터 없이 텍스트 음성 변환(TTS) 기술을 기반으로 몇 가지 혁신과 개선 사항을 적용했습니다. 엔드 투 엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 파형을 생성하므로 기존 세분화 방법의 한계를 피할 수 있습니다....

최신 AI 리소스

4개월 전

038.8K

Mistral Vibe - Mistral AI推出的开源命令行编码助手

미스트랄 바이브 - 미스트랄 AI의 오픈 소스 명령줄 코딩 도우미

미스트랄 바이브는 코드 검색, 파일 조작, 버전 관리 및 기타 작업을 완료하기 위해 자연어 상호 작용을 지원하는 Devstral 모델을 기반으로 개발된 미스트랄 AI의 오픈 소스 명령줄 코딩 어시스턴트입니다. 기호를 통해 프로젝트 구조와 Git 상태를 자동으로 스캔할 수 있습니다....

최신 AI 리소스

4개월 전

029.9K

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - 스마트 스펙트럼 AI의 오픈 소스 산업 등급 음성 합성 시스템

GLM-TTS는 강력한 음성 합성 기능을 갖춘 오픈 소스 산업 등급 음성 합성 시스템입니다. 2단계 생성 아키텍처를 채택하여 첫 번째 단계에서는 텍스트를 음성 토큰 시퀀스로 변환하고, 두 번째 단계에서는 토큰 시퀀스를 고품질 오디오로 변환합니다. 이 시스템은 3초의 음성 샘플만 지원하여 사운드를 완성할 수 있습니다.

최신 AI 리소스

4개월 전

029.5K

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - Mistral AI의 차세대 프로그래밍 모델 제품군

Devstral 2는 미스트랄 AI의 소프트웨어 엔지니어링 작업을 위해 설계된 차세대 프로그래밍 모델 제품군으로, Devstral 2(123B 파라미터) 및 Devstral Small 2(24B 파라미터) 버전으로 구성됩니다....

최신 AI 리소스

4개월 전

029K

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - Wisdom Spectrum AI 오픈 소스 고성능 음성 인식 모델 시리즈

GLM-ASR은 스마트 스펙트럼 AI가 오픈소스화한 고성능 음성 인식 모델 제품군으로, 클라우드 기반 모델인 GLM-ASR-2512와 오픈소스 엔드사이드 모델인 GLM-ASR-Nano-2512를 포함합니다.GLM-ASR-2512는 세계 최고의 클라우드 기반 음성 인식 모델로, 여러 개의 ...

최신 AI 리소스

4개월 전

035.6K

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 스마트 스펙트럼 AI의 오픈 소스 휴대폰 AI 에이전트 모델

OpenAutoGLM은 다중 모드 인식을 통해 휴대폰 화면의 내용을 이해하고 사용자가 지정한 작업을 완료하기 위해 작업 흐름을 자동으로 생성 할 수있는 "휴대폰 사용"기능을 갖춘 오픈 소스 지능형 신체 모델입니다. 사용자는 "근처 훠궈를 검색하려면 메이투안을 열어..."와 같이 자연어를 사용하여 요구 사항을 설명하기만 하면 됩니다.

최신 AI 리소스

4개월 전

032K

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense - 오픈 소스 AI 연구 및 지식 관리 도구, 노트북LM의 최강의 파인트

SurfSense는 오픈 소스 AI 리서치 및 지식 관리 도구입니다. 고도로 사용자 정의가 가능하며 검색 엔진, Slack, Jira, Notion, YouTube, GitHub 및 기타 여러 외부 데이터 소스에 연결하여 사용자가 정보를 쉽게 통합할 수 있습니다. 사용자는 다양한 자료를 업로드할 수 있습니다.

최신 AI 리소스

4개월 전

029.7K

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Wisdom Spectrum AI 오픈 소스 멀티모달 대규모 언어 모델 시리즈

GLM-4.6V는 스마트 스펙트럼 AI에서 오픈소스화한 멀티모달 대규모 언어 모델 시리즈로, 클라우드 및 고성능 클러스터 시나리오를 위한 기본 버전인 GLM-4.6V(106B-A12B)와 혼합 전문가(MoE) 아키텍처, 총 약 106억 개의 레퍼런스, 활성화... 등 두 가지 버전이 있습니다.

최신 AI 리소스

4개월 전

026.9K

InkSight - Google开源的AI手写识别工具

InkSight - Google의 오픈 소스 AI 필기 인식 도구

InkSight는 종이 필기 노트를 편집 가능한 디지털 잉크 파일(예: SVG 형식)로 변환하는 Google의 오픈 소스 AI 필기 인식 도구입니다. 기존 OCR과 달리 텍스트 콘텐츠를 인식하고 필기 스타일, 단락 구조, 주요 표시를 복원하며 다국어 처리를 지원할 수 있습니다.

최신 AI 리소스

4개월 전

025.8K