AI分享圈

AI正在改变世界!
UnifiedTTS - 一站式TTS API服务平台,实时性能监控

UnifiedTTS - 一站式TTS API服务平台,实时性能监控

UnifiedTTS 是一站式文本转语音(TTS)服务的平台。支持多种语言,包括中文、英文、日文和韩文等,能满足全球业务的需求。通过统一的 API 接口,整合多种主流的 TTS 服务,包括 Micro...
1个月前
014.5K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长文本场景下...
1个月前
013.7K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora 是腾讯微信团队开源的基于大语言模型(LLM)的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而设计,采用模块化架构,融合多模态预处理、语义向量索引、智能召回与大模型生成推理...
1个月前
017.7K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,专为超大规模稀疏混合专家(MoE)模型训练设计。基于 PyTorch FSDP 开发,通过显存、通信和负载等多维度优化,实现了高性能...
1个月前
013.4K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型,基于 Qwen3 基座模型,经海量多模态数据训练而成。支持 11 种语言和多种口音,包括普通话、四川话、闽南语、吴语、粤语等方言...
1个月前
016.1K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...
1个月前
016.9K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT是美团联合上海交大推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的...
1个月前
013.3K
Claudable - 开源AI Web应用构建器,自然语言生成代码

Claudable - 开源AI Web应用构建器,自然语言生成代码

Claudable 是基于 Next.js 的开源 Web 应用构建器,结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力,以及 Lovable 简单直观的应用构建体验...
1个月前
015K
FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...
1个月前
013.3K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持...
1个月前
016K