Fish Audio - AI 语音合成与声音克隆工具
Fish Audio 是功能强大的生成式 AI 语音合成工具,支持文本转语音(TTS)和声音克隆。用户只需输入文本,工具支持转换为自然流畅的语音,平台提供多种语言和声音风格可供选择,满足不同场景和用户...
SignGemma - 谷歌 DeepMind 推出的手语翻译模型
SignGemma 是谷歌 DeepMind 推出的全球最强大的手语翻译 AI 模型,支持将美国手语(ASL)精准翻译成英语文本。模型基于多模态训练,结合视觉和文本数据,实时捕捉手语动作并快速转化为文...
FLUX.1 Kontext - 黑森林推出的图像生成与编辑模型
FLUX.1 Kontext是Black Forest Labs推出的图像生成与编辑模型,提供上下文感知的图像处理技术。模型能理解响应文本和图像提示,执行对象修改、风格转换、背景替换等任务,同时保持角...
WebAgent - 阿里通义开源的自主搜索AI Agent
WebAgent是阿里巴巴通义实验室开源的自主搜索AI Agent,具备强大的端到端自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,广泛用在学术研究、商业决策...
灵码 IDE - 通义灵码推出 AI 原生开发环境工具
灵码 IDE是通义灵码推出的AI原生集成开发环境(IDE),深度适配千问3大模型,具备强大的编程智能体模式,支持自主完成工程感知、代码检索、执行终端操作等任务。它支持MCP工具,集成魔搭MCP广场的3...
BAGEL - 字节跳动推出的开源多模态基础模型
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。模型基与混合变换器专家架构(MoT),用两个独立的编码器分别捕捉图像的像素级和语义级特征,支持高效处理图像、文本、视频...
DeepSeek-R1 - DeepSeek推出的AI推理模型,性能对齐 OpenAI o1 正式版
DeepSeek-R1是杭州深度求索公司DeepSeek推出的高性能AI推理模型,对标OpenAI的o1正式版。模型基于大规模强化学习技术进行后训练,仅需极少量标注数据,便能在数学、代码和自然语言推理...
幻舟AI - 一站式AI短片创作平台,批量生成各类型视频内容
幻舟AI是功能强大的一站式AI短片创作平台,支持高效地批量生成各种类型的视频内容,包括广告片、宣传片、动画片等。平台基于Midjourney、Runway等全球领先的AI模型,为创作者提供从剧本创作到...
Circuit Tracer - Anthropic开源的模型内部工作机制可视化工具
Circuit Tracer 是 Anthropic 推出的开源工具,用在研究大型语言模型的内部工作机制。基于生成归因图(attribution graphs)揭示模型在生成特定输出时内部所经历的步骤...
Google AI Edge Gallery - 谷歌推出的AI应用,支持手机运行AI模型
Google AI Edge Gallery 是谷歌推出的实验性AI应用,让用户在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。应用支持在 Android 设备上运行。