Youtu-agent - 腾讯开源的高效智能体框架
Youtu-agent 是腾讯优图实验室开源的智能体框架,用在构建和运行自主智能体。框架在 WebWalkerQA 和 GAIA 基准测试中表现出色,准确率分别达到 71.47% 和 72.8%。框架...
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队开源的视频音效生成模型,支持为无声视频添加精准匹配的音效。模型基于大规模数据集训练,用多模态扩散变换器架构,结合表征对齐损失函数和音频VAE优化技术...
PixVerse V5 - 爱诗科技推出的自研AI视频模型
PixVerse V5是爱诗科技推出的AI视频生成大模型。模型能根据用户输入的文字描述或图片生成高质量的视频内容,且支持多种风格,如动漫、科幻、国风等。
问小白5 - 问小白推出的全能AI模型
问小白5是“All in One”旗舰大模型,智能水平极高。模型在多项评测中表现卓越,如AA - Index综合评估得分64.7分,STEM能力评测86分,接近全球领先的GPT - 5。
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型
Gemini 2.5 Flash Image(代号nano banana)是谷歌推出的先进图像生成与编辑模型,能保持角色在不同场景中的一致性,支持通过自然语言进行精准图像编辑,如模糊背景、消除污渍等。
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型
Wan2.2-S2V 是阿里通义开源的多模态视频生成模型,只需一张静态图片和一段音频,能生成高质量的数字人视频,且支持多种图片类型和画幅。
吴恩达面向开发者的ChatGPT提示工程免费课程
面向开发者的ChatGPT提示工程是DeepLearning.AI与OpenAI联合推出的课程,专为开发者设计,由Isa Fulford, 吴恩达Andrew Ng主讲,教授如何用大型语言模型(LLM...
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径
问小白o4是创新的并行思考模型,能同时开启8条思考路径,从多角度分析问题并自动筛选出最优解。模型融合先进的Long-CoT强化学习和过程奖励学习技术,具备强大的深度推理能力,且在复杂任务中表现出色。
VibeVoice - 微软推出的文本到语音模型
VibeVoice 是微软推出的新型文本到语音(TTS)模型。模型能生成多达 4 位不同说话者的对话式音频,支持长达 90 分钟的连续语音输出,突破传统 TTS 系统的长度限制。
SpatialGen - 群核科技推出的开源3D场景生成模型
SpatialGen 是群核科技开源的 3D 场景生成模型,基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局生成时空一致的多视角图像,并进一步生成 3D 高斯场景,渲染出漫游视频。