
Go-with-the-Flow:控制视频中物体的运动轨迹,视频中增减任何运动物体
综合介绍 Go-with-the-Flow 是一个由 Netflix Eyeline Studios 研究团队开发的开源项目,旨在通过扭曲噪声控制视频扩散模型的运动模式。该项目允许用户决定场景中相机和物体的运动方式,甚至可以将一个视频的运动...
综合介绍 Go-with-the-Flow 是一个由 Netflix Eyeline Studios 研究团队开发的开源项目,旨在通过扭曲噪声控制视频扩散模型的运动模式。该项目允许用户决定场景中相机和物体的运动方式,甚至可以将一个视频的运动...
综合介绍 X-Dyna 是由字节跳动开发的一个开源项目,旨在通过零样本扩散技术生成动态人像动画。该项目利用驱动视频中的面部表情和身体动作来动画化单个人像图像,生成逼真且具有上下文感知的动态效果。X-Dyna 通过...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 腾讯混元3D(Hunyuan3D 2.0)是腾讯推出的先进大规模3D合成系统,旨在生成高分辨率的纹理3D资产。该系统包括两个核心组件:大规模形状生成模型Hunyuan3D-DiT和大规模纹理合成模型Hunyuan3D-Paint。Hunyu...
综合介绍 RAG Web UI 是一个基于 RAG(检索增强生成)技术的智能对话系统。它帮助企业和个人构建基于自身知识库的智能问答系统。通过结合文档检索和大语言模型,RAG Web UI 提供准确可靠的知识问答服务。该系统支...
综合介绍 UI-TARS Desktop 是由字节跳动开发的一款基于 UI-TARS(视觉语言模型)的图形界面代理应用。该应用允许用户通过自然语言来控制计算机,实现更直观和高效的人机交互。UI-TARS Desktop 支持跨平台操作,兼...
综合介绍 Devin Cursor Rules是一个开源项目,旨在通过配置文件和工具增强Cursor和Windsurf集成开发环境(IDE)的功能,使其具备类似Devin的高级AI能力。该项目提供了过程规划、自我进化、扩展工具使用(如网页浏...
综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、ChatGPT和Gemini)进行分析和处...
综合介绍 Yek 是一个基于 Rust 的快速工具,用于读取存储库或目录中的文本文件,将其分块并序列化以供大型语言模型(LLM)使用。该工具默认使用 .gitignore 规则跳过不需要的文件,并利用 Git 历史推断重要文件。...
综合介绍 Kheish是一个开源的多角色代理,专为需要结构化、逐步协作的大型语言模型(LLM)任务而设计。Kheish不仅仅是一个简单的协调器,它本身就是一个智能代理,可以根据需求请求模块,整合用户反馈,在不同的...
综合介绍 AI ContentCraft 是一个多功能的内容创作工具,集成了文本生成、语音合成、图像生成等功能。它可以帮助创作者快速生成故事、播客脚本和配套的音视频内容。该工具支持多种语言转换,能够批量处理内容,极...
综合介绍 Unigraph 是一个本地优先的通用知识图谱和个人搜索引擎,旨在为用户提供一个集成的工作空间,帮助管理和搜索个人生活中的各种数据。通过 Unigraph,用户可以将不同来源的数据整合到一个统一的知识图谱中...
综合介绍 ComfyUI-disty-Flow 是一个为 ComfyUI 提供用户友好界面的自定义节点。它旨在通过提供替代用户界面来简化工作流程的运行,而不是替代工作流程的创建。ComfyUI-disty-Flow 目前处于开发的早期阶段,因此...
综合介绍 Shortest是一个由Anti-Work团队开发的AI驱动的自然语言端到端测试框架。它基于Playwright构建,支持GitHub集成和双因素认证(2FA)。Shortest的主要特点是通过自然语言编写测试用例,并利用Anthropic Cl...
综合介绍 Midscene.js是一个由AI驱动的浏览器自动化工具,能够通过自然语言指令来控制网页、执行断言和提取数据。它支持Chrome扩展、JavaScript SDK和YAML脚本,简化了UI测试的编写和维护过程。通过利用多模态大...
综合介绍 视频分析工具(Video Analyzer)是一个综合性的视频分析工具,结合了计算机视觉、音频转录和自然语言处理技术,能够生成详细的视频内容描述。该工具通过提取视频中的关键帧,转录音频内容,并生成自然语...
综合介绍 Unsloth 是一个开源项目,旨在提供高效的微调和训练大语言模型(LLMs)的工具。该项目支持多种知名模型,包括 Llama、Mistral、Phi 和 Gemma 等。Unsloth 的主要特点是能够显著减少内存使用和加快训练速...
综合介绍 MaxKB(Max Knowledge Base)是一款基于大语言模型和RAG(检索增强生成)的开源知识库问答系统。该系统广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。MaxKB支持直接上传文档或自动爬取在...
综合介绍 OmniThink 是一个创新的机器写作框架,旨在通过模拟人类认知过程中的迭代扩展和反思,生成高质量的长篇文章。该框架专注于扩展知识边界,生成的信息丰富且具有深度。OmniThink 通过构建大纲和生成文章,...
综合介绍 OpenAI Realtime Agents是一个开源项目,旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式(借鉴 OpenAI Swarm),允许开发者在短时间内搭建出复杂的多智能体语音系...