
VideoMind:视频按时间戳定位内容与问答的开源项目
综合介绍 VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、...
综合介绍 VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、...
综合介绍 SuperCoder 是一个在终端运行的智能工具,专为程序员设计。它利用 AI 技术,帮助用户搜索代码、查看项目结构、编辑文件和修复 bug。项目由 huytd 在 GitHub 上开源,支持 Linux、MacOS 和 Windows 系统...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 Emigo 是一个专为 Emacs 设计的开源 AI 编程助手,由 MatthewZMD 在 GitHub 上开发。它通过集成大型语言模型(LLM),帮助程序员在 Emacs 中完成代码分析、生成、修改等任务。Emigo 的核心特点是“Agenti...
综合介绍 SegAnyMo 是一个开源项目,由加州大学伯克利分校和北京大学的研究团队开发,包括 Nan Huang 等成员。这个工具专注于视频处理,能自动识别和分割视频中任意运动的物体,比如人、动物或车辆。它结合了 TAP...
综合介绍 GenXD 是一个开源项目,由新加坡国立大学(NUS)和微软团队开发。它专注于生成任意 3D 和 4D 场景,解决真实世界中 3D 和 4D 生成因数据不足和模型设计复杂带来的难题。项目通过分析相机和对象运动,结...
综合介绍 ChatAnyone 是 HumanAIGC 团队开发的一个创新项目。它利用人工智能技术,从单张照片和音频输入生成带有上半身动作的数字人肖像视频。这个项目基于层次运动扩散模型,能生成头部动作、手势和表情,适用于...
综合介绍 Search-R1 是一个开源项目,由 PeterGriffinJin 在 GitHub 上开发,基于 veRL 框架构建。它通过强化学习(RL)技术训练大语言模型(LLM),让模型自主学会推理和调用搜索引擎解决问题。项目支持 Qwen2.5...
综合介绍 DeepGemini 是一个开源项目,由开发者 Thomas Sligter 创建。它是一个支持多模型编排的 AI 管理工具,主要特点是能灵活组合多种 AI 模型,并通过 OpenAI 兼容的 API 接口调用。项目基于 Python 3.11 和 ...
综合介绍 Optexity 是一个在 GitHub 上开源的项目,由 Optexity 团队开发。它的核心是用人类演示数据训练 AI 完成计算机任务,尤其是网页操作。项目包含三个代码库:ComputerGYM、AgentAI 和 Playwright,用户可...
综合介绍 II-Researcher 是 Intelligent-Internet 团队开发的一款开源人工智能研究工具,托管于 GitHub。它专为深度搜索和复杂推理设计,能通过智能网页搜索和多步骤分析回答复杂问题。项目于 2025 年 3 月 27 日...
综合介绍 Cua 是一个开源项目,全称“Computer-Use Agent”(计算机使用代理),读作“koo-ah”。它专为 Apple Silicon 设备设计,能创建并运行高性能的 macOS 和 Linux 虚拟机,速度接近原生设备的 90%。Cua 使用 Ap...
综合介绍 Paper to Podcast 是一个开源工具,专门把学术研究论文转化为生动有趣的播客。它通过人工智能技术,将 PDF 格式的论文变成三个角色——主持、学习者和专家——之间的对话,让复杂的学术内容变得简单易懂。这...
综合介绍 Anubis 是一个由 TecharoHQ 团队开发的开源工具,主要用来保护网站免受 AI 爬虫的侵扰。它在 HTTP 请求中加入 SHA256 工作量证明(Proof-of-Work)挑战,要求访问者完成计算任务,以此挡住不遵守规则的...
综合介绍 OmniSQL 是一个开源项目,由 RUCKBReasoning 团队开发,托管在 GitHub 上。它的核心功能是将用户输入的自然语言问题转化为高质量的 SQL 查询语句,帮助用户轻松与数据库交互。项目基于一个自动化的文本...
综合介绍 LatentSync 是字节跳动(ByteDance)开发的一个开源工具,托管在 GitHub 上。它通过音频直接驱动视频中人物的唇部动作,让嘴型与声音精准匹配。项目基于 Stable Diffusion 的 latent diffusion 模型,结...
综合介绍 Morphik Core 是一个开源项目,由 morphik-org 团队开发,托管在 GitHub 上。它以前叫 DataBridge Core,现在更名为 Morphik Core。这个工具是为 AI 应用设计的数据库,能处理文本、图片、PDF、视频等各...
综合介绍 serverless-markdown-convertor 是一个免费的开源工具,基于 Cloudflare Worker 和 Workers AI 开发,能将多种文件转换为 Markdown 格式。它支持 PDF、图片、Office 文档、HTML 等常见文件类型,无需自...
综合介绍 EditorJumper 是一个专为 JetBrains IDE 设计的插件,由 GitHub 用户 wanniwa 开发。它能让开发者在 JetBrains IDE(如 IntelliJ IDEA、PyCharm)和 VS Code、Cursor、Trae、Windsurf 等编辑器间快速切...
综合介绍 VirtualWife 是一个开源的虚拟数字人项目,由开发者 yakami129 创建。它目前处于孵化阶段,目标是打造一个有“灵魂”的虚拟角色,用户可以像朋友一样与之互动。项目支持 B站直播,能通过中文语音和文字与...