
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳
综合介绍 BetterWhisperX 是一个基于 WhisperX 项目的优化版本,专注于提供高效、准确的自动语音识别(ASR)服务。作为 WhisperX 的改进分支,该项目由 Federico Torrielli 维护,致力于保持项目的持续更新和性能提...
综合介绍 BetterWhisperX 是一个基于 WhisperX 项目的优化版本,专注于提供高效、准确的自动语音识别(ASR)服务。作为 WhisperX 的改进分支,该项目由 Federico Torrielli 维护,致力于保持项目的持续更新和性能提...
综合介绍 Copilot后端代理服务是一个开源项目,旨在通过借助其他FIM模型(如DeepSeek)来管理GitHub Copilot插件服务端,同时支持多人共享官方账号。该服务支持多种IDE,包括VSCode、Jetbrains IDE系列、Visual S...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 Gemini Balance是一个基于FastAPI框架开发的OpenAI API代理服务,旨在提供高效的多API Key管理和优化功能。该项目支持Gemini模型调用,主要功能包括多API Key轮询、认证鉴权、流式响应、CORS跨域支持和...
综合介绍 AIaW(AI as Workspace)是一个新一代的AI客户端,旨在提供全功能、轻量级且可拓展的解决方案。该平台支持多种服务商,包括OpenAI、Anthropic和Google等,能够解析文档和视频,支持多工作区和插件系统,...
综合介绍 DeepSeek Engineer是一款基于DeepSeek API开发的强大编程助手工具,它能够通过直观的命令行界面与用户进行交互,协助完成各种软件开发任务。该工具将大型语言模型的能力与实用的文件系统操作和智能代码...
综合介绍 OrionChat是一个基于网页的AI聊天界面,它为用户提供了一个统一的平台来与多个主流AI模型进行交互。该项目支持包括Ollama(本地运行)、OpenAI GPT、Google Gemini、Anthropic Claude、Cohere、Groq和Cere...
综合介绍 X-Kit是一个开源工具,专为抓取和分析X(原Twitter)用户数据和推文而设计。该工具由GitHub用户xiaoxiunique开发,旨在帮助用户自动化获取指定X用户的基本信息和推文,并支持定时更新用户时间线数据。X-...
综合介绍 AI2SRT是一个开源项目,利用GeminiAI大模型,为长视频一键生成解说短视频和视频总结,同时支持音视频转录字幕。该项目旨在简化视频内容创作过程,提供高效的字幕生成和翻译功能。用户可以通过简单的操作...
综合介绍 Open Notebook 是一个开源的、注重隐私保护的笔记管理工具,旨在为用户提供一个替代 Google Notebook LM 的解决方案。通过 Open Notebook,用户可以在自己的控制下管理研究工作流,生成 AI 辅助笔记,并...
综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语交互,能够通过屏幕截图和自然...
综合介绍 DisPose是一个创新的开源人工智能项目,专注于可控的人物图像动画生成。该项目由研究团队开发并在GitHub上开源,采用先进的深度学习技术,通过分解骨骼姿态信息来实现精确的人物动画控制。DisPose的核心...
综合介绍 Smolagents是由HuggingFace开发的轻量级智能代理库,专注于简化AI代理系统的开发过程。该项目以其简洁的设计理念著称,核心代码仅约1000行,却提供了强大的功能集成能力。它最显著的特点是支持代码执行...
综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格式内容。该工具支持多种顶级视觉语言模型,包括O...
综合介绍 InvSR是一个创新的开源图像超分辨率项目,它基于扩散反演技术,能够将低分辨率图像转换为高质量的高分辨率图像。该项目利用预训练的大型扩散模型中蕴含的丰富图像先验知识,通过灵活的采样机制,支持1到...
综合介绍 Infinity是一个开创性的高分辨率图像生成框架,由FoundationVision团队开发。该项目通过创新的位级视觉自回归建模方法,突破了传统图像生成模型的限制。Infinity的核心特点是采用了无限词汇量的分词器和...
综合介绍 GeminiCoder是一个基于Google Gemini API开发的创新型Web应用程序生成工具。该项目继承了 LlamaCoder 的优秀特性,并集成了最新的Gemini 1.5 Pro、Gemini 1.5 Flash和Gemini 2.0 Flash实验版等强大的AI...
综合介绍 GPTMe是一款革命性的终端AI助手工具,专为提升开发者工作效率而设计。它将强大的AI能力与终端环境完美结合,支持代码执行、文件编辑、网页浏览和视觉识别等多样化功能。作为ChatGPT代码解释器的本地化替...
综合介绍 ChatGPT 服务降级监测工具是一个开源项目,旨在帮助用户检测其 ChatGPT 服务是否因高风险 IP 而被降级。该工具通过分析 Proof of Work (PoW) 难度值,判断用户的 IP 是否被标记为高风险,从而导致功能限...
综合介绍 LogoCreator是一个基于Together AI和Flux模型的开源Logo生成器,专注于为企业和个人提供快速、专业的Logo设计服务。该项目由开发者Nutlope开发并开源,在GitHub上获得了超过1600颗星的认可。作为一个基...