Easy Voice Toolkit:本地部署的AI语音工具箱
综合介绍 Easy-Voice-Toolkit 是一个基于开源语音项目的多功能工具箱,提供语音识别、语音转录、语音转换、数据集创建和模型训练等多种自动化音频工具。用户可以根据需要选择性地使用这些工具,或按顺序使用它们...
综合介绍 Easy-Voice-Toolkit 是一个基于开源语音项目的多功能工具箱,提供语音识别、语音转录、语音转换、数据集创建和模型训练等多种自动化音频工具。用户可以根据需要选择性地使用这些工具,或按顺序使用它们...
综合介绍 FaceFusion是一个集成了面部交换与增强功能的先进云平台,优化了“图像到视频”、“图像到图像”的交换过程,并拥有5个专业模型,以确保无瑕的输出。此外,它通过7种模型进行面部增强,使用3种不同模型提升...
唤醒智能体的方法有很多,你却不知道如何有效唤起智能体各类能力,其实只需要一个合适的指令...
综合介绍 Kotaemon 是一个开源的文档问答工具,旨在为终端用户和开发者提供基于检索增强生成(RAG)的问答功能。该项目由 Cinnamon 开发,支持多种 LLM API 提供商(如 OpenAI、AzureOpenAI、Cohere 等)以及本地...
综合介绍 HivisionIDPhotos 是一款开源的轻量级 AI 证件照制作工具,能够智能识别用户拍照场景并进行抠图,生成符合多种规格的标准证件照。该工具支持自定义背景色和尺寸,未来还将推出美颜和智能换正装功能。用...
综合介绍 Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页脚等多余内容,格式化表格和...
综合介绍 VideoReTalking是一款创新的系统,允许用户根据输入音频生成唇形同步的面部视频,即使有不同的情绪,也能产生高质量且嘴唇同步的输出视频。系统将这一目标分解为三个连续任务:带有典型表情的面部视频生...
综合介绍 MuseV是一个GitHub上的公共项目,旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术,并提供了Image2Video、Text2Image2Video、Video2Video等多种功能。提供了模型结构、使用案例、快速开始...
综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LLM)应用提供支持。Unstructured...
综合介绍 magic-html是一个Python库,旨在简化从HTML中提取主体区域内容的过程。无论处理的是复杂的HTML结构还是简单的网页,这个库都旨在为用户提供一个便捷高效的接口。它支持多模态抽取,支持多种版面extracto...
WebPilot 综合介绍 Webpilot是一个免费开源的“网页助手”,它可以让你和任何网页进行自由交流,或者执行自动任务。你不需要切换网页或者复制粘贴,只需要选择文本或者输入指令,webpilot就会为你提供实时信息和智...