Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将...最新AI资源# AI开放服务# AI开源项目# OCR9个月前03.3K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型综合介绍 ModelBest 是一家专注于开发轻量高性能大模型的公司,致力于将先进的 AI 技术应用于日常生活中的主流消费电子和各类终端设备。其 MiniCPM 系列端侧模型以极致的算力和内存使用效率...最新AI资源# AI大模型原生对话工具# AI开源项目10个月前03K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案综合介绍 Podcastfy 是一个开源的 Python 软件包,利用生成式人工智能(GenAI)技术,将网页内容、PDF 文件、文本、图像、youtube 视频等多种来源的内容转换为引人入胜的多语言...最新AI资源# AI开源项目# AI文本转语音10个月前03K
One API:多模型API管理与负载均衡,分发系统综合介绍 One API 是一个开源的接口管理与分发系统,支持多种大模型如 OpenAI ChatGPT、Anthropic Claude、Google PaLM 2 & Gemini 等。该...最新AI资源# AI开源项目10个月前03.9K
文多多 AiPPT:AI生成PPT,演讲稿生成综合介绍 AiPPT 是一个基于人工智能技术的PPT生成工具,旨在帮助用户快速创建专业演示文稿。它通过输入主题、上传文件或提供网址等方式,自动生成内容丰富、设计精美的幻灯片,支持原生图表、动画和3D特...最新AI资源# AI开源项目# AI生成演示文稿/PPT6个月前03.3K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频综合介绍 Easegen 是一个开源的数字人课程制作平台,旨在通过 AI 技术提升教学内容的制作和管理效率。该平台提供从课程制作、视频管理到智能出题的一站式解决方案,用户可以创建数字人讲解的视频课程...最新AI资源# AI开源项目# AI教育工具# AI文本转视频10个月前03.4K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts综合介绍 LangChain推出的Open Canvas 是一个开源的网络应用程序,旨在通过内置的双代理记忆功能来提升文档编辑和协作体验,并且集成smith可以观察完整的执行细节。该平台受 OpenA...最新AI资源# AI写作# AI开源项目# AI画布5个月前03.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版综合介绍 AutoGen Studio 2.0 是一个由 AutoGen 提供支持的用户界面,旨在简化创建和管理多代理解决方案的过程。该平台通过直观的界面,使用户能够声明性地定义和修改代理及其工作流程...最新AI资源# AI开源项目# 智能体开发框架7个月前03.9K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具综合介绍 MeetingMind 是一个先进的 AI 应用程序,旨在提高捕捉和总结商务会议的效率。该应用集成了 OpenAI 的 Whisper 技术,用于准确的语音转文字,并使用 IBM Watso...最新AI资源# AI开源项目# AI文本与音频/视频总结工具10个月前03.5K
Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能综合介绍 Coqui TTS 是一个开源的高级文本到语音(TTS)生成工具包,基于深度学习技术。它经过研究和生产环境的实战测试,提供了丰富的功能和模型,支持多种语言的文本到语音转换。Coqui TTS...最新AI资源# AI开源项目# AI语音克隆6个月前03.5K
MemFree:本地知识库与搜索信息混合的AI搜索引擎综合介绍 MemFree 是一个先进的混合AI搜索引擎,能够通过文本、图像、文件和网页进行搜索和提问。它提供一键获取文本、思维导图、图像和视频的搜索结果的功能。MemFree 的目标是从用户的知识库和...最新AI资源# AI开源项目# AI搜索工具10个月前03.1K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)综合介绍 BlinkShot 是一个开源的实时AI图像生成器,利用Together AI和Flux Schnell技术,用户可以在输入提示的同时生成高质量的图像。该平台完全免费,支持用户自定义和二次开...最新AI资源# AI在线生成图像# AI开源项目10个月前03.8K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别综合介绍 FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包,旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话...最新AI资源# AI开源项目# AI语音转文本10个月前04.5K
UltraPixel:革新超高分辨率图像生成技术,图像细节丰富综合介绍 UltraPixel 是一项先进的超高分辨率图像生成技术,旨在创造出极高质量、细节丰富的图像。该项目由 GitHub 用户 catcathh 开发,并在 NeurIPS 2024 上展示。U...最新AI资源# AI在线生成图像# AI开源项目10个月前02.9K
SiYuan(思源笔记):隐私优先的个人知识管理软件,支持AI写作/问答聊天综合介绍: 思源笔记(SiYuan)是一款隐私优先的个人知识管理软件,完全开源并支持自托管。它采用TypeScript和Golang编写,提供细粒度的块级引用和Markdown所见即所得(WYSIWY...最新AI资源# AI开源项目# AI笔记6个月前03.9K
阿布量化交易系统:基于Python的开源量化交易平台综合介绍 阿布量化交易系统是一个基于Python开发的开源平台。它由用户“bbfamily”创建,旨在帮助投资者通过代码实现量化交易策略。系统支持股票、期权、期货和比特币等多种金融产品的回测与交易。它...最新AI资源# AI开源项目# AI金融数据分析5个月前02.5K
Knowledge Table:高效提取与探索结构化数据的开源工具综合介绍 知识表(Knowledge Table)是一个开源项目,旨在简化从非结构化文档中提取和探索结构化数据的过程。用户可以通过自然语言查询接口创建结构化的知识表示,如表格和图形。该工具支持自定义提...最新AI资源# AI开源项目# 知识图谱10个月前02.8K
CogView3:智谱轻言开源的级联扩散文本生成图像模型综合介绍 CogView3 是由清华大学和智囊团队(智谱清言)开发的先进文本生成图像系统。它基于级联扩散模型,通过多阶段生成高分辨率图像。CogView3 的主要特点包括多阶段生成、创新架构和高效性能...最新AI资源# AI在线生成图像# AI开源项目10个月前03K
RocketNotes:支持文本补全、文档对话、语义搜索的Markdown笔记应用综合介绍 RocketNotes 是一个基于 Web 的 Markdown 笔记应用程序,集成了大型语言模型(LLM)驱动的文本补全、聊天和语义搜索功能。该项目采用 100% 无服务器的 RAG(Re...最新AI资源# AI开源项目# AI笔记9个月前03.1K
F5-TTS:少样本语音克隆,生成流畅且感情丰富的克隆声音综合介绍 F5-TTS 是一种新型非自回归文本到语音(TTS)系统,基于流匹配的扩散变换器(Diffusion Transformer, DiT)。该系统通过使用 ConvNeXt 模型来优化文本表示...最新AI资源# AI开源项目# AI语音克隆6个月前05.1K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端综合介绍 AsrTools是一款智能语音转文字工具,内置剪映、快手、必剪等大厂接口,无需GPU或繁琐配置,支持高效的多线程批处理。它基于PyQt5开发,界面美观且用户友好,能够输出SRT和TXT格式字...最新AI资源# AI开源项目# AI语音转文本10个月前04.2K
Surya:专业多语言文档OCR工具,开源本地部署综合介绍 Surya是一个开源的多语言文档OCR工具包,支持90多种语言的文本识别。它不仅能够进行逐行文本检测,还能进行布局分析、阅读顺序检测和表格识别。Surya的性能与云服务相媲美,适用于各种类型...最新AI资源# AI开源项目# OCR10个月前05.2K
在cloudflare部署hugging face的免费api,支持接口转发因国内部署无法访问hugging face,所以在大佬部署方案的基础上改造成能部署到cloudflare workers。 准备工作 1、注册 cloudflare 2、注册hugging fac...最新AI资源# AI开源项目# 免费大模型API10个月前03.1K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。综合介绍 Inbox Zero 是一个开源的邮件管理应用,旨在通过 AI 助手帮助用户快速实现收件箱零邮件。该应用提供了多种功能,包括自动回复、归档、标签和转发邮件,管理和退订新闻通讯,阻止冷邮件,跟...最新AI资源# AI开源项目# AI生活效率助手8个月前02.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法综合介绍 小猿口算逆向笔记是一个开源项目,旨在记录和分享对小猿口算应用进行逆向工程的过程和方法。该项目包含了多种逆向工具和技术的使用说明,如Frida、dexdump等,帮助用户了解和破解小猿口算的加...最新AI资源# AI开源项目# AI教育工具10个月前03.1K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目综合介绍 小猿口算自动答题工具是一个基于Python的开源项目,旨在通过OCR识别和自动化脚本来高效解决小猿口算应用中的题目。该工具利用了OpenCV和Tesseract等技术,能够实时识别屏幕上的题...最新AI资源# AI开源项目# AI教育工具10个月前02.8K
Telegram GPT Worker:部署在Cloudflare Workers上的多模型AI Telegram机器人综合介绍 GPT-Telegram-Worker 是一个基于 Cloudflare Workers 的多模型 AI Telegram 机器人,支持 OpenAI、Claude、Azure 等多个 AP...最新AI资源# AI开源项目# 智能体应用5个月前03.2K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档综合介绍 Cloud Document Converter 是一个 Chrome 扩展,专为将飞书云文档转换为 Markdown 格式而设计。用户可以通过该工具轻松下载或复制飞书云文档为 Markdo...最新AI资源# AI开源项目9个月前02.7K
QuickPiperAudiobook:一键生成自然音质的有声书,支持PDF、epub、docx等格式综合介绍 QuickPiperAudiobook 是一个开源项目,旨在通过简单的一条命令,将各种文本格式(如 epub、mobi、txt、PDF、HTML 等)转换为自然音质的有声书。该工具使用 Pi...最新AI资源# AI开源项目# AI文本转语音10个月前02.8K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据综合介绍 Crawl4AI 是一个开源的异步网页爬虫工具,专为大型语言模型(LLMs)和人工智能(AI)应用设计。它简化了网络爬虫和数据提取流程,支持高效的网页爬取,并提供对 LLM 友好的输出格式...最新AI资源# AI开源项目9个月前03.8K
Cloudflare Serverless Registry:基于Cloudflare Workers的无服务器容器注册表综合介绍 Cloudflare Serverless Registry 是一个基于 Cloudflare Workers 和 R2 存储的无服务器容器注册表。它支持镜像的推送和拉取,并提供用户名密码和...最新AI资源# AI开源项目10个月前02.9K
AIHawk:智能求职助手,自动化投放简历(限英文)综合介绍 Auto_Jobs_Applier_AIHawk 是一款利用人工智能技术自动化求职的工具。它能够帮助用户在短时间内自动投递大量简历,并根据用户的个人信息和求职意向进行个性化调整。该工具旨在提...最新AI资源# AI开源项目# AI生活效率助手8个月前03.5K
simple-one-api:一键集成多种免费大模型API,统一对外提供 OpenAI 接口综合介绍 simple-one-api 是一个开源项目,旨在简化多种大模型API的集成。它支持千帆大模型平台、讯飞星火大模型、腾讯混元以及 MiniMax 和 Deep-Seek 等兼容 OpenAI...最新AI资源# AI开源项目9个月前03.1K
Voice Changer:实时语音变换工具,让喜欢的动漫角色唱歌综合介绍 Voice Changer 是一个开源的实时语音变换工具,支持多种 AI 语音模型,如 MMVC、so-vits-svc、RVC、DDSP-SVC 和 Beatrice。该工具兼容多个平台...最新AI资源# AI开源项目# AI语音克隆10个月前03.1K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度综合介绍 VoAPI 是一个全新的高颜值、高性能的 AI 模型接口管理与分发系统,主要用于个人或企业内部的管理与分发渠道。该系统基于 NewAPI 开发,提供了丰富的功能模块和优化的用户界面,旨在提升...最新AI资源# AI开放服务# AI开源项目9个月前02.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音综合介绍 MockingBird 是一个开源项目,旨在通过 AI 技术实现快速语音克隆和文本转语音。用户只需提供 5 秒的语音样本,即可生成任意语音内容。该项目支持多种中文数据集,并在 Windows...最新AI资源# AI开源项目# AI语音克隆8个月前03.4K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包综合介绍 Clone Voice 是一个开源的声音克隆工具,提供了一个基于Web的界面,允许用户利用任何声音或个人声音录制来克隆声音。该工具操作简单,即使没有NVIDIA GPU,也可以通过预编译的应...最新AI资源# AI开源项目# AI语音克隆10个月前03.5K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术综合介绍 StreamingT2V是Picsart AI研究团队开发的一个公开项目,专注于根据文本描述生成连贯、动态且可扩展的长视频。这项技术使用先进的自回归方式,保证了视频的时间一致性,与描述文本紧...最新AI资源# AI开源项目# AI文本转视频9个月前03K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器综合介绍 Text2Video-Zero是Picsart AI Research团队开发的一个零样本文本到视频生成器的官方实现,适用于GitHub。该项目提供了一种使用文本提示生成具有时间一致性和正确...最新AI资源# AI开源项目# AI文本转视频10个月前03.3K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声综合介绍 Retrieval based Voice Conversion WebUI是一个基于VITS的简单易用的语音转换框架,可以实现任意说话人之间的语音转换,包括歌曲的翻唱和实时的变声。它具有低...最新AI资源# AI开源项目# AI语音克隆10个月前03.6K
VoiceCraft:开源零样本语音克隆与文本转语音工具综合介绍 VoiceCraft是一个开源的语音编辑和零样本语音合成工具,基于神经编解码器语言模型。它采用了创新的编码序列生成方法,能够在已有语音序列上进行插入、删除和替换操作,生成自然、连贯的编辑语音...最新AI资源# AI开源项目# AI语音克隆10个月前03.1K
edge-tts:文本转语音Python模块|免费文本转语音服务综合介绍 edge-tts是一个开源的Python模块,允许用户在Python代码中使用微软Edge的在线文本转语音服务,而无需Microsoft Edge浏览器、Windows操作系统或API密...最新AI资源# AI开源项目# AI文本转语音10个月前04.1K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式综合介绍 CoAI.Dev (原 Chat Nio) 是一个集成多种AI模型的聊天平台,支持分布式流式传输、图像生成、跨设备对话同步及分享等功能。它实现了订阅和Token计费系统,Key中转服务以及多...最新AI资源# AI副业赚钱项目# AI开源项目# AI本地化聊天应用9个月前03.4K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI综合介绍 ChatOllama是一个基于大型语言模型(LLM)的开源在线聊天应用项目,支持众多语言模型和知识库管理。用户可以通过该平台进行模型管理(列表展示、下载、删除)、与模型聊天等功能。项目运用了...最新AI资源# AI开源项目# AI本地化聊天应用# 知识检索与RAG框架10个月前03.3K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...最新AI资源# AI开源项目# OCR# 文档提取与清洗11个月前04.9K
DCT-Net:照片和视频转绘为动漫风格化的开源工具综合介绍 DCT-Net 是一个由 DAMO 学院和北京大学王选计算机技术研究所共同开发的开源项目,旨在实现图像的动漫风格化转换。该项目利用深度学习技术,通过域校准翻译(Domain-Calibrat...最新AI资源# AI图像风格控制# AI开源项目# AI视频转换风格7个月前03.2K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)综合介绍 Diffusers Image Outpaint 是由 Hugging Face 社区成员 fffiloni 创建的一个强大的 AI 图像扩展工具。该工具利用先进的扩散模型技术,可以将图像进...最新AI资源# AI图像放大与修复# AI开源项目11个月前03.6K
Tap4 AI WebUI:开源轻量级AI工具导航项目综合介绍 Tap4 AI WebUI 是一个开源的轻量级AI工具导航网站项目,旨在帮助用户轻松搭建自己的AI工具目录。该项目采用了Next.js和Supabase技术栈,支持多语言SEO优化,提供AI...最新AI资源# AI副业赚钱项目# AI开源项目10个月前03.2K
CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版CodeFormer 综合介绍 CodeFormer 是一个面向鲁棒盲脸修复的代码库,由南洋理工大学 S-Lab 的研究团队开发,并在 NeurIPS 2022 上发表。该项目利用代码本查找变换器(C...最新AI资源# AI副业赚钱项目# AI图像放大与修复# AI开源项目11个月前03.8K
GFPGAN:腾讯开源的人脸修复算法综合介绍 GFPGAN(Generative Facial Prior GAN)是由腾讯ARC(Applied Research Center)开发的一种开源人脸修复算法。该算法利用预训练的面部GAN...最新AI资源# AI图像放大与修复# AI开源项目11个月前03.2K
Curiosity:使用LangGraph构建类似 Perplexity 的AI搜索工具综合介绍 Curiosity 是一个旨在探索和实验的项目,主要使用 LangGraph 和 FastHTML 技术栈,目标是构建一个类似 Perplexity AI 的搜索产品。项目的核心是一个简单的...最新AI资源# AI开源项目# AI搜索工具11个月前02.4K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型综合介绍 Moshi Chat 是由法国非营利性AI实验室 Kyutai 推出的一款端到端实时AI语音助手。它不仅可以实时收听,还能进行自然对话,支持多模态交互,包括看、听、说的能力。Moshi Ch...最新AI资源# AI开源项目11个月前03K
QAnything:高度集成RAG处理流程的本地知识库问答系统QAnything 综合介绍 QAnything(Question and Answer based on Anything)是由网易推出的本地知识库问答系统,支持各类文件格式及数据库,可离线安装使用...最新AI资源# AI开放服务# AI开源项目# 知识检索与RAG框架11个月前03.1K
StickerBaker:用AI制作个性贴纸图片综合介绍 stickerbaker是一个开源的贴纸制作工具,利用人工智能技术来制作各种有趣的贴纸。无论是想要一个简单的猫咪贴纸还是想要制作一系列多样化的贴纸,stickerbaker都能满足你的需求...最新AI资源# AI在线生成图像# AI开源项目11个月前03.3K
ALog:便携AI语音日记应用,支持语音转文字。综合介绍 ALog 是一个基于人工智能的语音日记应用,旨在帮助用户通过语音记录日常生活。该项目由 duxins 开发,并在 GitHub 上开源。用户可以通过语音输入记录日记,应用会自动将语音转换为文...最新AI资源# AI开源项目# AI语音转文本7个月前03.7K
OpenSPG:开源知识图谱引擎综合介绍 OpenSPG是由蚂蚁集团与OpenKG合作开发的开源知识图谱引擎,基于SPG(语义增强可编程图)框架。该引擎旨在提供显式语义表示、逻辑规则定义和操作框架等功能,支持领域知识图谱的构建和管理...最新AI资源# AI开源项目# 知识图谱11个月前04K
Mem0:为AI助手和代理提供智能记忆层的开源项目综合介绍 Mem0(发音为“mem-zero”)是一个为AI助手和代理提供智能记忆层的开源项目。它能够记住用户偏好,适应个体需求,并随着时间的推移不断改进,使其成为客户支持聊天机器人、AI助手和自主系...最新AI资源# AI开源项目11个月前03.9K
Void:基于VSCode的开源Cursor替代品综合介绍 Void是一个开源的Cursor替代品,基于vscode仓库的分支。它提供了一个强大的开发环境,旨在为开发者提供更高效的编码体验。Void的目标是通过社区贡献和快速迭代,不断提升其功能和稳定...最新AI资源# AI开源项目# AI编程10个月前03.7K
GaiaNet node:安装和运行自己的本地模型在线代理服务综合介绍 GaiaNet-AI/gaianet-node是一个开源项目,允许用户在Mac、Linux或Windows WSL上通过一条命令快速安装默认的节点软件栈。用户可以初始化节点,自定义配置,下载...最新AI资源# AI开源项目# 本地部署开源大模型工具11个月前02.8K
LlamaCoder:使用提示词快速生成并发布小型web应用综合介绍 LlamaCoder 是一个基于 Llama 3.1 和 Together AI 的开源代码生成工具。它可以通过简单的提示生成小型应用程序,适合开发者快速实现创意。LlamaCoder 提供...最新AI资源# AI开源项目# AI编程# AI页面设计8个月前04.6K
Awesome CursorRules:增强Cursor AI体验的规则集综合介绍 awesome-cursorrules 是一个专门为 Cursor AI 提供自定义规则文件的项目。Cursor AI 是一个由人工智能驱动的代码编辑器,.cursorrules 文件可以定...最新AI资源# AI开源项目# PROMPTS辅助工具11个月前03.5K
MathTranslate:科学论文LaTeX翻译工具综合介绍 MathTranslate 是一个专门用于翻译 LaTeX 文档的在线工具,特别适用于科学论文的翻译。该工具能够保持 LaTeX 表达式(如数学表达式)不变,并最终将 LaTeX 文档编译成...最新AI资源# AI开源项目# AI翻译# 论文7个月前04K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型综合介绍 GOT-OCR2.0是一个阶跃星辰联合推出de 开源光学字符识别(OCR)模型,旨在通过一个统一的端到端模型推动OCR技术向OCR-2.0迈进。该模型支持多种OCR任务,包括普通文本识别、格...最新AI资源# AI开源项目# OCR11个月前02.9K
TgWechat:为微信提供端到端加密的聊天插件综合介绍 tgwechat是一个开源微信插件,由开发者dplusec开发。它通过端到端加密技术保护微信聊天隐私,让用户能安全地发送消息。项目于2019年8月31日在GitHub上线,采用GPL v3许...最新AI资源# AI开源项目5个月前01.9K
OpenSumi Lite:纯前端IDE解决方案,轻松实现代码查看与编辑综合介绍 OpenSumi Lite 是一个基于 OpenSumi 项目的纯前端 IDE 解决方案,旨在提供无需 Node.js 环境的代码查看与编辑功能。该项目由阿里巴巴集团和蚂蚁集团共同开发,采用...AI答疑# AI开源项目6个月前02.5K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测综合介绍 Forecast AI 是一个基于先进人工智能技术的超级预测平台。它利用强大的数据分析和机器学习算法,为用户提供高精度的未来事件预测。无论是政治选举、经济趋势还是社会事件,Forecast ...最新AI资源# AI开源项目# AI搜索工具11个月前03.3K
GPT SoVITS:革命性的语音生成与语音克隆工具综合介绍 GPT-SoVITS是一款开源的语音转换与合成工具,结合了GPT模型和SoVITS变声器技术。该工具支持零样本与少量样本的即时文本转语音,仅需5秒音频样本即可实现声音风格迁移。其特色包括跨语...最新AI资源# AI开源项目# AI语音克隆11个月前03.3K
Fish Speech:快速且高精度使用少样本克隆中英文语音综合介绍 Fish Speech是由Fish Audio开发的一款开源文本到语音(TTS)合成工具。该工具基于VQ-GAN、Llama和VITS等前沿AI技术,能够将文本转换成逼真的语音。Fish S...最新AI资源# AI开源项目# AI语音克隆6个月前04.1K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具综合介绍 IMS Toucan 是由德国斯图加特大学自然语言处理研究所(IMS)开发的一个先进的文本转语音(TTS)工具包。该工具包支持超过7000种语言,具有快速、可控且计算资源需求低的特点。IMS...最新AI资源# AI开源项目# AI文本转语音6个月前03.2K
自动生成每日Product Hunt热门产品榜单综合介绍 Product Hunt 每日中文热榜是一个基于 GitHub Actions 的自动化工具,能够每天定时生成 Product Hunt 上的热门产品榜单,并以 Markdown 文件的形式...最新AI资源# AI开源项目11个月前02.5K
CrisperWhisper:精确的逐字语音转录工具综合介绍 CrisperWhisper 是一个基于 OpenAI Whisper 的高级语音识别工具,专注于快速、精确和逐字的语音转录。它能够提供精确的单词级时间戳,甚至在语音填充和停顿的情况下也能准...最新AI资源# AI开源项目# AI语音转文本7个月前04.2K
PaddleOCR:基于飞桨的多语言OCR工具库,支持80多种语言识别综合介绍 PaddleOCR 是一个基于 PaddlePaddle 的多语言 OCR 工具包,旨在提供实用且超轻量级的 OCR 系统。它支持超过 80 种语言的识别,并提供数据标注和合成工具,支持在服...最新AI资源# AI开源项目# OCR8个月前03.7K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播综合介绍 Deep Live Cam 是一个开源的人工智能工具,旨在通过单张照片实现实时换脸和深度伪造视频生成。该工具利用先进的深度学习算法,能够在直播或视频通话中实时替换人脸,保护用户隐私并增加趣味...最新AI资源# AI开源项目# AI视频换脸9个月前03.5K
NarratoAI:文本生成影视解说与自动化剪辑神器综合介绍 NarratoAI 是一个集影视解说、自动化剪辑、配音和字幕生成于一体的全自动化工具。它依托大型语言模型(LLM)技术,自动生成文案,并自动剪辑视频,配上相应的配音和字幕,为用户提供一站式的...最新AI资源# AI副业赚钱项目# AI开源项目# AI文本转视频11个月前03.3K
Babelfish.ai:浏览器运行的语音实时转录与翻译应用综合介绍 Babelfish.ai 是一个基于 Huggingface Transformer.js 和 Supabase Realtime 构建的实时转录和翻译应用。该应用可以在浏览器中加载大模型并...最新AI资源# AI开源项目# AI语音转文本11个月前03.1K
Vector Vein(向量脉络):无代码AI工作流构建平台综合介绍 Vector Vein 是一个无代码 AI 工作流构建平台,旨在帮助用户轻松创建智能化、自动化的工作流程。无需编程基础,用户只需通过拖拽操作即可将各种功能模块连接起来,构建出复杂的 AI 工...最新AI资源# AI开源项目# 低代码工作流8个月前02.9K
LivePortrait:静态图像、视频生成动态肖像动画工具综合介绍 LivePortrait 是一款由快手科技开发的先进 AI 动态肖像动画工具。它利用创新的 AI 技术,将静态图像转化为生动的视频动画。无论是使用真实照片、动画风格还是艺术肖像,LivePo...最新AI资源# AI图像转视频# AI开源项目# AI视频转换风格9个月前03.3K
PhiData:构建拥有记忆、知识和工具的AI智能体综合介绍 PhiData是一个专为开发智能AI助手而设计的框架。它通过增强记忆、知识整合和工具调用能力,使AI助手能够进行长期对话、提供精准的业务上下文,并执行各种操作。PhiData不仅提升了AI助...最新AI资源# AI开源项目# 智能体应用5个月前03.2K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)综合介绍 ChatTTS 是一个专为对话场景设计的生成语音模型。它能够生成自然且富有表现力的语音,支持多种语言和多位说话者,适用于互动对话。该模型通过预测和控制细粒度的韵律特征,如笑声、停顿和插话,超...最新AI资源# AI开源项目# AI文本转语音6个月前03.2K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪综合介绍 MoneyPrinterPlus 是一个开源项目,旨在通过AI技术一键生成和混剪各类短视频,并自动发布到多个视频平台,如抖音、快手、小红书和视频号。该工具支持本地和云端语音模型,包括chat...最新AI资源# AI副业赚钱项目# AI开源项目# AI视频生成工具11个月前03.5K
TF-ID:学术论文表格/图像识别工具综合介绍 TF-ID(Table/Figure IDentifier)是一个专门用于从学术论文中提取表格和图像的对象检测模型家族。该项目由Yifei Hu创建,并在GitHub上开源。TF-ID模型经...最新AI资源# AI开源项目11个月前03.3K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序综合介绍 Chatbot UI 是一个开源项目,旨在帮助开发者创建个性化的智能对话界面。该项目提供了一系列界面组件和交互功能,可以轻松集成到现有的Chatbot系统中,为用户提供更加流畅和智能的对话体...最新AI资源# AI开源项目# AI本地化聊天应用11个月前04.6K
GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面综合介绍 GLIGEN GUI 是一个基于 ComfyUI 的直观图形界面,旨在简化 GLIGEN 模型的使用。GLIGEN 是一种新颖的文本到图像模型,可以精确指定图像中对象的位置。通过 GLIGE...最新AI资源# AI图像生成辅助工具# AI开源项目11个月前02.8K
Easy Voice Toolkit:本地部署的AI语音工具箱综合介绍 Easy-Voice-Toolkit 是一个基于开源语音项目的多功能工具箱,提供语音识别、语音转录、语音转换、数据集创建和模型训练等多种自动化音频工具。用户可以根据需要选择性地使用这些工具...最新AI资源# AI开源项目# AI文本转语音# AI语音克隆11个月前03.4K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作综合介绍 FaceFusion是一个集成了面部交换与增强功能的先进云平台,优化了“图像到视频”、“图像到图像”的交换过程,并拥有5个专业模型,以确保无瑕的输出。此外,它通过7种模型进行面部增强,使用3...最新AI资源# AI开源项目# AI视频换脸6个月前05.5K
Kotaemon:简单部署的开源多模态文档问答工具综合介绍 Kotaemon 是一个开源的文档问答工具,旨在为终端用户和开发者提供基于检索增强生成(RAG)的问答功能。该项目由 Cinnamon 开发,支持多种 LLM API 提供商(如 OpenA...最新AI资源# AI开源项目# 知识图谱# 知识检索与RAG框架11个月前03.4K
HivisionIDPhotos:开源智能AI证件照制作工具综合介绍 HivisionIDPhotos 是一款开源的轻量级 AI 证件照制作工具,能够智能识别用户拍照场景并进行抠图,生成符合多种规格的标准证件照。该工具支持自定义背景色和尺寸,未来还将推出美颜和...最新AI资源# AI开源项目# AI抠图改背景11个月前03.2K
Marker:快速将PDF转换为Markdown的开源工具综合介绍 Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页...最新AI资源# AI开源项目# 文档提取与清洗5个月前04.7K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人综合介绍 SadTalker是一个开源工具,能够将单张静态人像照片和音频文件结合,创造出逼真的说话头像视频,适用于个性化信息、教育内容等多种场景。革命性地使用3D建模技术,如ExpNet和PoseVA...最新AI资源# AI开源项目# AI数字人# 口型同步6个月前03.5K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统综合介绍 VideoReTalking是一款创新的系统,允许用户根据输入音频生成唇形同步的面部视频,即使有不同的情绪,也能产生高质量且嘴唇同步的输出视频。系统将这一目标分解为三个连续任务:带有典型表情...最新AI资源# AI开源项目# 口型同步8个月前03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步综合介绍 MuseV是一个GitHub上的公共项目,旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术,并提供了Image2Video、Text2Image2Video、Video2Video...最新AI资源# AI开源项目# AI数字人# 口型同步8个月前05.6K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...最新AI资源# AI开源项目# 文档提取与清洗11个月前03.5K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown综合介绍 magic-html是一个Python库,旨在简化从HTML中提取主体区域内容的过程。无论处理的是复杂的HTML结构还是简单的网页,这个库都旨在为用户提供一个便捷高效的接口。它支持多模态抽取...最新AI资源# AI开源项目11个月前02.8K
WebPilot:智能网页信息处理工具,网页内容抓取免费APIWebPilot 综合介绍 Webpilot是一个免费开源的“网页助手”,它可以让你和任何网页进行自由交流,或者执行自动任务。你不需要切换网页或者复制粘贴,只需要选择文本或者输入指令,webpilot...最新AI资源# AI开放服务# AI开源项目# AI搜索工具12个月前03.8K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理综合介绍 DB-GPT是一个开源的AI原生数据应用开发框架,采用AWEL(Agentic Workflow Expression Language)和智能体技术构建。该项目旨在大模型领域构建基础设施...最新AI资源# AI开源项目# AI数据分析# 知识检索与RAG框架5个月前03K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频DreamTalk 综合介绍 DreamTalk是一个扩散模型驱动的表情说话头生成框架,由清华大学、阿里巴巴集团和华中科技大学联合开发。主要由降噪网络、风格感知嘴唇专家和风格预测器三部分构成,能够基于...最新AI资源# AI开源项目# AI数字人# 口型同步8个月前03.3K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片综合介绍 InstantID是一项先进的技术,专注于利用单张参考身份证图片,在几秒钟内生成具有个性化风格或姿态的图像,同时确保高度保真。该技术采用了基于扩散模型的解决方案,通过集成面部图片、地标图...最新AI资源# AI图像风格控制# AI开源项目# AI换脸与换装12个月前02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具综合介绍 ComfyUI Portrait Master 中文版是一个专为AI图像创作者设计的人物肖像提示词生成工具。该工具通过优化提示词,帮助用户生成高质量的人物肖像。用户可以根据需求选择不同的镜头...最新AI资源# AI图像生成辅助工具# AI开源项目# ComfyUI12个月前03.8K
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本综合介绍 IOPaint是一款免费且开源的AI图像处理工具,支持图像擦除、修复和扩展等功能。它采用最先进的AI模型,能够帮助用户轻松移除图像中的不需要对象、修复瑕疵、添加新内容,甚至扩大图像。IOPa...最新AI资源# AI图像放大与修复# AI开源项目# AI抠图改背景10个月前015.3K