
RolmOCR:识别手写和倾斜字符的文档OCR模型
综合介绍 RolmOCR 是由 Reducto AI 团队开发的一款开源光学字符识别(OCR)工具,基于 Qwen2.5-VL-7B 视觉语言模型。它能从图片和 PDF 文件中提取文字,速度比同类工具 olmOCR 更快,内存占用更低。RolmOCR 不依...
综合介绍 RolmOCR 是由 Reducto AI 团队开发的一款开源光学字符识别(OCR)工具,基于 Qwen2.5-VL-7B 视觉语言模型。它能从图片和 PDF 文件中提取文字,速度比同类工具 olmOCR 更快,内存占用更低。RolmOCR 不依...
综合介绍 KrillinAI 是一个开源的视频处理工具,专注于用人工智能帮助用户翻译视频并自动配音。它能从视频下载开始,一直到生成适配不同平台的成品,全程只需几次点击。开发者在 GitHub 上提供了免费代码,用户可...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 AiryLark 是一个开源的文档处理与翻译工具,托管在 GitHub 上,由开发者 wizd 基于 Next.js 框架打造。它支持多种文件格式(如 PDF、Word、TXT、Markdown)的输入和处理,同时提供智能翻译功能。用户可...
综合介绍 Zola 是一个免费且开源的 AI 聊天应用,由开发者 Julien Thibeaut(GitHub 用户名 ibelick)开发,托管在 GitHub 上。它最大的特点是支持多种 AI 模型,比如 OpenAI 和 Mistral,让用户可以自由选择不同...
综合介绍 DeepResearcher 是由上海交通大学 GAIR-NLP 团队开发的开源项目。它是一个基于大型语言模型(LLM)的智能研究工具,通过强化学习(RL)在真实网络环境中进行端到端训练。项目旨在帮助用户高效完成复杂研...
综合介绍 AnimeGamer 是腾讯 ARC 实验室推出的一个开源工具。用户可以用简单的语言指令,比如“宗介开紫色车兜风”,生成动漫视频,还能让不同动漫角色互动,比如《魔女宅急便》的琪琪和《天空之城》的帕祖见面。它...
综合介绍 Lumina-mGPT-2.0 是由上海人工智能实验室(Shanghai AI Laboratory)、香港中文大学(CUHK)等机构联合开发的开源项目,托管于 GitHub,由 Alpha-VLLM 团队维护。它是一个独立的自动回归模型,从零开始...
综合介绍 Agent S 是由 Simular AI 开发的开源框架,让智能体通过图形用户界面(GUI)像人类一样操作电脑。它使用多模态大语言模型和经验学习技术,能完成浏览网页、编辑文档、使用软件等任务。项目在 GitHub 上...
综合介绍 BabelDOC 是一个开源工具,专门用来把 PDF 文档翻译成双语对照格式。它由 funstory-ai 团队开发,托管在 GitHub 上,主要服务于需要处理外语文档的用户,比如研究人员、学生和技术人员。BabelDOC 支持将...
综合介绍 Text2Voice 是一个开源工具,基于硅基流动 API 提供文本转语音功能,最大的特点是带有简洁的图形用户界面(GUI)。它由开发者 Sheldon Lee 在 GitHub 上创建,让用户可以通过界面轻松把文字变成语音。项...
综合介绍 FreeAI 是一个基于 Pollinations.AI API 的开源 AI 应用平台,提供免费且无限制的 AI 聊天助手、图像生成和语音合成服务。这个项目由开发者 Azad-sl 在 GitHub 上创建,核心特点是使用纯 HTML 文件开发...
综合介绍 Open WebUI Artifacts Overhaul 是基于 Open WebUI 的一个分支项目,由开发者 Nick Tonjum 开发。它是一个开源工具,专注于提升 AI 生成代码和展示的功能。用户可以通过它让 AI 生成代码,并在界面上直...
综合介绍 OpenAvatarChat 是由 HumanAIGC-Engineering 团队开发的一个开源项目,托管在 GitHub 上。它是一个模块化的数字人对话工具,用户可以在单台 PC 上运行完整功能。项目结合实时视频、语音识别和数字人技术...
综合介绍 uniOCR 是一个开源的文字识别工具,由 mediar-ai 团队开发。它基于 Rust 语言编写,支持 macOS、Windows 和 Linux 系统。用户可以通过它从图片中提取文字,操作简单且免费。uniOCR 的核心特点是跨平台支...
综合介绍 Serena 是 Oraios AI 团队开发的一款免费开源编程工具,托管在 GitHub 上。它是一个强大的代码助手,可以直接在你的代码库中工作,帮助开发者分析、编辑和执行代码。Serena 通过语言服务器协议(LSP)实...
综合介绍 AudioX 是一个由 Zeyue Tian 等人在 GitHub 上开源的项目,官方论文发布于 arXiv(编号 2503.10522)。它基于扩散变换器(Diffusion Transformer)技术,能从文本、视频、图片、音频等多种输入生成高质...
综合介绍 EasyControl 是一个开源项目,项目基于扩散变换器(DiT)架构,提供高效、灵活的图像生成控制。其中,Ghibli Control LoRA 是其特色功能之一,通过仅用 100 张亚洲人脸及其 GPT-4o 生成的吉卜力风格图像...
综合介绍 YOLOE 是清华大学软件学院多媒体智能组(THU-MIG)开发的一个开源项目,全称“You Only Look Once Eye”。它基于 PyTorch 框架,属于 YOLO 系列的扩展,能实时检测和分割任何物体。项目托管在 GitHub 上,...
综合介绍 Open-VoiceCanvas 是一个开源的语音合成平台,由 ItusiAI 团队开发。它支持超过 50 种语言,可以将文字转为自然语音,还能通过上传音频克隆个性化声音。项目整合了 OpenAI TTS、AWS Polly 和 MiniMax 三...