
olmOCR:PDF文档转换为文本,支持表格、公式和手写内容的识别
综合介绍 olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,专注于将 PDF 文件转换为线性化文本,特别适合用于大规模语言模型 (LLM) 的数据集准备与训练。它...
综合介绍 olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,专注于将 PDF 文件转换为线性化文本,特别适合用于大规模语言模型 (LLM) 的数据集准备与训练。它...
综合介绍 Coding-Tutor 是一个托管在 GitHub 上的开源项目,由开发者 iwangjian 创建,旨在为学习者提供个性化的编程教学体验。它通过对话式人工智能技术,根据用户的知识背景和学习进度,动态调整教学内容,帮助...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 par_scrape 是一个基于 Python 的开源网页爬虫工具,由开发者 Paul Robello 在 GitHub 上推出,旨在帮助用户从网页中智能提取数据。它整合了 Selenium 和 Playwright 两种强大的浏览器自动化技术,并结...
综合介绍 Flock 是一个开源的工作流低代码平台,托管在 GitHub 上,由 Onelevenvy 团队开发。它基于 LangChain 和 LangGraph 技术,专注于帮助用户快速搭建聊天机器人、检索增强生成(RAG)应用以及协调多代理团...
综合介绍 TableGPT Agent 是一个基于 GitHub 开源项目的智能工具,专为处理和分析表格数据设计。它依托 TableGPT2 大语言模型,利用自然语言交互的方式,让用户能够轻松查询、操作和理解复杂的表格内容。无论是从...
综合介绍 TRV 是一个开源工具,托管于 GitHub,旨在帮助用户将幻灯片和演讲笔记快速转化为带有旁白的视频。它通过简单的命令行操作,将输入的演示文稿文件自动生成音频和视频内容,适合需要快速制作演示视频的教...
综合介绍 gibberlink 是一个由开发者 PennyroyalTea 在 GitHub 上开源的项目,专注于实现两个对话型 AI 智能体之间的通信优化。当两个 AI 智能体通过电话交谈并识别出彼此均为 AI 时,它们会从人类语言(英语)切...
综合介绍 LazyLLM 是由 LazyAGI 团队开发的一款开源工具,专注于简化多智能体大模型应用的开发流程。它通过一键部署和轻量级网关机制,帮助开发者快速搭建复杂的 AI 应用,节省繁琐的工程配置时间。无论你是初学...
综合介绍 DeepSeek-RAG-Chatbot 是一个基于 DeepSeek R1 模型构建的开源聊天机器人项目,托管于 GitHub,由开发者 SaiAkhil066 创建。它结合了检索增强生成(RAG)技术,支持用户上传文档(如 PDF、DOCX 或 TXT ...
综合介绍 MagicArticulate 是一个由字节跳动与南洋理工大学合作开发的AI框架,专注于将静态3D模型快速转化为支持动画的数字资产。它通过先进的自回归Transformer和功能扩散模型,自动为模型生成骨骼结构和蒙皮权...
综合介绍 AingDesk是一款开源且免费的软件,旨在帮助用户轻松地在本地计算机上部署和运行各种AI模型。无论是 DeepSeek 还是 Llama 模型,AingDesk都能通过简单的操作步骤实现一键部署。该软件支持Windows、Linux...
综合介绍 CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音...
综合介绍 PDF-Extract-Kit 是一个由 OpenDataLab 团队开发的开源项目,专注于从复杂多样的 PDF 文档中高效提取高质量内容。它集成了先进的文档解析技术,支持布局检测、公式识别、表格提取和 OCR 等功能,适用于...
综合介绍 FlashMLA 是由 DeepSeek AI 开发的一款高效 MLA(Multi-head Latent Attention)解码内核,专为 NVIDIA Hopper 架构 GPU 优化,旨在提升变长序列处理的性能。该项目已在 GitHub 上开源,提供给开发者免...
综合介绍 TPO-LLM-WebUI 是由 Airmomo 在 GitHub 上开源的一个创新项目,通过直观的 Web 界面实现大语言模型(LLM)的实时优化。它采用 TPO(Test-Time Prompt Optimization)框架,彻底告别传统微调的繁琐流程,...
综合介绍 Neural4D 是一个基于人工智能的创新平台,专注于帮助用户通过简单的文本或图像输入快速生成高质量的3D模型和动画。它由 DreamTech 公司开发,依托世界领先的端到端3D生成大模型技术,用户只需提供一段描...
综合介绍 InternLM-XComposer 是由 InternLM 团队开发的一个开源图文多模态大模型项目,托管于 GitHub。它基于 InternLM 语言模型,能够处理文本、图像、视频等多模态数据,广泛应用于图文创作、图像理解和视频分...
综合介绍 Make Sense 是一个免费的在线图像标注工具,旨在帮助用户快速为计算机视觉项目准备数据集。它无需复杂安装,只需打开浏览器访问即可使用,支持多种操作系统,非常适合小型深度学习项目。用户可以通过它...
综合介绍 TreeGPT 是一个基于 Next.js 开发的开源聊天应用,专注于通过树状图结构(有向无环图,DAG)可视化与大型语言模型(LLM,如 GPT)的对话,取代传统的线性聊天方式,提升速度和易用性。该项目托管于 http...