GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型
综合介绍 GOT-OCR2.0是一个阶跃星辰联合推出de 开源光学字符识别(OCR)模型,旨在通过一个统一的端到端模型推动OCR技术向OCR-2.0迈进。该模型支持多种OCR任务,包括普通文本识别、格式化文本识别、细粒度OCR、多...
综合介绍 GOT-OCR2.0是一个阶跃星辰联合推出de 开源光学字符识别(OCR)模型,旨在通过一个统一的端到端模型推动OCR技术向OCR-2.0迈进。该模型支持多种OCR任务,包括普通文本识别、格式化文本识别、细粒度OCR、多...
综合介绍 Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页脚等多余内容,格式化表格和...
唤醒智能体的方法有很多,你却不知道如何有效唤起智能体各类能力,其实只需要一个合适的指令...
Pix2Text 综合介绍 Pix2Text (P2T) 是一个开源的免费工具,旨在替代 Mathpix,提供图片文字和数学公式识别功能。用户可以通过网页版免费使用该工具,每天最多识别 10000 个字符。P2T 支持将图片中的文字、表格、...
Umi-OCR 综合介绍 Umi-OCR是一款开源、免费的离线OCR软件,支持截屏、批量导入图片、PDF文档识别、排除水印和页眉页脚、扫描和生成二维码。该软件内置多国语言库,适用于Windows和Linux系统。Umi-OCR无需安装,解...
TTime 综合介绍 TTime 是由 InkTimeRecord 发布在 GitHub 上的项目,是一款简洁高效的翻译软件。它主要提供输入、截图、划词及悬浮球翻译等功能,支持多种翻译源和文字识别服务,让用户能够快速进行语言转换和文...