AI个人学习
和实操指南

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

综合介绍

Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together AI 提供的免费 Llama 3.2 接口进行图像解析,并返回 Markdown 文本。Llama OCR 支持本地和远程图像的 OCR 处理,未来还计划支持 PDF 文件的 OCR。用户可以通过 npm 安装该库,并在项目中轻松调用其功能。

参考项目: Zerox


Llama OCR:利用免费Llama 3.2 Vision接口,将文档转换为Markdown的OCR库-1

演示:https://llamaocr.com/

 

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-1

依赖together提供的Meta Llama Vision免费接口:https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

更多免费视觉模型:智谱开放平台,上线首款免费多模态视觉模型GLM-4V-Flash,不限量使用!

 

功能列表

  • 图像OCR:支持本地和远程图像的光学字符识别。
  • Markdown输出:将识别的文本转换为 Markdown 格式。
  • 多模型支持:提供免费和付费的 Llama 3.2 模型接口,满足不同性能需求。
  • API集成:通过 Together AI 的 API 进行图像解析。
  • 未来功能:计划支持单页和多页 PDF 的 OCR 处理,以及 JSON 格式输出。

 

使用帮助

安装流程

  1. 确保已安装 Node.js 环境。
  2. 使用 npm 安装 Llama OCR 库:
   npm i llama-ocr

使用方法

  1. 导入 Llama OCR 库:
   import { ocr } from "llama-ocr";
  1. 调用 ocr 函数进行图像解析:
   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
  1. 处理返回的 Markdown 文本:
   console.log(markdown);

详细功能操作

  • 图像OCR:将图像文件路径传递给 ocr 函数,即可获取图像中的文本内容。
  • Markdown输出:解析后的文本自动转换为 Markdown 格式,方便在文档中使用。
  • 多模型支持:通过设置 model 参数,可以选择不同的 Llama 3.2 模型(如 Llama-3.2-90B-VisionLlama-3.2-11B-Vision)以满足不同的性能需求。
  • API集成:需要在环境变量中设置 Together AI 的 API 密钥,以便调用其接口进行图像解析。

示例代码

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

未来功能

  • PDF支持:未来版本将支持单页和多页 PDF 文件的 OCR 处理。
  • JSON输出:除了 Markdown 格式外,还将支持 JSON 格式的输出,便于数据处理和集成。

通过以上步骤,用户可以轻松安装和使用 Llama OCR 库,将图像中的文本内容转换为 Markdown 格式,提升文档处理效率。

未经允许不得转载:首席AI分享圈 » Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文