Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

63.6K 00

综合介绍

Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR（光学字符识别）库，能够将文档转换为 Markdown 格式。该库由 Nutlope 开发，使用 Together AI 提供的免费 Llama 3.2 接口进行图像解析，并返回 Markdown 文本。Llama OCR 支持本地和远程图像的 OCR 处理，未来还计划支持 PDF 文件的 OCR。用户可以通过 npm 安装该库，并在项目中轻松调用其功能。

参考项目： Zerox

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

演示：https://llamaocr.com/

依赖together提供的Meta Llama Vision免费接口：https://api.together.ai/models/meta-llama/Llama-Vision-Free

功能列表

图像OCR：支持本地和远程图像的光学字符识别。
Markdown输出：将识别的文本转换为 Markdown 格式。
多模型支持：提供免费和付费的 Llama 3.2 模型接口，满足不同性能需求。
API集成：通过 Together AI 的 API 进行图像解析。
未来功能：计划支持单页和多页 PDF 的 OCR 处理，以及 JSON 格式输出。

使用帮助

安装流程

确保已安装 Node.js 环境。
使用 npm 安装 Llama OCR 库：

   npm i llama-ocr

使用方法

导入 Llama OCR 库：

   import { ocr } from "llama-ocr";

调用 ocr 函数进行图像解析：

   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

处理返回的 Markdown 文本：

   console.log(markdown);

详细功能操作

图像OCR：将图像文件路径传递给 ocr 函数，即可获取图像中的文本内容。
Markdown输出：解析后的文本自动转换为 Markdown 格式，方便在文档中使用。
多模型支持：通过设置 model 参数，可以选择不同的 Llama 3.2 模型（如 Llama-3.2-90B-Vision 或 Llama-3.2-11B-Vision）以满足不同的性能需求。
API集成：需要在环境变量中设置 Together AI 的 API 密钥，以便调用其接口进行图像解析。

示例代码

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();