综合介绍
Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together AI 提供的免费 Llama 3.2 接口进行图像解析,并返回 Markdown 文本。Llama OCR 支持本地和远程图像的 OCR 处理,未来还计划支持 PDF 文件的 OCR。用户可以通过 npm 安装该库,并在项目中轻松调用其功能。
参考项目: Zerox
更多免费视觉模型:智谱开放平台,上线首款免费多模态视觉模型GLM-4V-Flash,不限量使用!
功能列表
- 图像OCR:支持本地和远程图像的光学字符识别。
- Markdown输出:将识别的文本转换为 Markdown 格式。
- 多模型支持:提供免费和付费的 Llama 3.2 模型接口,满足不同性能需求。
- API集成:通过 Together AI 的 API 进行图像解析。
- 未来功能:计划支持单页和多页 PDF 的 OCR 处理,以及 JSON 格式输出。
使用帮助
安装流程
- 确保已安装 Node.js 环境。
- 使用 npm 安装 Llama OCR 库:
npm i llama-ocr
使用方法
- 导入 Llama OCR 库:
import { ocr } from "llama-ocr";
- 调用
ocr
函数进行图像解析:
const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
- 处理返回的 Markdown 文本:
console.log(markdown);
详细功能操作
- 图像OCR:将图像文件路径传递给
ocr
函数,即可获取图像中的文本内容。 - Markdown输出:解析后的文本自动转换为 Markdown 格式,方便在文档中使用。
- 多模型支持:通过设置
model
参数,可以选择不同的 Llama 3.2 模型(如Llama-3.2-90B-Vision
或Llama-3.2-11B-Vision
)以满足不同的性能需求。 - API集成:需要在环境变量中设置 Together AI 的 API 密钥,以便调用其接口进行图像解析。
示例代码
import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();
未来功能
- PDF支持:未来版本将支持单页和多页 PDF 文件的 OCR 处理。
- JSON输出:除了 Markdown 格式外,还将支持 JSON 格式的输出,便于数据处理和集成。
通过以上步骤,用户可以轻松安装和使用 Llama OCR 库,将图像中的文本内容转换为 Markdown 格式,提升文档处理效率。