AI Personal Learning
and practical guidance

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

General Introduction

Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together AI 提供的免费 Llama 3.2 接口进行图像解析,并返回 Markdown 文本。Llama OCR 支持本地和远程图像的 OCR 处理,未来还计划支持 PDF 文件的 OCR。用户可以通过 npm 安装该库,并在项目中轻松调用其功能。

Reference items: Zerox


Llama OCR:利用免费Llama 3.2 Vision接口,将文档转换为Markdown的OCR库-1

演示:https://llamaocr.com/

 

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-1

依赖together提供的Meta Llama Vision免费接口:https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

更多免费视觉模型:智谱开放平台,上线首款免费多模态视觉模型GLM-4V-Flash,不限量使用!

 

Function List

  • 图像OCR:支持本地和远程图像的光学字符识别。
  • Markdown输出:将识别的文本转换为 Markdown 格式。
  • Multi-model support:提供免费和付费的 Llama 3.2 模型接口,满足不同性能需求。
  • API integration:通过 Together AI 的 API 进行图像解析。
  • future functions:计划支持单页和多页 PDF 的 OCR 处理,以及 JSON 格式输出。

 

Using Help

Installation process

  1. 确保已安装 Node.js 环境。
  2. 使用 npm 安装 Llama OCR 库:
   npm i llama-ocr

Usage

  1. 导入 Llama OCR 库:
   import { ocr } from "llama-ocr";
  1. invocations ocr 函数进行图像解析:
   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
  1. 处理返回的 Markdown 文本:
   console.log(markdown);

Detailed Function Operation

  • 图像OCR:将图像文件路径传递给 ocr 函数,即可获取图像中的文本内容。
  • Markdown输出:解析后的文本自动转换为 Markdown 格式,方便在文档中使用。
  • Multi-model support:通过设置 model 参数,可以选择不同的 Llama 3.2 模型(如 Llama-3.2-90B-Vision maybe Llama-3.2-11B-Vision)以满足不同的性能需求。
  • API integration:需要在环境变量中设置 Together AI 的 API 密钥,以便调用其接口进行图像解析。

sample code (computing)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

future functions

  • PDF支持:未来版本将支持单页和多页 PDF 文件的 OCR 处理。
  • JSON输出:除了 Markdown 格式外,还将支持 JSON 格式的输出,便于数据处理和集成。

通过以上步骤,用户可以轻松安装和使用 Llama OCR 库,将图像中的文本内容转换为 Markdown 格式,提升文档处理效率。

AI Easy Learning

The layman's guide to getting started with AI

Help you learn how to utilize AI tools at a low cost and from a zero base.AI, like office software, is an essential skill for everyone. Mastering AI will give you an edge in your job search and half the effort in your future work and studies.

View Details>
May not be reproduced without permission:Chief AI Sharing Circle " Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Chief AI Sharing Circle

Chief AI Sharing Circle specializes in AI learning, providing comprehensive AI learning content, AI tools and hands-on guidance. Our goal is to help users master AI technology and explore the unlimited potential of AI together through high-quality content and practical experience sharing. Whether you are an AI beginner or a senior expert, this is the ideal place for you to gain knowledge, improve your skills and realize innovation.

Contact Us
en_USEnglish