AIパーソナル・ラーニング
と実践的なガイダンス

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

はじめに

Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 一緒に AI 提供的免费 Llama 3.2 接口进行图像解析,并返回 Markdown 文本。Llama OCR 支持本地和远程图像的 OCR 处理,未来还计划支持 PDF 文件的 OCR。用户可以通过 npm 安装该库,并在项目中轻松调用其功能。

参考資料 Zerox


Llama OCR:利用免费Llama 3.2 Vision接口,将文档转换为Markdown的OCR库-1

演示:https://llamaocr.com/

 

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-1

依赖together提供的Meta Llama Vision免费接口:https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

更多免费视觉模型:智谱开放平台,上线首款免费多模态视觉模型GLM-4V-Flash,不限量使用!

 

機能一覧

  • 图像OCR:支持本地和远程图像的光学字符识别。
  • Markdown输出:将识别的文本转换为 Markdown 格式。
  • マルチモデル対応:提供免费和付费的 Llama 3.2 模型接口,满足不同性能需求。
  • API統合:通过 Together AI 的 API 进行图像解析。
  • 将来の機能:计划支持单页和多页 PDF 的 OCR 处理,以及 JSON 格式输出。

 

ヘルプの使用

設置プロセス

  1. 确保已安装 Node.js 环境。
  2. 使用 npm 安装 Llama OCR 库:
   npm i llama-ocr

使用方法

  1. 导入 Llama OCR 库:
   import { ocr } from "llama-ocr";
  1. 各論 OCR 函数进行图像解析:
   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
  1. 处理返回的 Markdown 文本:
   console.log(markdown);

詳細な機能操作

  • 图像OCR:将图像文件路径传递给 OCR 函数,即可获取图像中的文本内容。
  • Markdown输出:解析后的文本自动转换为 Markdown 格式,方便在文档中使用。
  • マルチモデル対応:通过设置 モデル 参数,可以选择不同的 Llama 3.2 模型(如 Llama-3.2-90B-Vision もしかしたら Llama-3.2-11B-Vision)以满足不同的性能需求。
  • API統合:需要在环境变量中设置 Together AI 的 API 密钥,以便调用其接口进行图像解析。

サンプルコード

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

将来の機能

  • PDF支持:未来版本将支持单页和多页 PDF 文件的 OCR 处理。
  • JSON输出:除了 Markdown 格式外,还将支持 JSON 格式的输出,便于数据处理和集成。

通过以上步骤,用户可以轻松安装和使用 Llama OCR 库,将图像中的文本内容转换为 Markdown 格式,提升文档处理效率。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語