Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita

Introdução geral

O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision que converte documentos para o formato Markdown. A biblioteca foi desenvolvida pela Nutlope e usa o Juntos A interface gratuita Llama 3.2 fornecida pela AI analisa imagens e retorna texto Markdown. O Llama OCR é compatível com OCR de imagens locais e remotas, com suporte para OCR de arquivos PDF planejado para o futuro. O npm instala a biblioteca e facilita a invocação de sua funcionalidade em projetos.

Itens de referência: Zerox

Llama OCR: biblioteca de OCR para converter documentos em Markdown usando a interface Vision 3.2 gratuita do Llama-1

Demonstração: https://llamaocr.com/

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Vision 3.2 gratuita do Llama-1

Confie na interface gratuita do Meta Llama Vision fornecida pela together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

Mais modelos visuais gratuitos:Plataforma aberta Smart Spectrum, o primeiro modelo de visão multimodal gratuito GLM-4V-Flash on-line, uso ilimitado!

Lista de funções

OCR de imagemReconhecimento óptico de caracteres: suporta o reconhecimento óptico de caracteres de imagens locais e remotas.
Saída MarkdownMarkdown: converte o texto reconhecido para o formato Markdown.
Suporte a vários modelosInterface do modelo Llama 3.2: interfaces gratuitas e pagas estão disponíveis para atender a diferentes requisitos de desempenho.
Integração de APIAnálise de imagem por meio da API do Together AI.
funções futurasO programa suporta o processamento de OCR de PDFs de uma ou várias páginas, bem como a saída no formato JSON.

Usando a Ajuda

Processo de instalação

Certifique-se de que o ambiente do Node.js esteja instalado.
Instale a biblioteca Llama OCR usando o npm:

   npm i llama-ocr

Uso

Importar a biblioteca Llama OCR:

   importar { ocr } de "llama-ocr".

invocações ocr para análise de imagens:

   const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // caminho do arquivo de imagem
apiKey: process.env.TOGETHER_API_KEY, // Chave da API do Together AI
});

Processa o texto Markdown retornado:

   console.log(markdown);

Operação detalhada da função

OCR de imagempassa o caminho do arquivo de imagem para o ocr você pode obter o conteúdo de texto da imagem.
Saída MarkdownTexto analisado: O texto analisado é convertido automaticamente para o formato Markdown para facilitar o uso em documentos.
Suporte a vários modelos: Ao definir o modelo diferentes modelos do Llama 3.2 podem ser selecionados (por exemplo Llama-3.2-90B-Vision talvez Llama-3.2-11B-Vision) para atender a diferentes necessidades de desempenho.
Integração de API: A chave de API do Together AI precisa ser definida em uma variável de ambiente para chamar sua interface para análise de imagens.

Código de amostra (computação)

importar { ocr } de "llama-ocr".
função assíncrona runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

funções futuras

Suporte em PDF: As versões futuras darão suporte ao OCR de arquivos PDF de uma e várias páginas.
Saída JSONAlém do formato Markdown, a saída JSON será suportada para facilitar o processamento e a integração de dados.

Com as etapas acima, os usuários podem instalar e usar facilmente a biblioteca Llama OCR para converter o conteúdo de texto em imagens para o formato Markdown, melhorando a eficiência do processamento de documentos.

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Operação detalhada da função

Código de amostra (computação)

funções futuras

Artigos relacionados

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Raycast-G4F: Acesso gratuito a GPT-4, Llama-3 e muitos outros modelos de IA via Raycast!

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

PaddleOCR: uma biblioteca de ferramentas de OCR multilíngue baseada no Flying Paddle, com suporte ao reconhecimento de mais de 80 idiomas

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA