Aprendizagem pessoal com IA
e orientação prática

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita

Introdução geral

O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision que converte documentos para o formato Markdown. A biblioteca foi desenvolvida pela Nutlope e usa o Juntos A interface gratuita Llama 3.2 fornecida pela AI analisa imagens e retorna texto Markdown. O Llama OCR é compatível com OCR de imagens locais e remotas, com suporte para OCR de arquivos PDF planejado para o futuro. O npm instala a biblioteca e facilita a invocação de sua funcionalidade em projetos.

Itens de referência: Zerox


Llama OCR: biblioteca de OCR para converter documentos em Markdown usando a interface Vision 3.2 gratuita do Llama-1

Demonstração: https://llamaocr.com/

 

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Vision 3.2 gratuita do Llama-1

Confie na interface gratuita do Meta Llama Vision fornecida pela together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

Mais modelos visuais gratuitos:Plataforma aberta Smart Spectrum, o primeiro modelo de visão multimodal gratuito GLM-4V-Flash on-line, uso ilimitado!

 

Lista de funções

  • OCR de imagemReconhecimento óptico de caracteres: suporta o reconhecimento óptico de caracteres de imagens locais e remotas.
  • Saída MarkdownMarkdown: converte o texto reconhecido para o formato Markdown.
  • Suporte a vários modelosInterface do modelo Llama 3.2: interfaces gratuitas e pagas estão disponíveis para atender a diferentes requisitos de desempenho.
  • Integração de APIAnálise de imagem por meio da API do Together AI.
  • funções futurasO programa suporta o processamento de OCR de PDFs de uma ou várias páginas, bem como a saída no formato JSON.

 

Usando a Ajuda

Processo de instalação

  1. Certifique-se de que o ambiente do Node.js esteja instalado.
  2. Instale a biblioteca Llama OCR usando o npm:
   npm i llama-ocr

Uso

  1. Importar a biblioteca Llama OCR:
   importar { ocr } de "llama-ocr".
  1. invocações ocr para análise de imagens:
   const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // caminho do arquivo de imagem
apiKey: process.env.TOGETHER_API_KEY, // Chave da API do Together AI
});
  1. Processa o texto Markdown retornado:
   console.log(markdown);

Operação detalhada da função

  • OCR de imagempassa o caminho do arquivo de imagem para o ocr você pode obter o conteúdo de texto da imagem.
  • Saída MarkdownTexto analisado: O texto analisado é convertido automaticamente para o formato Markdown para facilitar o uso em documentos.
  • Suporte a vários modelos: Ao definir o modelo diferentes modelos do Llama 3.2 podem ser selecionados (por exemplo Llama-3.2-90B-Vision talvez Llama-3.2-11B-Vision) para atender a diferentes necessidades de desempenho.
  • Integração de API: A chave de API do Together AI precisa ser definida em uma variável de ambiente para chamar sua interface para análise de imagens.

Código de amostra (computação)

importar { ocr } de "llama-ocr".
função assíncrona runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

funções futuras

  • Suporte em PDF: As versões futuras darão suporte ao OCR de arquivos PDF de uma e várias páginas.
  • Saída JSONAlém do formato Markdown, a saída JSON será suportada para facilitar o processamento e a integração de dados.

Com as etapas acima, os usuários podem instalar e usar facilmente a biblioteca Llama OCR para converter o conteúdo de texto em imagens para o formato Markdown, melhorando a eficiência do processamento de documentos.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil