Introdução geral
O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision que converte documentos para o formato Markdown. A biblioteca foi desenvolvida pela Nutlope e usa o Juntos A interface gratuita Llama 3.2 fornecida pela AI analisa imagens e retorna texto Markdown. O Llama OCR é compatível com OCR de imagens locais e remotas, com suporte para OCR de arquivos PDF planejado para o futuro. O npm instala a biblioteca e facilita a invocação de sua funcionalidade em projetos.
Itens de referência: Zerox
Mais modelos visuais gratuitos:Plataforma aberta Smart Spectrum, o primeiro modelo de visão multimodal gratuito GLM-4V-Flash on-line, uso ilimitado!
Lista de funções
- OCR de imagemReconhecimento óptico de caracteres: suporta o reconhecimento óptico de caracteres de imagens locais e remotas.
- Saída MarkdownMarkdown: converte o texto reconhecido para o formato Markdown.
- Suporte a vários modelosInterface do modelo Llama 3.2: interfaces gratuitas e pagas estão disponíveis para atender a diferentes requisitos de desempenho.
- Integração de APIAnálise de imagem por meio da API do Together AI.
- funções futurasO programa suporta o processamento de OCR de PDFs de uma ou várias páginas, bem como a saída no formato JSON.
Usando a Ajuda
Processo de instalação
- Certifique-se de que o ambiente do Node.js esteja instalado.
- Instale a biblioteca Llama OCR usando o npm:
npm i llama-ocr
Uso
- Importar a biblioteca Llama OCR:
importar { ocr } de "llama-ocr".
- invocações
ocr
para análise de imagens:
const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // caminho do arquivo de imagem
apiKey: process.env.TOGETHER_API_KEY, // Chave da API do Together AI
});
- Processa o texto Markdown retornado:
console.log(markdown);
Operação detalhada da função
- OCR de imagempassa o caminho do arquivo de imagem para o
ocr
você pode obter o conteúdo de texto da imagem. - Saída MarkdownTexto analisado: O texto analisado é convertido automaticamente para o formato Markdown para facilitar o uso em documentos.
- Suporte a vários modelos: Ao definir o
modelo
diferentes modelos do Llama 3.2 podem ser selecionados (por exemploLlama-3.2-90B-Vision
talvezLlama-3.2-11B-Vision
) para atender a diferentes necessidades de desempenho. - Integração de API: A chave de API do Together AI precisa ser definida em uma variável de ambiente para chamar sua interface para análise de imagens.
Código de amostra (computação)
importar { ocr } de "llama-ocr".
função assíncrona runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();
funções futuras
- Suporte em PDF: As versões futuras darão suporte ao OCR de arquivos PDF de uma e várias páginas.
- Saída JSONAlém do formato Markdown, a saída JSON será suportada para facilitar o processamento e a integração de dados.
Com as etapas acima, os usuários podem instalar e usar facilmente a biblioteca Llama OCR para converter o conteúdo de texto em imagens para o formato Markdown, melhorando a eficiência do processamento de documentos.