Introdução geral
O pdf2htmlEX é uma ferramenta de código aberto projetada para converter arquivos PDF para o formato HTML, analisando o conteúdo do arquivo PDF e usando HTML + CSS para restaurar com precisão seu efeito visual, o documento PDF será convertido em um navegador e poderá ser visualizado diretamente na página da Web. A ferramenta é particularmente adequada para trabalhos acadêmicos que contenham um grande número de fórmulas e gráficos, bem como para layouts complexos de revistas. O pdf2htmlEX aproveita as modernas tecnologias da Web para oferecer opções de saída flexíveis, suporte a links, marcação de favoritos, impressão, fundos SVG e fontes Tipo 3, entre outros recursos.
Lista de funções
- Converta arquivos PDF para o formato HTML, mantendo o texto e a formatação intactos
- Suporta uma variedade de opções de saída, incluindo um único arquivo HTML ou carregamento de página sob demanda
- Suporte para links, marcadores, impressão, fundos SVG e fontes Tipo 3
- Oferece configurações de DPI aprimoradas para garantir gráficos de saída sem distorções
- Suporte para processamento de texto transparente e texto parcialmente obscurecido
- Fornece multiplicador de tamanho de fonte e opções de zoom para garantir a exibição precisa no navegador
- Suporta a remoção de arquivos duplicados e a otimização do tamanho do arquivo de saída
Usando a Ajuda
Processo de instalação
- Faça o download e instale as dependências: o pdf2htmlEX depende de ferramentas como Poppler e Fontforge; verifique se elas estão instaladas em seu sistema.
- Faça o download do código-fonte do pdf2htmlEX no repositório do GitHub:
git clone https://github.com/pdf2htmlEX/pdf2htmlEX.git
- Vá para o diretório baixado e compile o código-fonte:
cd pdf2htmlEX && make
- Instale a ferramenta compilada:
sudo make install
Processo de uso
- Abra um terminal ou uma ferramenta de linha de comando.
- Use o comando a seguir para converter arquivos PDF em formato HTML:
pdf2htmlEX input.pdf
- O arquivo HTML convertido será salvo no mesmo diretório que o arquivo de entrada.
Operação detalhada da função
- Opções de conversãoO processo de conversão pode ser controlado usando uma variedade de opções de linha de comando, como
--zoom
para ajustar o dimensionamento do HTML de saída.--font-size-multiplier
ajusta o multiplicador do tamanho da fonte. - Manuseio de texto obscurecido: Uso
--correct-text-visibility (visibilidade do texto correto)
trata de texto total ou parcialmente obscurecido, garantindo que o texto seja exibido corretamente em HTML. - Otimizar o tamanho do arquivoO tamanho do arquivo de saída pode ser otimizado com a remoção de imagens de fundo e arquivos de fonte duplicados, garantindo que o arquivo HTML resultante seja menor e mais eficiente.