Dolphin - Modelo grande de análise de documentos leves e de código aberto do Wordpress
O que é o Dolphin?
O Dolphin é um modelo grande de análise de documentos leves e de código aberto, com 322 milhões de parâmetros, tamanho pequeno e velocidade de execução rápida. O modelo é baseado em uma abordagem de análise de dois estágios, com base na análise de layout em nível de página para identificar os elementos do documento (como títulos, tabelas, fórmulas etc.) e, em seguida, cada elemento do conteúdo da análise, o modelo suporta a extração de texto, fórmulas, tabelas e outros elementos, suporte para a saída de JSON, Markdown, formato HTML etc. O Dolphin se aplica a pesquisas acadêmicas, escritórios comerciais, educação, desenvolvimento de tecnologia e outros O Dolphin é adequado para pesquisas acadêmicas, escritórios comerciais, educação, desenvolvimento de tecnologia, etc. O Dolphin pode processar com eficiência trabalhos acadêmicos, relatórios comerciais, documentos técnicos, etc., ajudar a digitalizar documentos e extrair informações e melhorar a eficiência do escritório.

Principais recursos do Dolphin
- Análise de layoutIdentifica com precisão os títulos, gráficos, tabelas, notas de rodapé e outros elementos em um documento e gera uma sequência clara de elementos com base na ordem natural de leitura, estabelecendo a base para a análise de conteúdo subsequente.
- extração de conteúdoAnálise de páginas de documentos em formato JSON ou Markdown estruturado para processamento e apresentação subsequentes.
- análise de textoExtrai com precisão o conteúdo de texto de documentos, abrangendo chinês, inglês e muitos outros idiomas.
- reconhecimento de fórmulasSuporte ao reconhecimento de fórmulas complexas em linha e em nível de bloco e saídas no formato LaTeX para facilitar o manuseio de documentos acadêmicos e técnicos.
- análise da tabelaSuporte para análise de estruturas de tabelas complexas e extração do conteúdo das células para gerar tabelas formatadas em HTML para atender às necessidades de diversos cenários de aplicativos.
- Arquitetura leveO modelo tem um número de referência de 322M, é pequeno e rápido, e é adequado para uso em dispositivos ou ambientes com recursos limitados.
- Várias entradas e saídasEle é compatível com várias entradas de imagens de documentos, como artigos acadêmicos, relatórios comerciais, documentos técnicos etc. Os resultados da análise podem ser gerados em JSON, Markdown, HTML e outros formatos, o que é conveniente para a integração com diferentes sistemas.
Endereço do site oficial do Dolphin
- Repositório do GitHub::https://github.com/bytedance/Dolphin
- Biblioteca do modelo HuggingFace::https://huggingface.co/ByteDance/Dolphin
- Artigo técnico do arXiv::https://arxiv.org/pdf/2505.14059
- Demonstração da experiência on-line::http://115.190.42.15:8888/dolphin/
Como usar o Dolphin
- Demonstração da experiência on-lineAo visitar o endereço de demonstração da experiência on-line do Dolphin, o usuário carrega diretamente as imagens do documento para análise, sem a necessidade de instalar ou configurar qualquer ambiente.
- Implantação do repositório do GitHub::
- armazém de clones::
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin
- Instalação de dependências::
pip install -r requirements.txt
- Download do modelo pré-treinadoFaça o download e descompacte os arquivos do modelo pré-treinado de acordo com as instruções no repositório do GitHub.
- código de execuçãoExecute o Dolphin seguindo o código de amostra no repositório, por exemplo:
from dolphin import DolphinParser
parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)
- Biblioteca de modelos de rostos abraçados::
- Instalação da biblioteca Hugging Face::
pip install transformers
- Modelos de carregamento::
from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor
model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")
# 进行解析
outputs = model(**image)
# 处理输出结果
- Processamento de resultados de saídaProcessamento adicional e uso de resultados de análise com base no formato de saída do modelo (por exemplo, JSON, HTML etc.).
Principais pontos fortes do Dolphin
- Leve e eficienteDolphin: o Dolphin tem apenas 322M de tamanho, é pequeno e rápido, adequado para ambientes com recursos limitados.
- Abordagem de análise em dois estágiosAnálise de layout antes do conteúdo, com base no processamento paralelo para aumentar a eficiência e a precisão.
- Análise avançada de documentosSuporte à análise de texto, tabelas, fórmulas, gráficos e outros elementos para cobrir estruturas complexas de documentos.
- Suporte a vários idiomasIdentificação precisa de textos em chinês, inglês e outros idiomas para atender às necessidades de processamento de documentos em vários idiomas.
- Diversas entradas e saídasCompatível com vários formatos de entrada de documentos, suporte para JSON, Markdown, HTML e outros formatos de saída, fácil de integrar.
- Código aberto e facilidade de usoCódigo-fonte aberto: O código e os modelos pré-treinados são de código-fonte aberto e oferecem recursos avançados para que os desenvolvedores comecem a trabalhar rapidamente e personalizem seu desenvolvimento.
- Alto desempenhoDesempenho superior ao dos modelos convencionais, como GPT-4.1 e Mistral-OCR, em tarefas de análise de documentos, e excelente no reconhecimento de tabelas e fórmulas.
Para quem é o Dolphin
- pesquisadorAnálise rápida de textos, fórmulas e diagramas em artigos acadêmicos, ajudando os pesquisadores a organizar a literatura de forma eficiente e a extrair informações importantes para acelerar o trabalho científico.
- Equipe do escritório corporativoO sistema de gerenciamento de contratos é uma ferramenta de gerenciamento de contratos que permite que as pessoas extraiam informações importantes de contratos, relatórios e outros documentos comerciais para auxiliar na revisão de contratos e na geração de relatórios, além de aumentar a eficiência do escritório.
- educadorOs professores e as instituições educacionais usam o Dolphin para digitalizar materiais de ensino e provas, apoiar o ensino on-line e o multilinguismo e enriquecer os recursos de ensino.
- Desenvolvedor de tecnologiaDesenvolvedores: analisam a documentação técnica para facilitar o gerenciamento de código e o intercâmbio técnico, bem como o desenvolvimento secundário e a personalização com base no código-fonte aberto.
- crianças em idade escolarOs alunos organizam rapidamente os materiais de estudo e extraem os pontos principais para ajudar no aprendizado e na revisão.
© declaração de direitos autorais
Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.
Artigos relacionados
Nenhum comentário...