Dolphin - Gran modelo de análisis de documentos ligeros de código abierto de Wordpress
Últimos recursos sobre IAPublicado hace 2 meses Círculo de intercambio de inteligencia artificial 10.2K 00
¿Qué es Dolphin?
Dolphin es un salto de byte de código abierto ligero modelo de análisis sintáctico de documentos grandes , con 322M parámetros , pequeño tamaño y velocidad de ejecución rápida . El modelo se basa en un enfoque de análisis de dos etapas , basado en el análisis de diseño a nivel de página para identificar los elementos del documento ( como títulos , tablas , fórmulas , etc ) , y luego cada elemento del contenido del análisis , el modelo es compatible con la extracción de texto , fórmulas , tablas y otros elementos , el apoyo a la salida de JSON , Markdown , formato HTML , etc Dolphin se aplica a la investigación académica , oficina comercial , la educación , el desarrollo tecnológico y otros. Dolphin es adecuado para la investigación académica , oficina comercial , la educación , el desarrollo tecnológico , etc Dolphin puede procesar eficientemente trabajos académicos , informes de negocios , documentos técnicos , etc , ayudar a digitalizar documentos y extraer información , y mejorar la eficiencia de la oficina.

Principales características de Dolphin
- Análisis del trazadoIdentifica con precisión los títulos, gráficos, tablas, notas a pie de página y otros elementos de un documento, y genera una secuencia clara de elementos basada en el orden natural de lectura, sentando las bases para el posterior análisis sintáctico del contenido.
- extracción de contenidos: Analiza páginas de documentos en formato estructurado JSON o Markdown para su posterior procesamiento y presentación.
- análisis sintáctico de textos: Extraiga con precisión el contenido de texto de documentos en chino, inglés y muchos otros idiomas.
- reconocimiento de fórmulasPermite el reconocimiento de fórmulas complejas en línea y a nivel de bloque, y genera resultados en formato LaTeX para facilitar el manejo de documentos académicos y técnicos.
- análisis de tablasSoporte para analizar estructuras de tablas complejas y extraer el contenido de las celdas para generar tablas con formato HTML que satisfagan las necesidades de una gran variedad de escenarios de aplicación.
- Arquitectura ligeraEl modelo tiene el número de referencia 322M, es pequeño y rápido, y resulta adecuado para su uso en dispositivos o entornos con recursos limitados.
- Múltiples entradas y salidasAdmite varias entradas de imágenes de documentos, como trabajos académicos, informes empresariales, documentos técnicos, etc. Los resultados del análisis sintáctico pueden presentarse en JSON, Markdown, HTML y otros formatos, lo que resulta práctico para la integración con distintos sistemas.
Dirección del sitio web oficial de Dolphin
- Repositorio GitHub::https://github.com/bytedance/Dolphin
- Biblioteca de modelos HuggingFace::https://huggingface.co/ByteDance/Dolphin
- Documento técnico arXiv::https://arxiv.org/pdf/2505.14059
- Demostración de la experiencia en línea::http://115.190.42.15:8888/dolphin/
Cómo utilizar Dolphin
- Demostración de la experiencia en líneaAl visitar la dirección de demostración de la experiencia en línea Dolphin, el usuario carga directamente las imágenes de los documentos para su análisis, sin necesidad de instalar ni configurar ningún entorno.
- Despliegue de repositorios GitHub::
- almacén de clones::
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin
- Instalación de dependencias::
pip install -r requirements.txt
- Descargar modelo preentrenadoDescarga y descomprime los archivos del modelo preentrenado siguiendo las instrucciones del repositorio de GitHub.
- código en ejecuciónEjecute Dolphin siguiendo el código de ejemplo del repositorio, por ejemplo:
from dolphin import DolphinParser
parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)
- Biblioteca de modelos de caras abrazadas::
- Instalación de la biblioteca Cara abrazada::
pip install transformers
- Modelos de carga::
from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor
model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")
# 进行解析
outputs = model(**image)
# 处理输出结果
- Tratamiento de los resultadosTratamiento posterior y utilización de los resultados del análisis sintáctico en función del formato de salida del modelo (por ejemplo, JSON, HTML, etc.).
Puntos fuertes de Dolphin
- Ligero y eficiente: Dolphin sólo ocupa 322M, es pequeño y rápido, adecuado para entornos con recursos limitados.
- Análisis sintáctico en dos etapasAnálisis sintáctico del diseño antes que del contenido, basado en el procesamiento paralelo para mejorar la eficacia y la precisión.
- Potente análisis sintáctico de documentos: Admite el análisis sintáctico de texto, tablas, fórmulas, gráficos y otros elementos para abarcar estructuras de documentos complejas.
- Soporte multilingüe: Identifica con precisión texto en chino, inglés y otros idiomas para satisfacer las necesidades del procesamiento de documentos multilingües.
- Entradas y salidas diversasCompatible con una variedad de formatos de documentos de entrada, soporte para JSON, Markdown, HTML y otros formatos de salida, fácil de integrar.
- Código abierto y facilidad de usoEl código y los modelos preentrenados son de código abierto y ofrecen a los desarrolladores abundantes recursos para empezar rápidamente y personalizar su desarrollo.
- Alto rendimientoSupera a modelos convencionales como GPT-4.1 y Mistral-OCR en tareas de análisis sintáctico de documentos, y destaca en el reconocimiento de tablas y fórmulas.
Para quién es Dolphin
- investigador: Analice rápidamente texto, fórmulas y diagramas de artículos académicos, ayudando a los investigadores a organizar eficazmente la bibliografía y extraer información clave para acelerar su trabajo científico.
- Personal de la oficinaEl personal de negocios extrae información clave de contratos, informes y otros documentos empresariales para ayudar en la revisión de contratos y la generación de informes y mejorar la eficiencia de la oficina.
- educadorProfesores e instituciones educativas utilizan Dolphin para digitalizar material didáctico y exámenes, apoyar la enseñanza en línea y el multilingüismo y enriquecer los recursos pedagógicos.
- Desarrollador tecnológico: Los desarrolladores analizan la documentación técnica para facilitar la gestión del código y los intercambios técnicos, así como el desarrollo secundario y la personalización basada en código fuente abierto.
- escolaresLos estudiantes organizan rápidamente el material de estudio y extraen los puntos clave para facilitar el aprendizaje y el repaso.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...