DeepOCR - Proyecto de réplica de código abierto basado en el modelo DeepSeek-OCR
Últimos recursos sobre IAPublicado hace 2 meses Círculo de intercambio de inteligencia artificial 14.5K 00
Qué es DeepOCR
DeepOCR es un proyecto de replicación de código abierto que implementa la DeepSeek-OCR La arquitectura central del sistema procesa eficazmente la información textual mediante técnicas de compresión óptica. El núcleo es DeepEncoder, que consta de una base SAM (para procesar imágenes de alta resolución), un compresor convolucional de 16× (para reducir la ficha DeepOCR emplea un proceso de entrenamiento en dos fases: la primera utiliza el conjunto de datos LLaVA-CC3M para la alineación visual-lingüística. Este diseño reduce significativamente la memoria de activación y el recuento de tokens a la vez que mantiene una potencia de procesamiento de alta resolución.DeepOCR emplea un proceso de entrenamiento en dos fases: la primera fase utiliza el conjunto de datos LLaVA-CC3M para el entrenamiento de la alineación visual-lingüística; la segunda fase utiliza el conjunto de datos LLaVA-CC3M para la alineación visual-lingüística. olmOCR Se realiza un preentrenamiento específico de OCR en el conjunto de datos. Con este enfoque de entrenamiento, DeepOCR obtiene buenos resultados en las pruebas de OmniDocBench y olmOCR, especialmente en las tareas de reconocimiento de texto en inglés y análisis sintáctico de tablas, lo que valida la eficacia de la compresión óptica.

Características de DeepOCR
- compresión óptica: Compresión eficaz de la información textual representándola como imagen y procesándola con codificadores visuales como SAM y CLIP, con índices de compresión de hasta 7-20 veces.
- Procesado de alta resoluciónAdmite entradas de imagen de 1024×1024 y resoluciones superiores, y gestiona eficazmente la memoria de activación mediante el mecanismo de atención de ventanas y la tecnología de compresión convolucional.
- fusión multimodalLas características locales de SAM y las características semánticas globales de CLIP se combinan para generar características de fusión de 2048 dimensiones que proporcionan una gran cantidad de información para tareas posteriores.
- Formación en dos etapasEl modelo se entrena para la alineación visual-lingüística en la primera fase y se preentrena para tareas de reconocimiento óptico de caracteres en la segunda fase, para garantizar que el modelo funcione bien en tareas de reconocimiento de texto y análisis sintáctico de documentos.
- bajo consumo de energíaDeepEncoder (SAM + CLIP): al congelar el DeepEncoder (SAM + CLIP), los requisitos de memoria gráfica se reducen drásticamente, lo que permite al modelo completar el entrenamiento con recursos de GPU limitados (por ejemplo, 2×H200).
- aplicación de código abierto: Totalmente de código abierto basado en el framework VILA, que proporciona a la comunidad investigadora una plataforma accesible para explorar mecanismos ópticos de compresión contextual.
- evaluación comparativaEl rendimiento del modelo se valida en las pruebas OmniDocBench y olmOCR, y funciona especialmente bien en las tareas de reconocimiento de texto en inglés y análisis sintáctico de tablas.
Principales ventajas de DeepOCR
- Compresión eficaz::La compresión óptica, en la que el texto se representa como una imagen y se procesa mediante un codificador visual, reduce significativamente el número de tokens de texto en un factor de 7-20. Esto hace que el modelo sea más eficiente a la hora de procesar textos largos y reduce los requisitos de recursos informáticos. Esto hace que el modelo sea más eficaz a la hora de procesar textos largos y reduce las necesidades de recursos informáticos.
- Capacidad de procesamiento de alta resolución::Admite entradas de alta resolución (por ejemplo, 1024×1024) y gestiona eficientemente la memoria de activación para evitar la explosión de memoria mediante el Mecanismo de Atención de Ventana (SAM) y técnicas de compresión convolucional. Esto permite a DeepOCR manejar diseños de documentos complejos e imágenes de alta resolución.
- fusión multimodal::Las características locales de SAM se fusionan con las características semánticas globales de CLIP para generar características ricas en 2048 dimensiones. Esta fusión multimodal proporciona información más completa para las tareas posteriores y mejora el rendimiento del modelo.
- bajo consumo de energía::Durante el proceso de entrenamiento, DeepEncoder (SAM + CLIP) se congela, lo que reduce drásticamente los requisitos de memoria gráfica. Esto permite al modelo completar el entrenamiento con recursos de GPU limitados (por ejemplo, 2×H200), lo que reduce el umbral de hardware y lo hace adecuado para equipos pequeños y medianos.
¿Cuál es el sitio web oficial de DeepOCR?
- Página web del proyecto:: https://pkulium.github.io/DeepOCR_website/
- Repositorio Github:: https://github.com/pkulium/DeepOCR
Para quién es DeepOCR
- Desarrolladores en tratamiento de documentos y OCR::Los textos largos y los diseños de documentos complejos deben procesarse con eficacia, y las capacidades de compresión óptica y procesamiento de alta resolución de DeepOCR pueden mejorar significativamente la eficacia del análisis sintáctico de documentos.
- Equipos pequeños y medianos y desarrolladores independientes::La naturaleza poco computacional de DeepOCR lo hace adecuado para funcionar con recursos de hardware limitados, lo que reduce el umbral de desarrollo.
- Colaboradores de la Comunidad de Código Abierto::Los miembros de la comunidad de código abierto pueden participar en aportaciones de código, mejoras y ampliaciones para hacer avanzar la tecnología.
- Investigadores académicos interesados en tecnologías innovadoras::Esperamos explorar la aplicación de la compresión óptica en distintos campos, como la comprensión de imágenes y la detección de elementos de IU.
- Empresas y organizaciones que necesitan un tratamiento de textos eficaz::Las eficientes capacidades de compresión y procesamiento de DeepOCR pueden aprovecharse para optimizar el procesamiento interno de documentos y mejorar la eficiencia del trabajo.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




