DeepOCR - Proyecto de réplica de código abierto basado en el modelo DeepSeek-OCR

Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial

28.4K 00

Qué es DeepOCR

DeepOCR es un proyecto de replicación de código abierto que implementa la DeepSeek-OCR La arquitectura central del sistema procesa eficazmente la información textual mediante técnicas de compresión óptica. El núcleo es DeepEncoder, que consta de una base SAM (para procesar imágenes de alta resolución), un compresor convolucional de 16× (para reducir la ficha DeepOCR emplea un proceso de entrenamiento en dos fases: la primera utiliza el conjunto de datos LLaVA-CC3M para la alineación visual-lingüística. Este diseño reduce significativamente la memoria de activación y el recuento de tokens a la vez que mantiene una potencia de procesamiento de alta resolución.DeepOCR emplea un proceso de entrenamiento en dos fases: la primera fase utiliza el conjunto de datos LLaVA-CC3M para el entrenamiento de la alineación visual-lingüística; la segunda fase utiliza el conjunto de datos LLaVA-CC3M para la alineación visual-lingüística. olmOCR Se realiza un preentrenamiento específico de OCR en el conjunto de datos. Con este enfoque de entrenamiento, DeepOCR obtiene buenos resultados en las pruebas de OmniDocBench y olmOCR, especialmente en las tareas de reconocimiento de texto en inglés y análisis sintáctico de tablas, lo que valida la eficacia de la compresión óptica.

Características de DeepOCR

compresión óptica: Compresión eficaz de la información textual representándola como imagen y procesándola con codificadores visuales como SAM y CLIP, con índices de compresión de hasta 7-20 veces.
Procesado de alta resoluciónAdmite entradas de imagen de 1024×1024 y resoluciones superiores, y gestiona eficazmente la memoria de activación mediante el mecanismo de atención de ventanas y la tecnología de compresión convolucional.
fusión multimodalLas características locales de SAM y las características semánticas globales de CLIP se combinan para generar características de fusión de 2048 dimensiones que proporcionan una gran cantidad de información para tareas posteriores.
Formación en dos etapasEl modelo se entrena para la alineación visual-lingüística en la primera fase y se preentrena para tareas de reconocimiento óptico de caracteres en la segunda fase, para garantizar que el modelo funcione bien en tareas de reconocimiento de texto y análisis sintáctico de documentos.
bajo consumo de energíaDeepEncoder (SAM + CLIP): al congelar el DeepEncoder (SAM + CLIP), los requisitos de memoria gráfica se reducen drásticamente, lo que permite al modelo completar el entrenamiento con recursos de GPU limitados (por ejemplo, 2×H200).
aplicación de código abierto: Totalmente de código abierto basado en el framework VILA, que proporciona a la comunidad investigadora una plataforma accesible para explorar mecanismos ópticos de compresión contextual.
evaluación comparativaEl rendimiento del modelo se valida en las pruebas OmniDocBench y olmOCR, y funciona especialmente bien en las tareas de reconocimiento de texto en inglés y análisis sintáctico de tablas.

Principales ventajas de DeepOCR

Compresión eficaz::La compresión óptica, en la que el texto se representa como una imagen y se procesa mediante un codificador visual, reduce significativamente el número de tokens de texto en un factor de 7-20. Esto hace que el modelo sea más eficiente a la hora de procesar textos largos y reduce los requisitos de recursos informáticos. Esto hace que el modelo sea más eficaz a la hora de procesar textos largos y reduce las necesidades de recursos informáticos.
Capacidad de procesamiento de alta resolución::Admite entradas de alta resolución (por ejemplo, 1024×1024) y gestiona eficientemente la memoria de activación para evitar la explosión de memoria mediante el Mecanismo de Atención de Ventana (SAM) y técnicas de compresión convolucional. Esto permite a DeepOCR manejar diseños de documentos complejos e imágenes de alta resolución.
fusión multimodal::Las características locales de SAM se fusionan con las características semánticas globales de CLIP para generar características ricas en 2048 dimensiones. Esta fusión multimodal proporciona información más completa para las tareas posteriores y mejora el rendimiento del modelo.
bajo consumo de energía::Durante el proceso de entrenamiento, DeepEncoder (SAM + CLIP) se congela, lo que reduce drásticamente los requisitos de memoria gráfica. Esto permite al modelo completar el entrenamiento con recursos de GPU limitados (por ejemplo, 2×H200), lo que reduce el umbral de hardware y lo hace adecuado para equipos pequeños y medianos.

¿Cuál es el sitio web oficial de DeepOCR?

Página web del proyecto:: https://pkulium.github.io/DeepOCR_website/
Repositorio Github:: https://github.com/pkulium/DeepOCR

Para quién es DeepOCR

Desarrolladores en tratamiento de documentos y OCR::Los textos largos y los diseños de documentos complejos deben procesarse con eficacia, y las capacidades de compresión óptica y procesamiento de alta resolución de DeepOCR pueden mejorar significativamente la eficacia del análisis sintáctico de documentos.
Equipos pequeños y medianos y desarrolladores independientes::La naturaleza poco computacional de DeepOCR lo hace adecuado para funcionar con recursos de hardware limitados, lo que reduce el umbral de desarrollo.
Colaboradores de la Comunidad de Código Abierto::Los miembros de la comunidad de código abierto pueden participar en aportaciones de código, mejoras y ampliaciones para hacer avanzar la tecnología.
Investigadores académicos interesados en tecnologías innovadoras::Esperamos explorar la aplicación de la compresión óptica en distintos campos, como la comprensión de imágenes y la detección de elementos de IU.
Empresas y organizaciones que necesitan un tratamiento de textos eficaz::Las eficientes capacidades de compresión y procesamiento de DeepOCR pueden aprovecharse para optimizar el procesamiento interno de documentos y mejorar la eficiencia del trabajo.

Últimos recursos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

MimicPC: generador de IA en línea, que ofrece una amplia gama de aplicaciones de IA preinstaladas, versión para el extranjero de Endbrain Cloud.

Últimos recursos sobre IA # AI Herramienta de generación de imágenes de autodespliegue

hace 1 año

055.2K

Pequeñas lecciones de idiomas: una herramienta basada en IA para experimentos de aprendizaje de inglés a pequeña escala

Últimos recursos sobre IA # AI Herramientas educativas

hace 11 meses

0105.4K

DeepWiki-Open: generación automatizada de documentación AI para repositorios GitHub, GitLab

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 11 meses

0141K

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

056.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

DeepOCR - Proyecto de réplica de código abierto basado en el modelo DeepSeek-OCR

Qué es DeepOCR

Características de DeepOCR

Principales ventajas de DeepOCR

¿Cuál es el sitio web oficial de DeepOCR?

Para quién es DeepOCR

Glow - herramienta de línea de comandos de código abierto que permite renderizar archivos Markdown en el terminal

Frappe Builder - Constructor de sitios web de código bajo, componentes de arrastrar y soltar para una construcción rápida.

Artículos relacionados

MimicPC: generador de IA en línea, que ofrece una amplia gama de aplicaciones de IA preinstaladas, versión para el extranjero de Endbrain Cloud.

Pequeñas lecciones de idiomas: una herramienta basada en IA para experimentos de aprendizaje de inglés a pequeña escala

DeepWiki-Open: generación automatizada de documentación AI para repositorios GitHub, GitLab

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Sin comentarios

Últimas colecciones

Últimos artículos

DeepOCR - Proyecto de réplica de código abierto basado en el modelo DeepSeek-OCR

Qué es DeepOCR

Características de DeepOCR

Principales ventajas de DeepOCR

¿Cuál es el sitio web oficial de DeepOCR?

Para quién es DeepOCR

Glow - herramienta de línea de comandos de código abierto que permite renderizar archivos Markdown en el terminal

Frappe Builder - Constructor de sitios web de código bajo, componentes de arrastrar y soltar para una construcción rápida.

Artículos relacionados

MimicPC: generador de IA en línea, que ofrece una amplia gama de aplicaciones de IA preinstaladas, versión para el extranjero de Endbrain Cloud.

Pequeñas lecciones de idiomas: una herramienta basada en IA para experimentos de aprendizaje de inglés a pequeña escala

DeepWiki-Open: generación automatizada de documentación AI para repositorios GitHub, GitLab

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos