olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2
olmOCR 2 es un modelo de análisis sintáctico multimodal de documentos de código abierto del Allen Institute for Artificial Intelligence (AI2) y es una versión mejorada de olmOCR. Los documentos impresos digitalizados (por ejemplo, PDF) se...
ValueCell - Plataforma financiera multiinteligencia de código abierto con múltiples agentes trabajando juntos
ValueCell es una plataforma de aplicaciones financieras de código abierto con múltiples cuerpos inteligentes que mejora la eficiencia del análisis financiero y la gestión de inversiones a través de la tecnología de IA. Simulando un equipo de inversión profesional, múltiples inteligencias de IA trabajan juntas, cubriendo análisis de mercado, análisis de sentimiento, investigación fundamental, trading automático y otras funciones, proporcionando a los usuarios una completa...
Dexbotic - La máquina de la Fuerza Espíritu de código abierto inteligencia corporal modelo VLA plataforma de servicios de investigación de ventanilla única.
Dexbotic es el modelo de código abierto Visual-Lingüística-Acción (VLA) de la plataforma de servicios de investigación de ventanilla única de inteligencia incorporada de Dexmal, que resuelve los problemas de fragmentación y baja eficiencia de la investigación en el campo de la inteligencia incorporada. Basado en PyTorch, Dexbotic es una plataforma de servicios de investigación de ventanilla única para resolver los problemas de fragmentación y baja eficiencia en el campo de la inteligencia corporal....
LongCat-Video - Modelo de generación de vídeo de código abierto LongCat de la Misión
LongCat-Video es un modelo de generación de vídeo de 1.360 millones de parámetros de código abierto del equipo LongCat, que utiliza el protocolo de código abierto del MIT y soporta tres tareas principales: vídeo generado por texto, vídeo generado por gráficos y continuación de vídeo. El modelo, a través de la estrategia de generación "de grueso a fino" y el mecanismo de atención dispersa por bloques, puede ...
DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST
DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...
Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto
WorldMirror 1.1 (WorldMirror) es una reconstrucción 3D de código abierto de grandes modelos lanzada por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la reconstrucción 3D tradicional que sólo se basa en...
DeepSeek-OCR - Modelo de reconocimiento óptico de caracteres de código abierto DeepSeek
DeepSeek-OCR es un modelo avanzado de reconocimiento óptico de caracteres (OCR) de código abierto creado por el equipo de DeepSeek, que convierte texto en imágenes mediante la tecnología de "compresión óptica contextual" y utiliza fichas visuales para la compresión y descodificación con el fin de lograr un procesamiento eficaz de textos largos.
VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks
VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...
MinerU2.5 - Modelo de análisis sintáctico de documentos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Pekín
MinerU2.5 es un modelo de lenguaje visual desacoplado desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y el equipo de la Universidad de Pekín, centrado en el procesamiento eficiente del análisis sintáctico de imágenes de documentos de alta resolución. La principal innovación radica en el diseño en dos fases de la "detección de la disposición global seguida del reconocimiento del contenido local": la primera fase...
LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat
LongCat-Audio-Codec es una solución de códec de voz de código abierto del equipo LongCat de Meituan. La solución está diseñada para Speech Large Language Model (Speech LLM), a través del mecanismo de extracción en paralelo Token dual semántico y acústico , teniendo en cuenta las características semánticas y acústicas del habla ...









