Ming-flash-omni-Preview - Macromodelo totalmente modal de código abierto del Grupo Ant
Ming-flash-omni-Preview es un macromodelo full-modal de código abierto lanzado por Ant Group inclusionAI, con una escala de parámetros de cientos de miles de millones, basado en la arquitectura sparse MoE de Ling 2.0, con parámetros totales de 103B y activaciones de 9B. en la comprensión full-modal y la generación...
OmniVinci: el modelo de gran lenguaje omnimodal de código abierto de NVIDIA
OmniVinci es un modelo lingüístico a gran escala, totalmente modal y de código abierto desarrollado por NVIDIA que resuelve el problema de la fragmentación modal en modelos multimodales mediante la innovación arquitectónica y la optimización de datos. La alineación de las incrustaciones visuales y sonoras se mejora mediante OmniAlignNet, que utiliza la captura de grupos incrustada temporalmente....
olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2
olmOCR 2 es un modelo de análisis sintáctico multimodal de documentos de código abierto del Allen Institute for Artificial Intelligence (AI2) y es una versión mejorada de olmOCR. Los documentos impresos digitalizados (por ejemplo, PDF) se...
ValueCell - Plataforma financiera multiinteligencia de código abierto con múltiples agentes trabajando juntos
ValueCell es una plataforma de aplicaciones financieras de código abierto con múltiples cuerpos inteligentes que mejora la eficiencia del análisis financiero y la gestión de inversiones a través de la tecnología de IA. Simulando un equipo de inversión profesional, múltiples inteligencias de IA trabajan juntas, cubriendo análisis de mercado, análisis de sentimiento, investigación fundamental, trading automático y otras funciones, proporcionando a los usuarios una completa...
Dexbotic - La máquina de la Fuerza Espíritu de código abierto inteligencia corporal modelo VLA plataforma de servicios de investigación de ventanilla única.
Dexbotic es el modelo de código abierto Visual-Lingüística-Acción (VLA) de la plataforma de servicios de investigación de ventanilla única de inteligencia incorporada de Dexmal, que resuelve los problemas de fragmentación y baja eficiencia de la investigación en el campo de la inteligencia incorporada. Basado en PyTorch, Dexbotic es una plataforma de servicios de investigación de ventanilla única para resolver los problemas de fragmentación y baja eficiencia en el campo de la inteligencia corporal....
LongCat-Video - Modelo de generación de vídeo de código abierto LongCat de la Misión
LongCat-Video es un modelo de generación de vídeo de 1.360 millones de parámetros de código abierto del equipo LongCat, que utiliza el protocolo de código abierto del MIT y soporta tres tareas principales: vídeo generado por texto, vídeo generado por gráficos y continuación de vídeo. El modelo, a través de la estrategia de generación "de grueso a fino" y el mecanismo de atención dispersa por bloques, puede ...
DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST
DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...
Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto
WorldMirror 1.1 (WorldMirror) es una reconstrucción 3D de código abierto de grandes modelos lanzada por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la reconstrucción 3D tradicional que sólo se basa en...
DeepSeek-OCR - Modelo de reconocimiento óptico de caracteres de código abierto DeepSeek
DeepSeek-OCR es un modelo avanzado de reconocimiento óptico de caracteres (OCR) de código abierto creado por el equipo de DeepSeek, que convierte texto en imágenes mediante la tecnología de "compresión óptica contextual" y utiliza fichas visuales para la compresión y descodificación con el fin de lograr un procesamiento eficaz de textos largos.
VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks
VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...









