DeepSeek-OCR - Modelo de reconocimiento óptico de caracteres de código abierto DeepSeek
DeepSeek-OCR es un modelo avanzado de reconocimiento óptico de caracteres (OCR) de código abierto creado por el equipo de DeepSeek, que convierte texto en imágenes mediante la tecnología de "compresión óptica contextual" y utiliza fichas visuales para la compresión y descodificación con el fin de lograr un procesamiento eficaz de textos largos.
VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks
VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...
MinerU2.5 - Modelo de análisis sintáctico de documentos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Pekín
MinerU2.5 es un modelo de lenguaje visual desacoplado desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y el equipo de la Universidad de Pekín, centrado en el procesamiento eficiente del análisis sintáctico de imágenes de documentos de alta resolución. La principal innovación radica en el diseño en dos fases de la "detección de la disposición global seguida del reconocimiento del contenido local": la primera fase...
LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat
LongCat-Audio-Codec es una solución de códec de voz de código abierto del equipo LongCat de Meituan. La solución está diseñada para Speech Large Language Model (Speech LLM), a través del mecanismo de extracción en paralelo Token dual semántico y acústico , teniendo en cuenta las características semánticas y acústicas del habla ...
PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu
PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros, mediante la fusión de un codificador visual dinámico de alta resolución y un modelo lingüístico ERNIE ligero, al tiempo que mantiene una alta precisión y reduce significativamente la sobrecarga computacional.
UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.
UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...
DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network
DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...
Kandinsky 5.0 - Serie de modelos de generación de vídeo de código abierto del equipo ruso de IA
Kandinsky 5.0 es la última serie de modelos de generación de vídeo desarrollada por el equipo ruso de IA, centrada en un diseño ligero y un alto rendimiento. El primer modelo de la serie, Kandinsky 5.0 Video Lite, solo tiene 2.000 millones de parámetros, pero supera a modelos similares de 14B, especialmente...
SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU
SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...
Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python
Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...








