PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu
PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros, mediante la fusión de un codificador visual dinámico de alta resolución y un modelo lingüístico ERNIE ligero, al tiempo que mantiene una alta precisión y reduce significativamente la sobrecarga computacional.
UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.
UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...
DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network
DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...
Kandinsky 5.0 - Serie de modelos de generación de vídeo de código abierto del equipo ruso de IA
Kandinsky 5.0 es la última serie de modelos de generación de vídeo desarrollada por el equipo ruso de IA, centrada en un diseño ligero y un alto rendimiento. El primer modelo de la serie, Kandinsky 5.0 Video Lite, solo tiene 2.000 millones de parámetros, pero supera a modelos similares de 14B, especialmente...
SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU
SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...
Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python
Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...
Youtu-Embedding - Modelo de representación de texto genérico de código abierto de Tencent Youtu
Youtu-Embedding es un modelo de representación de texto universal de código abierto de Youtu Labs de Tencent, diseñado para aplicaciones de nivel empresarial. El texto se mapea en un espacio vectorial de alta dimensión mediante redes neuronales profundas, de modo que las frases semánticamente similares están más cerca unas de otras en ese espacio, logrando una recuperación semántica precisa.
SAIL-VL2 - Modelo de lenguaje visual multimodal de código abierto de ByteHop
SAIL-VL2 es un modelo de lenguaje visual multimodal de código abierto del equipo Byte Jump, centrado en el modelado conjunto de entradas multimodales como imágenes y texto. Utilizando la arquitectura de mezcla dispersa de expertos (MoE) y la estrategia de entrenamiento progresivo, logra un alto rendimiento en escalas de parámetros de 2B a 8B, especialmente en las áreas de comprensión gráfica, matemática...
MineContext - Socio de IA consciente del contexto activo y de código abierto de Bytes
MineContext es un socio activo de IA consciente del contexto, de código abierto por el equipo de ByteDance Viking, para ayudar a los usuarios a gestionar eficientemente cantidades masivas de información y mejorar la eficiencia del trabajo del conocimiento. Sobre la tecnología de captura de pantalla y comprensión de contenido, registra automáticamente las operaciones diarias del usuario (como navegar por la web, editar documentos, etc.), apoya...
nanochat - el proyecto de formación de modelos de bajo coste, gratuito y de código abierto de Karpathy
nanochat es un proyecto de código abierto lanzado por Andrej Karpathy, leyenda de la IA y antiguo Director de IA de Tesla, que permite a los particulares entrenar rápidamente un pequeño modelo de lenguaje similar a ChatGPT con un coste y una simplicidad muy bajos. Todo el proyecto utiliza sólo unos 800...








