UnifiedTTS - Plataforma única de servicios TTS API, supervisión del rendimiento en tiempo real
UnifiedTTS es una plataforma integral de servicios de texto a voz (TTS). Admite varios idiomas, como chino, inglés, japonés y coreano, para satisfacer las necesidades de las empresas de todo el mundo. A través de una interfaz API unificada, integra muchos de los principales servicios TTS, como Micro...
MiniCPM 4.1 - Macromodelado de extremo ultraeficiente mediante Facing Face Intelligence
MiniCPM 4.1 es un modelo de lenguaje de gran tamaño ultraeficiente introducido por Facade Intelligence. Con la arquitectura de atención dispersa InfLLM v2, cada lexema sólo necesita calcular la correlación con menos de 5% lexemas, lo que reduce significativamente la sobrecarga de procesamiento de texto largo. En el escenario de texto largo de 128K...
WeKnora - Marco de código abierto de Tencent WeChat para la comprensión de documentos y la recuperación semántica
WeKnora es Tencent WeChat equipo de código abierto basado en el Modelo de Lenguaje Grande (LLM) comprensión de documentos y el marco de recuperación semántica , diseñado para la estructura de los escenarios de contenido de documentos complejos y heterogéneos y diseñado para utilizar una arquitectura modular , la integración de preprocesamiento multimodal , la indexación vectorial semántica , la recuperación inteligente y gran modelo de razonamiento generativo ...
XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab
XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
Qwen3-ASR-Flash - una serie de modelos de reconocimiento de voz lanzados por Ali Tongyi Qianqian
Qwen3-ASR-Flash es el último modelo de reconocimiento de voz de alta precisión de Alibaba, basado en el modelo de base Qwen3, entrenado con datos multimodales masivos. Es compatible con 11 idiomas y múltiples acentos, incluidos mandarín, sichuan, minnan, wu, cantonés y otros dialectos...
Qwen3-Max-Preview - Modelo emblemático de gran lenguaje de Tongyi Qianqian
Qwen3-Max-Preview es el último gran modelo lingüístico insignia lanzado por Tongyi Qianwen. Es el modelo con el mayor número de parámetros de la familia Qwen3, con un tamaño de parámetros de más de 1 billón. El modelo presenta mejoras significativas en inferencia, seguimiento de instrucciones, soporte multilingüe y cobertura de conocimiento de cola larga...
OneCAT - Modelo multimodal de código abierto para Meituan y la Universidad Jiaotong de Shanghai
OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
Claudable - Constructor de aplicaciones web de IA de código abierto, código generado en lenguaje natural
Claudable es un creador de aplicaciones web de código abierto basado en Next.js que combina las capacidades avanzadas de agente de IA de Claude Code y Cursor CLI con la experiencia de creación de aplicaciones sencilla e intuitiva de Lovable...
FineVision - Hugging Face lanza un conjunto de datos de código abierto sobre el lenguaje visual
FineVision es el conjunto de datos de lenguaje visual de código abierto de Hugging Face para el entrenamiento de modelos avanzados de lenguaje visual. Contiene 17,3 millones de imágenes, 24,3 millones de muestras, 88,9 millones de rondas de diálogo y 9.500 millones de tokens de respuesta. El conjunto de datos...
HunyuanWorld-Voyager - Modelo mundial de itinerancia ultralarga de código abierto de Tencent
HunyuanWorld-Voyager (abreviado Hunyuan Voyager) es el primer modelo de mundo itinerante ultralargo de la industria lanzado por Tencent que admite la reconstrucción nativa en 3D. Se trata de un novedoso marco de difusión de vídeo que genera secuencias de nubes de puntos 3D de trayectorias de cámara definidas por el usuario a partir de una sola imagen,...