Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs
Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
Stand-In - Marco de generación de vídeo ligero de código abierto Tencent WeChat Visual
Stand-In es un marco de generación de vídeo ligero, plug-and-play y preservador de identidad del equipo WeChat Vision de Tencent. Centrado en preservar rasgos de identidad específicos en la generación de vídeo, solo necesita entrenar parámetros adicionales del modelo base 1%, y puede lograr excelentes resultados en similitud facial y naturalidad.
IndexTTS2 - Modelo TTS gratuito de código abierto para la estación B, el primero que admite un control preciso de la duración
IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...
HuMo - Marco de generación de vídeo multimodal de código abierto United Bytes de la Universidad de Tsinghua
HuMo es un marco de generación de vídeo multimodal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y ByteDance Intelligent Creation Lab, que se centra en la generación de vídeo centrada en el ser humano. Puede generar vídeos humanos de alta calidad, precisos y controlables a partir de entradas multimodales como texto, imágenes y audio.
AntSK FileChunk - Herramienta gratuita de rebanado semántico de documentos AI, ajuste dinámico de rebanado
AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
UnifiedTTS - Plataforma única de servicios TTS API, supervisión del rendimiento en tiempo real
UnifiedTTS es una plataforma integral de servicios de texto a voz (TTS). Admite varios idiomas, como chino, inglés, japonés y coreano, para satisfacer las necesidades de las empresas de todo el mundo. A través de una interfaz API unificada, integra muchos de los principales servicios TTS, como Micro...
MiniCPM 4.1 - Macromodelado de extremo ultraeficiente mediante Facing Face Intelligence
MiniCPM 4.1 es un modelo de lenguaje de gran tamaño ultraeficiente introducido por Facade Intelligence. Con la arquitectura de atención dispersa InfLLM v2, cada lexema sólo necesita calcular la correlación con menos de 5% lexemas, lo que reduce significativamente la sobrecarga de procesamiento de texto largo. En el escenario de texto largo de 128K...
WeKnora - Marco de código abierto de Tencent WeChat para la comprensión de documentos y la recuperación semántica
WeKnora es Tencent WeChat equipo de código abierto basado en el Modelo de Lenguaje Grande (LLM) comprensión de documentos y el marco de recuperación semántica , diseñado para la estructura de los escenarios de contenido de documentos complejos y heterogéneos y diseñado para utilizar una arquitectura modular , la integración de preprocesamiento multimodal , la indexación vectorial semántica , la recuperación inteligente y gran modelo de razonamiento generativo ...
XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab
XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
Qwen3-ASR-Flash - una serie de modelos de reconocimiento de voz lanzados por Ali Tongyi Qianqian
Qwen3-ASR-Flash es el último modelo de reconocimiento de voz de alta precisión de Alibaba, basado en el modelo de base Qwen3, entrenado con datos multimodales masivos. Es compatible con 11 idiomas y múltiples acentos, incluidos mandarín, sichuan, minnan, wu, cantonés y otros dialectos...









