Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs

Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
hace 8 meses
041.5K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Marco de generación de vídeo ligero de código abierto Tencent WeChat Visual

Stand-In es un marco de generación de vídeo ligero, plug-and-play y preservador de identidad del equipo WeChat Vision de Tencent. Centrado en preservar rasgos de identidad específicos en la generación de vídeo, solo necesita entrenar parámetros adicionales del modelo base 1%, y puede lograr excelentes resultados en similitud facial y naturalidad.
hace 8 meses
039.8K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - Modelo TTS gratuito de código abierto para la estación B, el primero que admite un control preciso de la duración

IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...
hace 8 meses
0102.3K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - Marco de generación de vídeo multimodal de código abierto United Bytes de la Universidad de Tsinghua

HuMo es un marco de generación de vídeo multimodal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y ByteDance Intelligent Creation Lab, que se centra en la generación de vídeo centrada en el ser humano. Puede generar vídeos humanos de alta calidad, precisos y controlables a partir de entradas multimodales como texto, imágenes y audio.
hace 8 meses
0121.4K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Herramienta gratuita de rebanado semántico de documentos AI, ajuste dinámico de rebanado

AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
hace 8 meses
043.7K
UnifiedTTS - 一站式TTS API服务平台,实时性能监控

UnifiedTTS - Plataforma única de servicios TTS API, supervisión del rendimiento en tiempo real

UnifiedTTS es una plataforma integral de servicios de texto a voz (TTS). Admite varios idiomas, como chino, inglés, japonés y coreano, para satisfacer las necesidades de las empresas de todo el mundo. A través de una interfaz API unificada, integra muchos de los principales servicios TTS, como Micro...
hace 8 meses
046.8K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Macromodelado de extremo ultraeficiente mediante Facing Face Intelligence

MiniCPM 4.1 es un modelo de lenguaje de gran tamaño ultraeficiente introducido por Facade Intelligence. Con la arquitectura de atención dispersa InfLLM v2, cada lexema sólo necesita calcular la correlación con menos de 5% lexemas, lo que reduce significativamente la sobrecarga de procesamiento de texto largo. En el escenario de texto largo de 128K...
hace 9 meses
038.2K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Marco de código abierto de Tencent WeChat para la comprensión de documentos y la recuperación semántica

WeKnora es Tencent WeChat equipo de código abierto basado en el Modelo de Lenguaje Grande (LLM) comprensión de documentos y el marco de recuperación semántica , diseñado para la estructura de los escenarios de contenido de documentos complejos y heterogéneos y diseñado para utilizar una arquitectura modular , la integración de preprocesamiento multimodal , la indexación vectorial semántica , la recuperación inteligente y gran modelo de razonamiento generativo ...
hace 9 meses
080.2K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab

XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
hace 9 meses
039.3K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - una serie de modelos de reconocimiento de voz lanzados por Ali Tongyi Qianqian

Qwen3-ASR-Flash es el último modelo de reconocimiento de voz de alta precisión de Alibaba, basado en el modelo de base Qwen3, entrenado con datos multimodales masivos. Es compatible con 11 idiomas y múltiples acentos, incluidos mandarín, sichuan, minnan, wu, cantonés y otros dialectos...
hace 9 meses
052.5K