Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Meta serie de modelos de inferencia eficientes especializados de código abierto

MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...
hace 4 semanas
09.3K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Pensamiento - Modelo de pensamiento razonador de código abierto de Baidu

ERNIE-4.5-21B-A3B-Thinking es el modelo de lenguaje a gran escala de código abierto de Baidu centrado en tareas de razonamiento. Utilizando la arquitectura Mixed Expert (MoE) , el número total de referencias a 21 mil millones , cada token activa 3 mil millones de parámetros para soportar 128K ventana de contexto largo ...
hace 4 semanas
09.3K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - framework de código abierto para la creación de cuerpos inteligentes móviles de la Universidad Jiaotong de Shanghai

MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...
hace 4 semanas
09.9K
ZipVoice - 小米开源的语音合成系列模型

ZipVoice: la familia de modelos de síntesis de voz de código abierto de Xiaomi

ZipVoice es una serie de modelos de síntesis de voz (TTS) basados en la arquitectura Flow Matching lanzada por Xiaomi, entre los que se incluyen ZipVoice (modelo de síntesis de voz de cero muestras para un solo interlocutor) y ZipVoice-Dialog (modelo de síntesis de voz de cero muestras...
hace 4 semanas
011.2K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modelo de IA de código abierto de Baidu para el reconocimiento de texto de nueva generación

PP-OCRv5 es el modelo de IA de reconocimiento de texto de última generación lanzado por Baidu. Con un diseño ligero y un recuento de referencias de solo 0,07 B, es apto para ejecutarse de forma eficiente en CPU y dispositivos edge, y puede procesar más de 370 caracteres por segundo. El modelo admite chino simplificado, chino tradicional, inglés, japonés y pinyin...
hace 4 semanas
014.1K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs

Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
hace 4 semanas
010K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Marco de generación de vídeo ligero de código abierto Tencent WeChat Visual

Stand-In es un marco de generación de vídeo ligero, plug-and-play y preservador de identidad del equipo WeChat Vision de Tencent. Centrado en preservar rasgos de identidad específicos en la generación de vídeo, solo necesita entrenar parámetros adicionales del modelo base 1%, y puede lograr excelentes resultados en similitud facial y naturalidad.
hace 4 semanas
09K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - Modelo TTS gratuito de código abierto para la estación B, el primero que admite un control preciso de la duración

IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...
hace 4 semanas
023.9K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - Marco de generación de vídeo multimodal de código abierto United Bytes de la Universidad de Tsinghua

HuMo es un marco de generación de vídeo multimodal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y ByteDance Intelligent Creation Lab, que se centra en la generación de vídeo centrada en el ser humano. Puede generar vídeos humanos de alta calidad, precisos y controlables a partir de entradas multimodales como texto, imágenes y audio.
hace 4 semanas
016.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Herramienta gratuita de rebanado semántico de documentos AI, ajuste dinámico de rebanado

AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
hace 1 mes
013K