Últimos recursos sobre IA

Total 2756 artículos
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - ¡El último modelo de Dark Side of the Moon!

Kimi K2-0905 es un modelo avanzado de IA de Dark Side of the Moon Technologies Ltd. que destaca en la asistencia a la programación, genera código de forma eficiente y favorece la generación de código ordenado y estandarizado en el desarrollo front-end. La longitud del contexto del modelo se amplía hasta 256K para gestionar tareas complejas.
hace 1 mes
019.5K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 - Modelo de generación de voz de MiniMax

MiniMax Speech 2.5 es un modelo avanzado de generación del habla desarrollado por el equipo MiniMax. Supone un avance significativo en el campo de la síntesis del habla, especialmente en términos de expresividad multilingüe, precisión en la reproducción del timbre y cobertura lingüística. El modelo admite 40 idiomas...
hace 2 meses
025.5K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统

GPT-5 - El modelo de lenguaje más sólido presentado por OpenAI, sistema de inteligencia unificado

GPT-5 es el último modelo de lenguaje lanzado por OpenAI con varias actualizaciones. Es un sistema de inteligencia unificada con un enrutador en tiempo real integrado que cambia automáticamente entre los modos de pensamiento eficiente y profundo en función de la complejidad del problema, lo que permite una respuesta rápida y respuestas precisas.GPT-5 tiene varias versiones, incluyendo para pu...
hace 2 meses
020K
RedOne - 小红书最新推出的社交大模型

RedOne: el último megamodelo social de Little Red Book

RedOne es un gran modelo lingüístico adaptado a las redes sociales presentado por Little Red Book. El modelo se entrena mediante una estrategia de formación en tres fases que incorpora conocimientos sociales y culturales, refuerza las capacidades multitarea y alinea las preferencias humanas.RedOne supera significativamente al modelo base en rendimiento de tareas sociales, en detección de contenidos nocivos y navegación...
hace 2 meses
021.1K
TRAE SOLO - 字节跳动TRAE推出的AI自动开发助手

TRAE SOLO - Asistente de desarrollo automatizado de Wordhop TRAE

TRAE SOLO es un asistente de desarrollo automatizado de IA introducido por TRAE, un asistente de programación de IA lanzado por ByteDance, para simplificar el proceso de desarrollo de software con tecnología de IA.TRAE SOLO entiende las necesidades del usuario, admite descripciones de texto, comandos de voz y cargas de archivos para introducir los requisitos, y planifica automáticamente...
hace 3 meses
030K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Introducción completa LiveTalking es un sistema humano digital interactivo en tiempo real de código abierto , se ha comprometido a la construcción de alta calidad humana digital solución en vivo . El proyecto utiliza el protocolo de código abierto Apache 2.0 , integrado con una serie de tecnologías de vanguardia , incluyendo ER-NeRF renderizado , audio en tiempo real y procesamiento de streaming de vídeo ...
hace 9 meses
039.5K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

meso- (química)Paper2Video - Proyecto de código abierto de la NUS para generar automáticamente vídeos de demostración de trabajos académicos

Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....
hace 2 horas
0207
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

meso- (química)NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....
hace 2 horas
0147
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

meso- (química)KAT-Dev-72B-Exp - Racer de código abierto de programación libre de modelos específicos

KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...
hace 7 horas
0967
吴恩达的《Agentic AI》最新智能体免费课程

Un curso gratuito sobre las últimas inteligencias de Agentic AI por Ernst Woo

Agentic AI es el último curso sobre cuerpos inteligentes lanzado por Ernest Ng.El curso se centra en el diseño y construcción de cuerpos inteligentes, abarcando los cuatro patrones de diseño de reflexión, uso de herramientas, planificación y colaboración de cuerpos multi-inteligentes. Los alumnos dominarán cómo hacer que los cuerpos inteligentes comprueben las salidas, se sintonicen de forma autónoma a través de explicaciones teóricas y prácticas de código...
hace 2 días
04.9K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - Proyecto de colaboración libre y de código abierto para crear redes de agentes de IA

OpenAgents es el proyecto de código abierto que crea una red de agentes de IA y facilita la colaboración abierta entre agentes. Se proporciona una infraestructura de red básica para que los agentes de IA puedan conectarse y colaborar sin problemas. Los usuarios pueden crear rápidamente su propia red de agentes, ampliar la funcionalidad mediante una arquitectura modular,...
hace 2 días
03.6K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Ling-1T es un modelo de lenguaje universal de un billón de parámetros de código abierto de Ant Group, que pertenece al producto estrella de la serie Ling 2.0 de grandes modelos de Bering. El modelo adopta una arquitectura MoE muy eficiente, admite 128.000 ventanas de contexto y supera al GPT en 7 pruebas comparativas, como la generación de código, el razonamiento matemático y las pruebas lógicas....
hace 4 días
011K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Modelo grande de base de ultrasonidos de código abierto de la Academia de Ciencias de Hong Kong

EchoCare es un gran modelo de base de ecografía desarrollado por el Centro de Inteligencia Artificial e Innovación Robótica (CAIR) del Instituto de Innovación e Investigación de Hong Kong, Academia China de Ciencias (CAS), entrenado en el mayor conjunto de datos de imágenes de ecografía del mundo (más de 4,5 millones de imágenes) que abarca múltiples centros, regiones, etnias y más de 50...
hace 4 días
05.6K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - framework de código abierto de la Universidad Jiao Tong de Shanghai para generar escenas 3D a partir de una sola imagen

SceneGen es un método de código abierto para generar escenas 3D a partir de una sola imagen de la Universidad Jiao Tong de Shanghai. A partir de una sola imagen de escena y una máscara de recursos de destino, se genera eficazmente una escena completa que contiene múltiples recursos 3D, incluida la estructura geométrica de los recursos, la textura y la ubicación espacial relativa.
hace 5 días
06.6K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Modelo de generación multimodal de audio unificado de código abierto Ant

Ming-UniAudio es el modelo de generación multimodal de audio unificado de código abierto de Ant Group que admite entrada y salida mixta de texto, audio, imagen y vídeo. Utilizando la arquitectura de transformadores multiescala y expertos mixtos (MoE) , a través del mecanismo de enrutamiento consciente de la modalidad para manejar eficientemente el cross-modal...
hace 6 días
08.7K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - ¡Herramienta gratuita de creación de manga AI para un proceso de creación completo!

AIMangaStudio es una herramienta gratuita de creación de manga AI que proporciona a los creadores una tubería completa de creación de manga, incluyendo la generación de la trama, el diseño de sub-escenas, la configuración de caracteres y otras funciones, que pueden simplificar el proceso de producción desde el guión hasta la página de manga. Soporta la generación en lenguaje natural de guiones de cómic, incluyendo trama, diálogos...
Hace 7 días
010.4K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Sistema de interacción por voz full-duplex de código abierto de Little Red Book

FireRedChat es un sistema de interacción de voz full-duplex de código abierto para Xiaohongshu con capacidad de diálogo bidireccional en tiempo real y soporte para interrupciones controladas. Utilizando un diseño modular , incluyendo módulo de control de transcripción , módulo de interacción y gestor de diálogo , etc., soporta arquitectura en cascada y semi-cascada , despliegue flexible.
hace 1 semana
011.6K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - Wisdom Source Research Institute modelo de encarnación generalizado de ontología cruzada de muestra cero de código abierto

RoboBrain-X0 es el primer modelo encarnado de código abierto del mundo que admite la generalización entre ontologías de muestra cero, de código abierto por el Wisdom Source Research Institute, que tiene una gran importancia para la industria. Puede controlar varios robots reales de distintas configuraciones para realizar tareas básicas sin necesidad de ajuste fino y, tras un pequeño ajuste fino de la muestra, demuestra la capacidad de reproducir ...
hace 2 semanas
09.8K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Modelo gratuito de generación de imágenes multimodales de código abierto de Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) es un modelo nativo de generación de imágenes multimodales publicado y de código abierto por Tencent. El tamaño de los parámetros del modelo de 80B, es actualmente los mejores resultados de evaluación, el mayor número de parámetros del modelo de generación de imágenes de código abierto. Hybrid Image 3.0 soporta la generación de imágenes en tiempo real, los usuarios pueden...
hace 2 semanas
015.9K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Modelo de diálogo de audio dúplex completo (FLM-Audio) de código abierto creado por WisdomSource en colaboración con el Instituto Tecnológico de Nanyang (NTI).

FLM-Audio es un macromodelo de diálogo de audio full-duplex nativo publicado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con Spin Matrix y la Universidad Tecnológica Nanyang de Singapur, que admite tanto el chino como el inglés. Al adoptar una arquitectura full-duplex nativa, puede combinar la escucha, el habla y el monólogo en cada paso temporal...
hace 2 semanas
012K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Modelo Meta FAIR de lenguaje mundial de código abierto

CWM (Code World Model) es un modelo de lenguaje mundial de código abierto con 32.000 millones de parámetros publicado por el equipo Meta FAIR, diseñado para la generación y el razonamiento de código. Introduce el concepto de "modelo del mundo", que puede simular el proceso de ejecución del código, predecir los cambios de estado de las variables y avanzar...
hace 3 semanas
012.2K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - El asistente de programación inteligente de Ant Open Source

Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....
hace 3 semanas
012.7K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face: el modelo de generación de animaciones faciales 3D de NVIDIA de código abierto

Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.
hace 3 semanas
011K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - Macromodelos de lenguaje visual multimodal de código abierto AliCloud Tongyi Qianqian

Qwen3-VL es un gran modelo de lenguaje visual multimodal de código abierto del equipo AliCloud Tongyi Qianqian, con 235.000 millones de referencias y unos 471 GB de archivos de modelo.Contiene versiones de instrucción y pensamiento, adopta el diseño intercalado MRope mejorado, DeepStack y otras tecnologías, que pueden utilizar eficazmente transformaciones visuales....
hace 3 semanas
013.9K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - Modelo de seguridad de código abierto Ali Qwen

Qwen3Guard es un modelo de protección de seguridad afinado basado en el modelo base Qwen3, diseñado para la detección de seguridad. Proporciona una categorización de seguridad precisa de las solicitudes y respuestas, proporciona niveles de riesgo y es compatible con entornos en inglés, chino y multilingües.Qwen3Guard está disponible en dos pro...
hace 3 semanas
014.4K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - Modelos de síntesis de voz de Ali Tongyi

Qwen3-TTS-Flash es un avanzado modelo de síntesis de voz introducido por Ali Tongyi, compatible con 17 tonos y 10 idiomas, que abarca mandarín, inglés, dialectos, etc. Tiene una excelente estabilidad y una gran expresividad del habla china e inglesa, y el modelo puede ajustar automáticamente el tono de voz para hacerlo más vivo.
hace 3 semanas
014.4K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - Herramienta de edición de vídeo con inteligencia artificial de código abierto, edición de descripciones en lenguaje natural

Lucy Edit es una herramienta de edición de vídeo de IA de código abierto desarrollada por Decart AI. Permite a los usuarios editar vídeo mediante sencillas descripciones en lenguaje natural, como "cambiar el personaje en un oso polar" o "convertir la escena en un estilo de dibujos animados 2D", sin necesidad de complejos ajustes finos ni del uso de máscaras...
hace 3 semanas
011.1K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - Modelo de base de gráficos K financieros de código abierto conjunto de Tsinghua y Microsoft

Kronos es el primer modelo básico de gráfico K-line para el mercado financiero, desarrollado conjuntamente por la Universidad Tsinghua y Microsoft Research Asia. Mediante el análisis de los datos K-line de acciones, criptomonedas y otros activos, incluidos el precio de apertura, el precio máximo, el precio mínimo, el precio de cierre y el volumen, puede predecir futuros movimientos de precios.
hace 3 semanas
011.8K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - Un modelo generativo para la generación de acciones del código abierto Tongyi Wanxiang

Wan2.2-Animate es un modelo de generación de acción de código abierto de Tongyi Wanxiang, que admite dos modos de imitación de acción y juego de rol. Los usuarios sólo tienen que introducir una imagen del personaje y un vídeo de referencia, el modelo puede migrar los movimientos y expresiones del personaje del vídeo al personaje de la imagen, dando al personaje de la imagen una expresión dinámica ...
hace 3 semanas
013.5K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio: el primer modelo nativo de voz de extremo a extremo de código abierto de Xiaomi

Xiaomi-MiMo-Audio es el macromodelo de voz de Xiaomi de código abierto con 7.000 millones de parámetros de extremo a extremo y potentes funciones como el diálogo multilingüe, la continuación del habla, la generalización de menos muestras y la comprensión de audio, capaz de alcanzar el nivel SOTA en inteligencia del habla y comprensión de audio, superando a Google Gemi...
hace 3 semanas
011.7K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Laboratorio de IA de Shanghai Integración de código abierto de capacidades operativas para grandes modelos incorporados

InternVLA-A1 es un gran modelo de operación encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Tiene la capacidad de comprender, imaginar y ejecutar la integración, y puede completar la tarea con precisión. El modelo fusiona datos de operación reales y simulados, y automatiza la construcción de activos de escena híbridos multimodales masivos a través de...
hace 4 semanas
011.5K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

VoxCPM es un modelo de generación de voz de código abierto desarrollado conjuntamente por Facade Intelligence y la Shenzhen International Graduate School de la Universidad de Tsinghua. VoxCPM adopta una arquitectura autorregresiva de difusión de extremo a extremo para generar representaciones continuas del habla directamente a partir del texto, superando las limitaciones de la desambiguación discreta tradicional. Mediante el modelado jerárquico del lenguaje y la cuantización de estados finitos...
hace 4 semanas
014.1K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Modelo grande de navegación de doble sistema de código abierto de Shanghai AI Lab

InternVLA-N1 es un macromodelo de navegación de doble sistema de extremo a extremo de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Utilizando una arquitectura de doble sistema, el Sistema 2 se encarga de comprender las órdenes lingüísticas y planificar las trayectorias de largo alcance, mientras que el Sistema 1 se centra en la respuesta de alta frecuencia y la evitación ágil de obstáculos. El modelo se entrena íntegramente a partir de datos sintéticos mediante ...
hace 4 semanas
09.9K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - Gran modelo de recompensas encarnadas de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

VLAC es un macromodelo de recompensa encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Basado en el macromodelo multimodal InternVL, integra datos de vídeo de Internet y datos de funcionamiento del robot para proporcionar una estimación de la recompensa del proceso y la finalización de la tarea para el aprendizaje por refuerzo del robot en el mundo real.
hace 4 semanas
09.6K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - "Cerebro" de funcionamiento del sistema dual encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

InternVLA-M1 es un "cerebro" operativo encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, que es un gran modelo de funcionamiento de dos sistemas orientado al seguimiento de instrucciones. Construye un bucle cerrado completo que abarca "pensar-actuar-aprender" y es responsable del razonamiento espacial de alto nivel y de la planificación de tareas. El modelo adopta una política de entrenamiento en dos etapas...
hace 4 semanas
011K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

PDF gratuito de Fundamentos de grandes modelos de la Universidad de Zhejiang - con enlace de descarga

Fundamentos de los grandes modelos ofrece un análisis en profundidad de las tecnologías básicas y las vías prácticas de los grandes modelos lingüísticos (LLM). Partiendo de la teoría fundamental de la modelización lingüística, explica sistemáticamente los principios del diseño de modelos basados en arquitecturas estadísticas, de redes neuronales recurrentes (RNN) y Transformer, centrándose en los tres grandes modelos lingüísticos....
hace 4 semanas
010.1K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO: el primer modelo de voz de código abierto de Logic Intelligence

LLaSO es un modelo del habla de código abierto lanzado por Beijing Depth Logic Intelligence Technology Co. Ltd, que resuelve los problemas de dispersión de datos e insuficiente cobertura de tareas en el campo del modelado del lenguaje del habla a gran escala integrando datos del habla y del texto y proporcionando conjuntos de datos de alineación, conjuntos de datos de ajuste de comandos y puntos de referencia de evaluación.
hace 4 semanas
08.7K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模

Hybrid 3D 3.0: modelos generados en 3D de Tencent compatibles con UHD

Hybrid 3D 3.0 es un modelo avanzado de generación 3D de Tencent, basado en la tecnología de esculpido jerárquico 3D-DiT, con una resolución geométrica de hasta 1536³, capaz de generar modelos 3D de ultra alta definición y ricos en detalles, y de destacar en el modelado de personajes, con capacidad para modelar con precisión los cinco sentidos y la forma del cuerpo.
hace 4 semanas
011.5K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

UnifoLM-WMA-0 es una arquitectura de acción-modelo del mundo de código abierto para múltiples clases de ontologías robóticas de Yu Shu Technology, diseñada para el aprendizaje general de robots. Compuesto por un modelo de mundo y una arquitectura de acción, el modelo de mundo entiende las leyes físicas de la interacción robot-entorno, y la arquitectura de acción es responsable de...
hace 4 semanas
011.7K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

InfiniteTalk es una herramienta de generación de vídeo basada en audio desarrollada por el equipo de MeiGen-AI que genera vídeos hablados de duración ilimitada a partir del audio introducido. Su principal ventaja es la precisa tecnología de sincronización labial, que hace coincidir perfectamente el audio con la forma de la boca del personaje, generando...
hace 4 semanas
015.4K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - Un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y Huawei Rise

Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...
hace 4 semanas
010.4K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Herramienta de código abierto para tomar notas de conferencias con inteligencia artificial en primer lugar local

Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.
hace 4 semanas
08.8K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Meta serie de modelos de inferencia eficientes especializados de código abierto

MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...
hace 4 semanas
09.4K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - framework de código abierto para la creación de cuerpos inteligentes móviles de la Universidad Jiaotong de Shanghai

MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...
hace 4 semanas
010K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modelo de IA de código abierto de Baidu para el reconocimiento de texto de nueva generación

PP-OCRv5 es el modelo de IA de reconocimiento de texto de última generación lanzado por Baidu. Con un diseño ligero y un recuento de referencias de solo 0,07 B, es apto para ejecutarse de forma eficiente en CPU y dispositivos edge, y puede procesar más de 370 caracteres por segundo. El modelo admite chino simplificado, chino tradicional, inglés, japonés y pinyin...
hace 4 semanas
014.2K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs

Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
hace 4 semanas
010.3K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - Modelo TTS gratuito de código abierto para la estación B, el primero que admite un control preciso de la duración

IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...
hace 4 semanas
024.4K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - ¡El último modelo de generación de música por IA de MiniMax!

MiniMax Music 1.5 es una herramienta avanzada de generación de música por IA que permite generar hasta 4 minutos de música a partir de la descripción en lenguaje natural del usuario. El modelo es compatible con una amplia gama de estilos musicales y personalización del estado de ánimo, y genera tonos vocales naturales y completos, transiciones suaves y arreglos ricamente estratificados....
hace 1 mes
013.3K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - Marco de generación de vídeo multimodal de código abierto United Bytes de la Universidad de Tsinghua

HuMo es un marco de generación de vídeo multimodal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y ByteDance Intelligent Creation Lab, que se centra en la generación de vídeo centrada en el ser humano. Puede generar vídeos humanos de alta calidad, precisos y controlables a partir de entradas multimodales como texto, imágenes y audio.
hace 1 mes
016.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto

AnyI2V es un marco de generación de animaciones de imágenes lanzado conjuntamente por la Universidad de Fudan, Alibaba Darmo Academy y otras entidades, que permite convertir imágenes condicionales estáticas (por ejemplo, cuadrículas, nubes de puntos, etc.) en vídeos dinámicos sin necesidad de un complejo proceso de formación y una gran cantidad de datos.
hace 1 mes
011.3K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - El modelo de pensamiento profundo de Baidu para comprender mejor

Wenxin Big Model X1.1 es un modelo de pensamiento profundo lanzado por Baidu, basado en un marco híbrido de aprendizaje por refuerzo que se centra en mejorar la comprensión y la generación de lenguaje. El modelo destaca en el manejo de preguntas complejas, el seguimiento de instrucciones y la simulación del comportamiento de las inteligencias, y puede proporcionar con precisión respuestas bien fundamentadas y contenidos de texto de alta calidad.
hace 1 mes
013.2K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Herramienta gratuita de rebanado semántico de documentos AI, ajuste dinámico de rebanado

AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
hace 1 mes
013.2K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Marco de código abierto de Tencent WeChat para la comprensión de documentos y la recuperación semántica

WeKnora es Tencent WeChat equipo de código abierto basado en el Modelo de Lenguaje Grande (LLM) comprensión de documentos y el marco de recuperación semántica , diseñado para la estructura de los escenarios de contenido de documentos complejos y heterogéneos y diseñado para utilizar una arquitectura modular , la integración de preprocesamiento multimodal , la indexación vectorial semántica , la recuperación inteligente y gran modelo de razonamiento generativo ...
hace 1 mes
017.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab

XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
hace 1 mes
013.5K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modelo multimodal de código abierto para Meituan y la Universidad Jiaotong de Shanghai

OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
hace 1 mes
013.4K