LangChain for LLM Application Development es un curso en línea de DeepLearning.AI en el que participan el fundador de LangChain, Harrison Chase, y Andrew Ng.
Los LLM transformadores funcionan según el principio que DeepLearning.AI y Jay Alammar y Maarten Grootend, autores de Hands-On Large Language Models...
Kimi K2-0905 es un modelo avanzado de IA de Dark Side of the Moon Technologies Ltd. que destaca en la asistencia a la programación, genera código de forma eficiente y favorece la generación de código ordenado y estandarizado en el desarrollo front-end. La longitud del contexto del modelo se amplía hasta 256K para gestionar tareas complejas.
Nano Banana es el nombre en clave de Gemini 2.5 Flash Image para Gemini, un modelo de generación y edición de imágenes AI de Google que genera imágenes detalladas y fotorrealistas basadas en simples indicaciones de texto para realizar modificaciones de alta calidad en imágenes existentes.
Skywork UniPic 2.0 es un eficiente modelo multimodal de código abierto de Quintessence, centrado en la generación, edición y comprensión de imágenes. El modelo se basa en una arquitectura SD3.5-Medium de 2B parámetros, y se realiza mediante pre-entrenamiento, estrategia de refuerzo progresivo de doble tarea y co-entrenamiento....
MiniMax Speech 2.5 es un modelo avanzado de generación del habla desarrollado por el equipo MiniMax. Supone un avance significativo en el campo de la síntesis del habla, especialmente en términos de expresividad multilingüe, precisión en la reproducción del timbre y cobertura lingüística. El modelo admite 40 idiomas...
GPT-5 es el último modelo de lenguaje lanzado por OpenAI con varias actualizaciones. Es un sistema de inteligencia unificada con un enrutador en tiempo real integrado que cambia automáticamente entre los modos de pensamiento eficiente y profundo en función de la complejidad del problema, lo que permite una respuesta rápida y respuestas precisas.GPT-5 tiene varias versiones, incluyendo para pu...
Qwen-Image es un modelo base de generación de imágenes de código abierto lanzado por el equipo Alibaba Tongyi Qianqian. Con 20.000 millones de parámetros, adopta la arquitectura de transformador de difusión multimodal (MMDiT), que incorpora tres módulos: comprensión multimodal, codificación de alta resolución y modelado de difusión.Qwen-Image...
RedOne es un gran modelo lingüístico adaptado a las redes sociales presentado por Little Red Book. El modelo se entrena mediante una estrategia de formación en tres fases que incorpora conocimientos sociales y culturales, refuerza las capacidades multitarea y alinea las preferencias humanas.RedOne supera significativamente al modelo base en rendimiento de tareas sociales, en detección de contenidos nocivos y navegación...
TRAE SOLO es un asistente de desarrollo automatizado de IA introducido por TRAE, un asistente de programación de IA lanzado por ByteDance, para simplificar el proceso de desarrollo de software con tecnología de IA.TRAE SOLO entiende las necesidades del usuario, admite descripciones de texto, comandos de voz y cargas de archivos para introducir los requisitos, y planifica automáticamente...
Introducción completa LiveTalking es un sistema humano digital interactivo en tiempo real de código abierto , se ha comprometido a la construcción de alta calidad humana digital solución en vivo . El proyecto utiliza el protocolo de código abierto Apache 2.0 , integrado con una serie de tecnologías de vanguardia , incluyendo ER-NeRF renderizado , audio en tiempo real y procesamiento de streaming de vídeo ...
Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....
NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....
KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...
Jamba Reasoning 3B es un modelo de inferencia ligero de código abierto de la startup israelí AI21 Labs, con un gran rendimiento y potencial para una amplia gama de aplicaciones. Utiliza una arquitectura híbrida SSM-Transformer que combina...
Agentic AI es el último curso sobre cuerpos inteligentes lanzado por Ernest Ng.El curso se centra en el diseño y construcción de cuerpos inteligentes, abarcando los cuatro patrones de diseño de reflexión, uso de herramientas, planificación y colaboración de cuerpos multi-inteligentes. Los alumnos dominarán cómo hacer que los cuerpos inteligentes comprueben las salidas, se sintonicen de forma autónoma a través de explicaciones teóricas y prácticas de código...
OpenAgents es el proyecto de código abierto que crea una red de agentes de IA y facilita la colaboración abierta entre agentes. Se proporciona una infraestructura de red básica para que los agentes de IA puedan conectarse y colaborar sin problemas. Los usuarios pueden crear rápidamente su propia red de agentes, ampliar la funcionalidad mediante una arquitectura modular,...
Androidify es el proyecto de código abierto de Google para ayudar a los desarrolladores a aprender a crear aplicaciones basadas en IA en Android. El proyecto utiliza las últimas tecnologías de Google, como Jetpack Compose, Gemini API (a través de Fire...
Ling-1T es un modelo de lenguaje universal de un billón de parámetros de código abierto de Ant Group, que pertenece al producto estrella de la serie Ling 2.0 de grandes modelos de Bering. El modelo adopta una arquitectura MoE muy eficiente, admite 128.000 ventanas de contexto y supera al GPT en 7 pruebas comparativas, como la generación de código, el razonamiento matemático y las pruebas lógicas....
EchoCare es un gran modelo de base de ecografía desarrollado por el Centro de Inteligencia Artificial e Innovación Robótica (CAIR) del Instituto de Innovación e Investigación de Hong Kong, Academia China de Ciencias (CAS), entrenado en el mayor conjunto de datos de imágenes de ecografía del mundo (más de 4,5 millones de imágenes) que abarca múltiples centros, regiones, etnias y más de 50...
Code2Video es un innovador proyecto de código abierto que convierte automáticamente fragmentos de código en contenido de vídeo de alta calidad (formato mp4). El proyecto a través de un paradigma único centrado en el código , utilizando herramientas de carbono-ahora-cli para generar código en bellas imágenes , el uso de ffmpeg será estos...
SceneGen es un método de código abierto para generar escenas 3D a partir de una sola imagen de la Universidad Jiao Tong de Shanghai. A partir de una sola imagen de escena y una máscara de recursos de destino, se genera eficazmente una escena completa que contiene múltiples recursos 3D, incluida la estructura geométrica de los recursos, la textura y la ubicación espacial relativa.
Ming-UniAudio es el modelo de generación multimodal de audio unificado de código abierto de Ant Group que admite entrada y salida mixta de texto, audio, imagen y vídeo. Utilizando la arquitectura de transformadores multiescala y expertos mixtos (MoE) , a través del mecanismo de enrutamiento consciente de la modalidad para manejar eficientemente el cross-modal...
AIMangaStudio es una herramienta gratuita de creación de manga AI que proporciona a los creadores una tubería completa de creación de manga, incluyendo la generación de la trama, el diseño de sub-escenas, la configuración de caracteres y otras funciones, que pueden simplificar el proceso de producción desde el guión hasta la página de manga. Soporta la generación en lenguaje natural de guiones de cómic, incluyendo trama, diálogos...
FireRedChat es un sistema de interacción de voz full-duplex de código abierto para Xiaohongshu con capacidad de diálogo bidireccional en tiempo real y soporte para interrupciones controladas. Utilizando un diseño modular , incluyendo módulo de control de transcripción , módulo de interacción y gestor de diálogo , etc., soporta arquitectura en cascada y semi-cascada , despliegue flexible.
Logics-Parsing es un modelo de análisis sintáctico de documentos de extremo a extremo de código abierto, basado en Qwen2.5-VL-7B. Optimiza el análisis del diseño de los documentos y la inferencia del orden de lectura mediante el aprendizaje por refuerzo ...
Ring-1T-preview es un macromodelo de trillones de parámetros de código abierto de Ant Group, basado en la arquitectura Ling 2.0 MoE, preentrenado en el corpus 20T y entrenado en capacidad de razonamiento por ASystem, un sistema de aprendizaje por refuerzo de desarrollo propio. En el razonamiento en lenguaje natural ...
RoboBrain-X0 es el primer modelo encarnado de código abierto del mundo que admite la generalización entre ontologías de muestra cero, de código abierto por el Wisdom Source Research Institute, que tiene una gran importancia para la industria. Puede controlar varios robots reales de distintas configuraciones para realizar tareas básicas sin necesidad de ajuste fino y, tras un pequeño ajuste fino de la muestra, demuestra la capacidad de reproducir ...
Lynx es un modelo de generación de vídeo personalizado de alta fidelidad de código abierto de ByteDance que puede generar vídeos coherentes con la identidad con una sola foto de retrato. Basado en el modelo de difusión Transformer (DiT), la introducción de ID-adaptador y Ref-adaptador...
Claude Sonnet 4.5 es un modelo de inteligencia artificial de Anthropic diseñado para programación, operaciones informáticas y automatización de tareas complejas. El modelo destaca en la generación de código, el procesamiento de tareas largas, el razonamiento y el cálculo matemático, soportando desde la planificación inicial...
DeepSeek-V3.2-Exp es un modelo experimental de IA de código abierto de DeepSeek que mejora significativamente la eficiencia del procesamiento de textos largos mediante la introducción del mecanismo DeepSeek Sparse Attention (DSA). El modelo se basa en DeepSeek...
HunyuanImage 3.0 (Hunyuan Image 3.0) es un modelo nativo de generación de imágenes multimodales publicado y de código abierto por Tencent. El tamaño de los parámetros del modelo de 80B, es actualmente los mejores resultados de evaluación, el mayor número de parámetros del modelo de generación de imágenes de código abierto. Hybrid Image 3.0 soporta la generación de imágenes en tiempo real, los usuarios pueden...
Hunyuan3D-Part (Hybrid 3D-Part) es un modelo de generación 3D lanzado y de código abierto por Tencent. Compuesto por P3 - SAM y X - Part, es la primera vez que se consigue una generación 3D basada en componentes de alta precisión y controlable, soportando 50 + componentes generados automáticamente. Los usuarios pueden...
AudioFly es un modelo de IA de código abierto para generar efectos de sonido a partir de texto de KDDI. Basado en la arquitectura del modelo de difusión potencial, con mil millones de parámetros, entrenado en conjuntos de datos de texto de audio diversos y a gran escala, que abarcan conjuntos de datos públicos como AudioSet, AudioCaps, TUT e internos....
Hunyuan3D-Omni (Hybrid 3D-Omni) es un marco de generación de activos 3D de código abierto del equipo Hybrid 3D de Tencent, que permite generar modelos 3D precisos mediante múltiples señales de control. Basado en la arquitectura Hunyuan3D 2.1, introduce un codificador de control unificado que puede...
FLM-Audio es un macromodelo de diálogo de audio full-duplex nativo publicado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con Spin Matrix y la Universidad Tecnológica Nanyang de Singapur, que admite tanto el chino como el inglés. Al adoptar una arquitectura full-duplex nativa, puede combinar la escucha, el habla y el monólogo en cada paso temporal...
CWM (Code World Model) es un modelo de lenguaje mundial de código abierto con 32.000 millones de parámetros publicado por el equipo Meta FAIR, diseñado para la generación y el razonamiento de código. Introduce el concepto de "modelo del mundo", que puede simular el proceso de ejecución del código, predecir los cambios de estado de las variables y avanzar...
Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....
Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.
Qwen3-VL es un gran modelo de lenguaje visual multimodal de código abierto del equipo AliCloud Tongyi Qianqian, con 235.000 millones de referencias y unos 471 GB de archivos de modelo.Contiene versiones de instrucción y pensamiento, adopta el diseño intercalado MRope mejorado, DeepStack y otras tecnologías, que pueden utilizar eficazmente transformaciones visuales....
Qwen3Guard es un modelo de protección de seguridad afinado basado en el modelo base Qwen3, diseñado para la detección de seguridad. Proporciona una categorización de seguridad precisa de las solicitudes y respuestas, proporciona niveles de riesgo y es compatible con entornos en inglés, chino y multilingües.Qwen3Guard está disponible en dos pro...
Qwen3-TTS-Flash es un avanzado modelo de síntesis de voz introducido por Ali Tongyi, compatible con 17 tonos y 10 idiomas, que abarca mandarín, inglés, dialectos, etc. Tiene una excelente estabilidad y una gran expresividad del habla china e inglesa, y el modelo puede ajustar automáticamente el tono de voz para hacerlo más vivo.
Qwen3-Omni es un modelo de IA totalmente modal presentado por el equipo de Ali Tongyi que puede manejar múltiples tipos de datos, como texto, imágenes, audio y vídeo, y admite la interacción con texto en 119 idiomas con baja latencia y alta controlabilidad.
DeepSeek-V3.1-Terminus es una versión mejorada de DeepSeek-V3.1, un modelo lingüístico de inteligencia artificial del equipo DeepSeek. El modelo se ha optimizado en términos de coherencia lingüística, generación de código y capacidades de búsqueda para...
Granite-Docling-258M es un modelo de lenguaje visual ultracompacto de código abierto de IBM diseñado para la conversión eficaz de documentos. El modelo convierte documentos a un formato legible por máquina conservando intactos el diseño, las tablas, las fórmulas y otros elementos.
Lucy Edit es una herramienta de edición de vídeo de IA de código abierto desarrollada por Decart AI. Permite a los usuarios editar vídeo mediante sencillas descripciones en lenguaje natural, como "cambiar el personaje en un oso polar" o "convertir la escena en un estilo de dibujos animados 2D", sin necesidad de complejos ajustes finos ni del uso de máscaras...
LongCat-Flash-Thinking es un modelo de razonamiento eficiente lanzado por el equipo de LongCat en Mission LongCat, cada vez más potente y profesional a la vez que mantiene la velocidad extrema de LongCat-Flash-Chat. El modelo se basa en la lógica, las matemáticas, el código, la inteligencia...
Ling-V2 es una familia de modelos lingüísticos a gran escala basados en la arquitectura MoE introducida por el equipo Ant-Belling. La primera versión, Ling-mini-2.0, tiene 16.000 millones de parámetros totales, con sólo 1.400 millones de parámetros activados por token de entrada.
Kronos es el primer modelo básico de gráfico K-line para el mercado financiero, desarrollado conjuntamente por la Universidad Tsinghua y Microsoft Research Asia. Mediante el análisis de los datos K-line de acciones, criptomonedas y otros activos, incluidos el precio de apertura, el precio máximo, el precio mínimo, el precio de cierre y el volumen, puede predecir futuros movimientos de precios.
Wan2.2-Animate es un modelo de generación de acción de código abierto de Tongyi Wanxiang, que admite dos modos de imitación de acción y juego de rol. Los usuarios sólo tienen que introducir una imagen del personaje y un vídeo de referencia, el modelo puede migrar los movimientos y expresiones del personaje del vídeo al personaje de la imagen, dando al personaje de la imagen una expresión dinámica ...
Xiaomi-MiMo-Audio es el macromodelo de voz de Xiaomi de código abierto con 7.000 millones de parámetros de extremo a extremo y potentes funciones como el diálogo multilingüe, la continuación del habla, la generalización de menos muestras y la comprensión de audio, capaz de alcanzar el nivel SOTA en inteligencia del habla y comprensión de audio, superando a Google Gemi...
InternVLA-A1 es un gran modelo de operación encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Tiene la capacidad de comprender, imaginar y ejecutar la integración, y puede completar la tarea con precisión. El modelo fusiona datos de operación reales y simulados, y automatiza la construcción de activos de escena híbridos multimodales masivos a través de...
VoxCPM es un modelo de generación de voz de código abierto desarrollado conjuntamente por Facade Intelligence y la Shenzhen International Graduate School de la Universidad de Tsinghua. VoxCPM adopta una arquitectura autorregresiva de difusión de extremo a extremo para generar representaciones continuas del habla directamente a partir del texto, superando las limitaciones de la desambiguación discreta tradicional. Mediante el modelado jerárquico del lenguaje y la cuantización de estados finitos...
InternVLA-N1 es un macromodelo de navegación de doble sistema de extremo a extremo de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Utilizando una arquitectura de doble sistema, el Sistema 2 se encarga de comprender las órdenes lingüísticas y planificar las trayectorias de largo alcance, mientras que el Sistema 1 se centra en la respuesta de alta frecuencia y la evitación ágil de obstáculos. El modelo se entrena íntegramente a partir de datos sintéticos mediante ...
WebWeaver es un nuevo marco corporal de doble inteligencia introducido por el equipo de Alibaba Tongyi, que se utiliza principalmente en la investigación profunda abierta, y puede simular el proceso de investigación humana, que se divide en dos inteligencias: planificación y escritura.
MCP Registry es una plataforma centralizada de GitHub que ayuda a los desarrolladores a descubrir e instalar servidores MCP más fácilmente.Con MCP Registry, los desarrolladores pueden encontrar rápidamente las herramientas de AI que necesitan en un solo lugar, simplificando enormemente...
VLAC es un macromodelo de recompensa encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Basado en el macromodelo multimodal InternVL, integra datos de vídeo de Internet y datos de funcionamiento del robot para proporcionar una estimación de la recompensa del proceso y la finalización de la tarea para el aprendizaje por refuerzo del robot en el mundo real.
Tongyi DeepResearch (Tongyi Investigación Profunda) es un organismo inteligente de código abierto lanzado por Alibaba, diseñado para la recuperación profunda de información y el razonamiento de tareas complejas, con 30.000 millones de parámetros, compatible con múltiples modos de razonamiento, incluidos el modo ReAct y el modo de profundidad...
InternVLA-M1 es un "cerebro" operativo encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, que es un gran modelo de funcionamiento de dos sistemas orientado al seguimiento de instrucciones. Construye un bucle cerrado completo que abarca "pensar-actuar-aprender" y es responsable del razonamiento espacial de alto nivel y de la planificación de tareas. El modelo adopta una política de entrenamiento en dos etapas...
Staying ahead in the age of AI es una guía de liderazgo en IA de OpenAI que ayuda a los líderes empresariales a mantener una ventaja competitiva en la era de la IA. La guía señala el rápido crecimiento de la IA, con lanzamientos de modelos más rápidos, costes más bajos y una adopción empresarial más rápida....
Fundamentos de los grandes modelos ofrece un análisis en profundidad de las tecnologías básicas y las vías prácticas de los grandes modelos lingüísticos (LLM). Partiendo de la teoría fundamental de la modelización lingüística, explica sistemáticamente los principios del diseño de modelos basados en arquitecturas estadísticas, de redes neuronales recurrentes (RNN) y Transformer, centrándose en los tres grandes modelos lingüísticos....
PromptEnhancer es una herramienta de código abierto para mejorar la generación de modelos texto-imagen (Text-to-Image, T2I). A través del enfoque de cadena de razonamiento (Chain-of-Thought, CoT) ...
LLaSO es un modelo del habla de código abierto lanzado por Beijing Depth Logic Intelligence Technology Co. Ltd, que resuelve los problemas de dispersión de datos e insuficiente cobertura de tareas en el campo del modelado del lenguaje del habla a gran escala integrando datos del habla y del texto y proporcionando conjuntos de datos de alineación, conjuntos de datos de ajuste de comandos y puntos de referencia de evaluación.
Hybrid 3D 3.0 es un modelo avanzado de generación 3D de Tencent, basado en la tecnología de esculpido jerárquico 3D-DiT, con una resolución geométrica de hasta 1536³, capaz de generar modelos 3D de ultra alta definición y ricos en detalles, y de destacar en el modelado de personajes, con capacidad para modelar con precisión los cinco sentidos y la forma del cuerpo.
UnifoLM-WMA-0 es una arquitectura de acción-modelo del mundo de código abierto para múltiples clases de ontologías robóticas de Yu Shu Technology, diseñada para el aprendizaje general de robots. Compuesto por un modelo de mundo y una arquitectura de acción, el modelo de mundo entiende las leyes físicas de la interacción robot-entorno, y la arquitectura de acción es responsable de...
InfiniteTalk es una herramienta de generación de vídeo basada en audio desarrollada por el equipo de MeiGen-AI que genera vídeos hablados de duración ilimitada a partir del audio introducido. Su principal ventaja es la precisa tecnología de sincronización labial, que hace coincidir perfectamente el audio con la forma de la boca del personaje, generando...
Mini-o3 es un modelo de código abierto lanzado conjuntamente por ByteDance y la Universidad de Hong Kong, centrado en la resolución de problemas complejos de búsqueda visual. El modelo tiene una potente capacidad de razonamiento interactivo multirronda y puede localizar un objetivo mediante exploración profunda y ensayo-error.
GPT-5-Codex es un potente modelo de optimización de programación de OpenAI, mejorado por GPT-5 y diseñado para ingenieros de software. El modelo genera código de alta calidad con rapidez, es compatible con múltiples lenguajes de programación y optimiza el código existente para mejorar el rendimiento.
ROMA (Recursive-Open-Meta-Agent) es un marco de meta-agente de código abierto desarrollado por Sentient AGI para resolver eficientemente problemas complejos a través de la descomposición recursiva de tareas y el procesamiento paralelo. Soporta Python 3.12+, Docker y...
Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...
Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.
MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...
ERNIE-4.5-21B-A3B-Thinking es el modelo de lenguaje a gran escala de código abierto de Baidu centrado en tareas de razonamiento. Utilizando la arquitectura Mixed Expert (MoE) , el número total de referencias a 21 mil millones , cada token activa 3 mil millones de parámetros para soportar 128K ventana de contexto largo ...
MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...
ZipVoice es una serie de modelos de síntesis de voz (TTS) basados en la arquitectura Flow Matching lanzada por Xiaomi, entre los que se incluyen ZipVoice (modelo de síntesis de voz de cero muestras para un solo interlocutor) y ZipVoice-Dialog (modelo de síntesis de voz de cero muestras...
PP-OCRv5 es el modelo de IA de reconocimiento de texto de última generación lanzado por Baidu. Con un diseño ligero y un recuento de referencias de solo 0,07 B, es apto para ejecutarse de forma eficiente en CPU y dispositivos edge, y puede procesar más de 370 caracteres por segundo. El modelo admite chino simplificado, chino tradicional, inglés, japonés y pinyin...
Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
Stand-In es un marco de generación de vídeo ligero, plug-and-play y preservador de identidad del equipo WeChat Vision de Tencent. Centrado en preservar rasgos de identidad específicos en la generación de vídeo, solo necesita entrenar parámetros adicionales del modelo base 1%, y puede lograr excelentes resultados en similitud facial y naturalidad.
IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...
MiniMax Music 1.5 es una herramienta avanzada de generación de música por IA que permite generar hasta 4 minutos de música a partir de la descripción en lenguaje natural del usuario. El modelo es compatible con una amplia gama de estilos musicales y personalización del estado de ánimo, y genera tonos vocales naturales y completos, transiciones suaves y arreglos ricamente estratificados....
HuMo es un marco de generación de vídeo multimodal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y ByteDance Intelligent Creation Lab, que se centra en la generación de vídeo centrada en el ser humano. Puede generar vídeos humanos de alta calidad, precisos y controlables a partir de entradas multimodales como texto, imágenes y audio.
AnyI2V es un marco de generación de animaciones de imágenes lanzado conjuntamente por la Universidad de Fudan, Alibaba Darmo Academy y otras entidades, que permite convertir imágenes condicionales estáticas (por ejemplo, cuadrículas, nubes de puntos, etc.) en vídeos dinámicos sin necesidad de un complejo proceso de formación y una gran cantidad de datos.
SRPO (Semantic Relative Preference Optimization) es un modelo de generación de texto a imagen introducido por Tencent Mixed Meta, que optimiza el mecanismo de recompensa a través de señales condicionales textuales para lograr el ajuste en línea de las recompensas y reducir la dependencia del ajuste fuera de línea.
Qwen3-Next es un gran modelo de arquitectura híbrida de nueva generación, desarrollado por Ali Tongyi, que combina las tecnologías Gated DeltaNet y Gated Attention, lo que le permite tratar textos largos, realizar inferencias rápidas y ahorrar recursos informáticos.
Wenxin Big Model X1.1 es un modelo de pensamiento profundo lanzado por Baidu, basado en un marco híbrido de aprendizaje por refuerzo que se centra en mejorar la comprensión y la generación de lenguaje. El modelo destaca en el manejo de preguntas complejas, el seguimiento de instrucciones y la simulación del comportamiento de las inteligencias, y puede proporcionar con precisión respuestas bien fundamentadas y contenidos de texto de alta calidad.
HunyuanImage 2.1 es el modelo gráfico de código abierto de Tencent diseñado para la generación de imágenes de alta calidad. El modelo admite resolución 2K nativa, puede renderizar con precisión escenas y detalles complejos, de modo que la expresión y el movimiento de los personajes pueden reproducirse vívidamente.
AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
UnifiedTTS es una plataforma integral de servicios de texto a voz (TTS). Admite varios idiomas, como chino, inglés, japonés y coreano, para satisfacer las necesidades de las empresas de todo el mundo. A través de una interfaz API unificada, integra muchos de los principales servicios TTS, como Micro...
MiniCPM 4.1 es un modelo de lenguaje de gran tamaño ultraeficiente introducido por Facade Intelligence. Con la arquitectura de atención dispersa InfLLM v2, cada lexema sólo necesita calcular la correlación con menos de 5% lexemas, lo que reduce significativamente la sobrecarga de procesamiento de texto largo. En el escenario de texto largo de 128K...
WeKnora es Tencent WeChat equipo de código abierto basado en el Modelo de Lenguaje Grande (LLM) comprensión de documentos y el marco de recuperación semántica , diseñado para la estructura de los escenarios de contenido de documentos complejos y heterogéneos y diseñado para utilizar una arquitectura modular , la integración de preprocesamiento multimodal , la indexación vectorial semántica , la recuperación inteligente y gran modelo de razonamiento generativo ...
XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
Qwen3-ASR-Flash es el último modelo de reconocimiento de voz de alta precisión de Alibaba, basado en el modelo de base Qwen3, entrenado con datos multimodales masivos. Es compatible con 11 idiomas y múltiples acentos, incluidos mandarín, sichuan, minnan, wu, cantonés y otros dialectos...
Seedream 4.0 es una herramienta avanzada de generación y edición de imágenes lanzada por ByteDance, que se centra en la integración de la generación y la edición, con potentes funciones como la edición precisa de comandos, la alta retención de funciones y la comprensión profunda de intenciones.
rStar2-Agent es un modelo avanzado de razonamiento matemático de IA de código abierto de Microsoft que demuestra una gran capacidad para resolver problemas matemáticos al alcanzar una precisión de 80,61 TP3T en la prueba AIME24. El modelo está equipado con capacidades de razonamiento científico, logrando en la prueba GPQA-Diamond...
Qwen3-Max-Preview es el último gran modelo lingüístico insignia lanzado por Tongyi Qianwen. Es el modelo con el mayor número de parámetros de la familia Qwen3, con un tamaño de parámetros de más de 1 billón. El modelo presenta mejoras significativas en inferencia, seguimiento de instrucciones, soporte multilingüe y cobertura de conocimiento de cola larga...
OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
Claudable es un creador de aplicaciones web de código abierto basado en Next.js que combina las capacidades avanzadas de agente de IA de Claude Code y Cursor CLI con la experiencia de creación de aplicaciones sencilla e intuitiva de Lovable...
FineVision es el conjunto de datos de lenguaje visual de código abierto de Hugging Face para el entrenamiento de modelos avanzados de lenguaje visual. Contiene 17,3 millones de imágenes, 24,3 millones de muestras, 88,9 millones de rondas de diálogo y 9.500 millones de tokens de respuesta. El conjunto de datos...
InfinityHuman es un modelo comercial de generación de vídeos de personajes con series de audio de larga duración lanzado conjuntamente por ByteDance y la Universidad de Zhejiang. El modelo se basa en el audio y puede generar vídeos de personajes de alta resolución, larga duración y coherencia visual.