Lista de herramientas de IA destacadas | Página 4

Kandinsky 5.0 - Serie de modelos de generación de vídeo de código abierto del equipo ruso de IA

Kandinsky 5.0 es la última serie de modelos de generación de vídeo desarrollada por el equipo ruso de IA, centrada en un diseño ligero y un alto rendimiento. El primer modelo de la serie, Kandinsky 5.0 Video Lite, solo tiene 2.000 millones de parámetros, pero supera a modelos similares de 14B, especialmente...

Últimos recursos sobre IA

hace 6 meses

045.1K

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...

Últimos recursos sobre IA

hace 6 meses

036K

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...

Últimos recursos sobre IA

hace 6 meses

028.7K

Youtu-Embedding - Modelo de representación de texto genérico de código abierto de Tencent Youtu

Youtu-Embedding es un modelo de representación de texto universal de código abierto de Youtu Labs de Tencent, diseñado para aplicaciones de nivel empresarial. El texto se mapea en un espacio vectorial de alta dimensión mediante redes neuronales profundas, de modo que las frases semánticamente similares están más cerca unas de otras en ese espacio, logrando una recuperación semántica precisa.

Últimos recursos sobre IA

hace 6 meses

034K

SAIL-VL2 - Modelo de lenguaje visual multimodal de código abierto de ByteHop

SAIL-VL2 es un modelo de lenguaje visual multimodal de código abierto del equipo Byte Jump, centrado en el modelado conjunto de entradas multimodales como imágenes y texto. Utilizando la arquitectura de mezcla dispersa de expertos (MoE) y la estrategia de entrenamiento progresivo, logra un alto rendimiento en escalas de parámetros de 2B a 8B, especialmente en las áreas de comprensión gráfica, matemática...

Últimos recursos sobre IA

hace 6 meses

027.1K

Hiperparámetro (Hyperparameter) es qué, un artículo para ver y entender

En el aprendizaje automático, un hiperparámetro es una opción de configuración que se preestablece manualmente antes de que comience el entrenamiento del modelo, en lugar de aprenderse a partir de los datos. Su función principal es controlar el propio proceso de aprendizaje, como si se establecieran unas reglas de funcionamiento para el algoritmo. Por ejemplo, el aprendizaje...

AI Respuestas

hace 6 meses

031.4K

Árbol de decisión (Decision Tree) es qué, un artículo para ver y entender

El árbol de decisión (DT) es un modelo predictivo en forma de árbol que simula el proceso humano de toma de decisiones, clasificando o prediciendo datos mediante una serie de reglas. Cada nodo interno representa una prueba de características, las ramas corresponden a los resultados de las pruebas y los nodos hoja almacenan la decisión final. Este algoritmo utiliza una estrategia de divide y vencerás...

AI Respuestas

hace 6 meses

029.7K

Qué es el descenso gradual (Gradient Descent), un artículo para leer y entender

El descenso de gradiente es el algoritmo de optimización básico para resolver el mínimo de una función. El algoritmo determina la dirección de descenso calculando el gradiente de la función (el vector formado por las derivadas parciales de cada una) y actualizando iterativamente los parámetros según la regla θ = θ - η - ∇J(θ).

AI Respuestas

hace 6 meses

030.4K

MineContext - Socio de IA consciente del contexto activo y de código abierto de Bytes

MineContext es un socio activo de IA consciente del contexto, de código abierto por el equipo de ByteDance Viking, para ayudar a los usuarios a gestionar eficientemente cantidades masivas de información y mejorar la eficiencia del trabajo del conocimiento. Sobre la tecnología de captura de pantalla y comprensión de contenido, registra automáticamente las operaciones diarias del usuario (como navegar por la web, editar documentos, etc.), apoya...

Últimos recursos sobre IA

hace 6 meses

048K

nanochat - el proyecto de formación de modelos de bajo coste, gratuito y de código abierto de Karpathy

nanochat es un proyecto de código abierto lanzado por Andrej Karpathy, leyenda de la IA y antiguo Director de IA de Tesla, que permite a los particulares entrenar rápidamente un pequeño modelo de lenguaje similar a ChatGPT con un coste y una simplicidad muy bajos. Todo el proyecto utiliza sólo unos 800...

Últimos recursos sobre IA

hace 6 meses

033.6K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - Modelo multimodal gratuito y de código abierto para una comprensión multimodal de alto rendimiento

LLaVA-OneVision-1.5 es un modelo multimodal de código abierto del equipo EvolvingLMMS-Lab, que utiliza la escala de parámetros 8B, mediante un proceso de entrenamiento compacto en tres etapas (alineación lenguaje-imagen, equilibrio conceptual e inyección de conocimientos, y ajuste fino de instrucciones) en 128 A800....

Últimos recursos sobre IA

hace 6 meses

032K

Qué es la regresión logística (Logistic Regression), un artículo para leer y entender

La regresión logística es un método de aprendizaje estadístico utilizado para resolver problemas de clasificación binaria. El objetivo principal es predecir la probabilidad de que una muestra pertenezca a una categoría determinada en función de las características de entrada. El modelo asigna la salida lineal entre 0 y 1 combinando linealmente los valores propios mediante una función en forma de S....

AI Respuestas

hace 6 meses

028.1K

Paper2Video - Proyecto de código abierto de la NUS para generar automáticamente vídeos de demostración de trabajos académicos

Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....

Últimos recursos sobre IA

hace 6 meses

034.3K

NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....

Últimos recursos sobre IA

hace 6 meses

040.1K

KAT-Dev-72B-Exp - Racer de código abierto de programación libre de modelos específicos

KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...

Últimos recursos sobre IA

hace 6 meses

031.4K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - Modelo de razonamiento ligero de código abierto de Israel AI21 Labs

Jamba Reasoning 3B es un modelo de inferencia ligero de código abierto de la startup israelí AI21 Labs, con un gran rendimiento y potencial para una amplia gama de aplicaciones. Utiliza una arquitectura híbrida SSM-Transformer que combina...

Últimos recursos sobre IA

hace 6 meses

028.8K

Un curso gratuito sobre las últimas inteligencias de Agentic AI por Ernst Woo

Agentic AI es el último curso sobre cuerpos inteligentes lanzado por Ernest Ng.El curso se centra en el diseño y construcción de cuerpos inteligentes, abarcando los cuatro patrones de diseño de reflexión, uso de herramientas, planificación y colaboración de cuerpos multi-inteligentes. Los alumnos dominarán cómo hacer que los cuerpos inteligentes comprueben las salidas, se sintonicen de forma autónoma a través de explicaciones teóricas y prácticas de código...

Últimos recursos sobre IA Información sobre el curso

hace 6 meses

053.8K

OpenAgents - Proyecto de colaboración libre y de código abierto para crear redes de agentes de IA

OpenAgents es el proyecto de código abierto que crea una red de agentes de IA y facilita la colaboración abierta entre agentes. Se proporciona una infraestructura de red básica para que los agentes de IA puedan conectarse y colaborar sin problemas. Los usuarios pueden crear rápidamente su propia red de agentes, ampliar la funcionalidad mediante una arquitectura modular,...

Últimos recursos sobre IA

hace 6 meses

030.7K

Androidify - Google abre recursos gratuitos sobre cómo crear aplicaciones de IA en Android

Androidify es el proyecto de código abierto de Google para ayudar a los desarrolladores a aprender a crear aplicaciones basadas en IA en Android. El proyecto utiliza las últimas tecnologías de Google, como Jetpack Compose, Gemini API (a través de Fire...

Últimos recursos sobre IA

hace 6 meses

032K

Regularización (Regularization) es qué, un artículo para ver y entender

La regularización es una técnica fundamental en el aprendizaje automático y la estadística para evitar el ajuste excesivo de los modelos. La regularización controla el grado de ajuste añadiendo un término de penalización a la función objetivo que está relacionado con la complejidad del modelo. Las formas más comunes son la regularización L1 y L2: la L1 produce soluciones dispersas y aplica...

AI Respuestas

hace 6 meses

031.8K

生成对抗网络（Generative Adversarial Network）是什么，一文看懂

¿Qué es la Red Generativa Adversarial (GAN) en un artículo?

Generative Adversarial Network (GAN) es un modelo de aprendizaje profundo, propuesto por Ian Goodfellow et al. en 2014. El marco implementa un modelo generativo entrenando dos redes neuronales entre sí....

AI Respuestas

hace 6 meses

031.2K

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Ling-1T es un modelo de lenguaje universal de un billón de parámetros de código abierto de Ant Group, que pertenece al producto estrella de la serie Ling 2.0 de grandes modelos de Bering. El modelo adopta una arquitectura MoE muy eficiente, admite 128.000 ventanas de contexto y supera al GPT en 7 pruebas comparativas, como la generación de código, el razonamiento matemático y las pruebas lógicas....

Últimos recursos sobre IA

hace 6 meses

056.6K

EchoCare - Modelo grande de base de ultrasonidos de código abierto de la Academia de Ciencias de Hong Kong

EchoCare es un gran modelo de base de ecografía desarrollado por el Centro de Inteligencia Artificial e Innovación Robótica (CAIR) del Instituto de Innovación e Investigación de Hong Kong, Academia China de Ciencias (CAS), entrenado en el mayor conjunto de datos de imágenes de ecografía del mundo (más de 4,5 millones de imágenes) que abarca múltiples centros, regiones, etnias y más de 50...

Últimos recursos sobre IA

hace 6 meses

033.1K

Autoatención (Self-Attention) es qué, un artículo para leer y entender

La autoatención es un mecanismo clave en el aprendizaje profundo, originalmente propuesto y ampliamente utilizado en la arquitectura Transformer. La idea central es permitir que el modelo atienda simultáneamente a todas las posiciones de la secuencia de entrada y calcule cada posición...

AI Respuestas

hace 6 meses

041.2K

¿Qué es el aprendizaje multitarea (MTL) en un artículo?

El aprendizaje multitarea (MTL) no es un algoritmo aislado, sino un paradigma de aprendizaje automático inteligente.

AI Respuestas

hace 6 meses

033K

Code2Video - Marco de generación de vídeos didácticos de IA de código abierto de Show Lab

Code2Video es un innovador proyecto de código abierto que convierte automáticamente fragmentos de código en contenido de vídeo de alta calidad (formato mp4). El proyecto a través de un paradigma único centrado en el código , utilizando herramientas de carbono-ahora-cli para generar código en bellas imágenes , el uso de ffmpeg será estos...

Últimos recursos sobre IA

hace 6 meses

037.9K

SceneGen - framework de código abierto de la Universidad Jiao Tong de Shanghai para generar escenas 3D a partir de una sola imagen

SceneGen es un método de código abierto para generar escenas 3D a partir de una sola imagen de la Universidad Jiao Tong de Shanghai. A partir de una sola imagen de escena y una máscara de recursos de destino, se genera eficazmente una escena completa que contiene múltiples recursos 3D, incluida la estructura geométrica de los recursos, la textura y la ubicación espacial relativa.

Últimos recursos sobre IA

hace 6 meses

029.2K

Ming-UniAudio - Modelo de generación multimodal de audio unificado de código abierto Ant

Ming-UniAudio es el modelo de generación multimodal de audio unificado de código abierto de Ant Group que admite entrada y salida mixta de texto, audio, imagen y vídeo. Utilizando la arquitectura de transformadores multiescala y expertos mixtos (MoE) , a través del mecanismo de enrutamiento consciente de la modalidad para manejar eficientemente el cross-modal...

Últimos recursos sobre IA

hace 6 meses

035.7K

AIMangaStudio - ¡Herramienta gratuita de creación de manga AI para un proceso de creación completo!

AIMangaStudio es una herramienta gratuita de creación de manga AI que proporciona a los creadores una tubería completa de creación de manga, incluyendo la generación de la trama, el diseño de sub-escenas, la configuración de caracteres y otras funciones, que pueden simplificar el proceso de producción desde el guión hasta la página de manga. Soporta la generación en lenguaje natural de guiones de cómic, incluyendo trama, diálogos...

Últimos recursos sobre IA

hace 6 meses

042.5K

FireRedChat - Sistema de interacción por voz full-duplex de código abierto de Little Red Book

FireRedChat es un sistema de interacción de voz full-duplex de código abierto para Xiaohongshu con capacidad de diálogo bidireccional en tiempo real y soporte para interrupciones controladas. Utilizando un diseño modular , incluyendo módulo de control de transcripción , módulo de interacción y gestor de diálogo , etc., soporta arquitectura en cascada y semi-cascada , despliegue flexible.

Últimos recursos sobre IA

hace 6 meses

042.6K

Logics-Parsing - Modelo de análisis sintáctico de documentos de código abierto Ali

Logics-Parsing es un modelo de análisis sintáctico de documentos de extremo a extremo de código abierto, basado en Qwen2.5-VL-7B. Optimiza el análisis del diseño de los documentos y la inferencia del orden de lectura mediante el aprendizaje por refuerzo ...

Últimos recursos sobre IA

hace 6 meses

041.1K

Ring-1T-preview - Modelo de código abierto de un billón de parámetros del Grupo Ant

Ring-1T-preview es un macromodelo de trillones de parámetros de código abierto de Ant Group, basado en la arquitectura Ling 2.0 MoE, preentrenado en el corpus 20T y entrenado en capacidad de razonamiento por ASystem, un sistema de aprendizaje por refuerzo de desarrollo propio. En el razonamiento en lenguaje natural ...

Últimos recursos sobre IA

hace 6 meses

048.8K

RoboBrain-X0 - Wisdom Source Research Institute modelo de encarnación generalizado de ontología cruzada de muestra cero de código abierto

RoboBrain-X0 es el primer modelo encarnado de código abierto del mundo que admite la generalización entre ontologías de muestra cero, de código abierto por el Wisdom Source Research Institute, que tiene una gran importancia para la industria. Puede controlar varios robots reales de distintas configuraciones para realizar tareas básicas sin necesidad de ajuste fino y, tras un pequeño ajuste fino de la muestra, demuestra la capacidad de reproducir ...

Últimos recursos sobre IA

hace 6 meses

034.1K

Modelo de difusión (Diffusion Model) qué es, un artículo para leer y entender

El modelo de difusión es un modelo generativo diseñado específicamente para crear nuevas muestras de datos, como imágenes, audio o texto. El núcleo del modelo se inspira en el proceso de difusión en física, que simula la difusión natural de partículas desde una región de alta concentración a otra de baja concentración. En la máquina...

AI Respuestas

hace 6 meses

042.4K

¿Qué es el ajuste fino, en un artículo?

El ajuste fino de modelos (Fine-tuning) es una aplicación específica del aprendizaje por transferencia en el aprendizaje automático. El proceso central se basa en modelos de preentrenamiento, que utilizan conjuntos de datos a gran escala para aprender patrones genéricos y desarrollar amplias capacidades de extracción de características. A continuación, la fase de ajuste fino introduce conjuntos de datos de tareas específicas para ...

AI Respuestas

hace 6 meses

034.4K

Lynx - Modelo de generación de vídeo de alta fidelidad de código abierto de ByteHop

Lynx es un modelo de generación de vídeo personalizado de alta fidelidad de código abierto de ByteDance que puede generar vídeos coherentes con la identidad con una sola foto de retrato. Basado en el modelo de difusión Transformer (DiT), la introducción de ID-adaptador y Ref-adaptador...

Últimos recursos sobre IA

hace 6 meses

036.4K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - El modelo de programación de inteligencia artificial más potente de Anthropic

Claude Sonnet 4.5 es un modelo de inteligencia artificial de Anthropic diseñado para programación, operaciones informáticas y automatización de tareas complejas. El modelo destaca en la generación de código, el procesamiento de tareas largas, el razonamiento y el cálculo matemático, soportando desde la planificación inicial...

Últimos recursos sobre IA

hace 6 meses

041.2K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - El último modelo experimental de IA de código abierto de DeepSeek

DeepSeek-V3.2-Exp es un modelo experimental de IA de código abierto de DeepSeek que mejora significativamente la eficiencia del procesamiento de textos largos mediante la introducción del mecanismo DeepSeek Sparse Attention (DSA). El modelo se basa en DeepSeek...

Últimos recursos sobre IA

hace 6 meses

037.8K

HunyuanImage 3.0 - Modelo gratuito de generación de imágenes multimodales de código abierto de Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) es un modelo nativo de generación de imágenes multimodales publicado y de código abierto por Tencent. El tamaño de los parámetros del modelo de 80B, es actualmente los mejores resultados de evaluación, el mayor número de parámetros del modelo de generación de imágenes de código abierto. Hybrid Image 3.0 soporta la generación de imágenes en tiempo real, los usuarios pueden...

Últimos recursos sobre IA

hace 6 meses

047.4K

Hunyuan3D-Part - Modelo gratuito de generación de componentes 3D de código abierto de Tencent

Hunyuan3D-Part (Hybrid 3D-Part) es un modelo de generación 3D lanzado y de código abierto por Tencent. Compuesto por P3 - SAM y X - Part, es la primera vez que se consigue una generación 3D basada en componentes de alta precisión y controlable, soportando 50 + componentes generados automáticamente. Los usuarios pueden...

Últimos recursos sobre IA

hace 6 meses

047.5K

AudioFly - Modelo de IA de sonido para generación de texto de código abierto KU Xunfei

AudioFly es un modelo de IA de código abierto para generar efectos de sonido a partir de texto de KDDI. Basado en la arquitectura del modelo de difusión potencial, con mil millones de parámetros, entrenado en conjuntos de datos de texto de audio diversos y a gran escala, que abarcan conjuntos de datos públicos como AudioSet, AudioCaps, TUT e internos....

Últimos recursos sobre IA

hace 6 meses

041.6K

Hunyuan3D-Omni - Marco de generación de modelos 3D de código abierto mixto de Tencent

Hunyuan3D-Omni (Hybrid 3D-Omni) es un marco de generación de activos 3D de código abierto del equipo Hybrid 3D de Tencent, que permite generar modelos 3D precisos mediante múltiples señales de control. Basado en la arquitectura Hunyuan3D 2.1, introduce un codificador de control unificado que puede...

Últimos recursos sobre IA

hace 6 meses

045.3K

FLM-Audio - Modelo de diálogo de audio dúplex completo (FLM-Audio) de código abierto creado por WisdomSource en colaboración con el Instituto Tecnológico de Nanyang (NTI).

FLM-Audio es un macromodelo de diálogo de audio full-duplex nativo publicado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con Spin Matrix y la Universidad Tecnológica Nanyang de Singapur, que admite tanto el chino como el inglés. Al adoptar una arquitectura full-duplex nativa, puede combinar la escucha, el habla y el monólogo en cada paso temporal...

Últimos recursos sobre IA

hace 6 meses

038.7K

Mecanismo de atención (Attention Mechanism) es qué, un artículo para leer y entender

El mecanismo de atención (Attention Mechanism) es una técnica computacional que imita los procesos cognitivos humanos, aplicada inicialmente en el campo de la traducción automática y convertida posteriormente en una parte importante del aprendizaje profundo.

AI Respuestas

hace 6 meses

040.6K

Transformer 架构（Transformer Architecture）是什么，一文看懂

¿Qué es la arquitectura de los transformadores en un artículo?

La arquitectura Transformer es un modelo de aprendizaje profundo diseñado para procesar tareas secuencia a secuencia, como la traducción automática o el resumen de textos. La principal innovación radica en basarse exclusivamente en el mecanismo de autoatención, evitando los bucles tradicionales o las estructuras convolucionales. Al permitir que el modelo procese todos los elementos de una secuencia en...

AI Respuestas

hace 6 meses

038.8K

Modelo Pre-entrenado (Pre-trained Model) qué es, un artículo para leer y entender

El modelo preentrenado (PTM) es una técnica fundamental y poderosa en inteligencia artificial, que representa modelos de aprendizaje automático preentrenados en conjuntos de datos a gran escala. Los modelos forman una amplia base de conocimientos procesando cantidades masivas de información y aprendiendo patrones y características genéricas de los datos....

AI Respuestas

hace 6 meses

038.2K

¿Qué es el Modelo de Lenguaje Amplio (LLM) en un artículo?

Large Language Model (LLM) es un sistema de aprendizaje profundo entrenado en datos de texto masivos, con la arquitectura Transformer en su núcleo. El mecanismo de autoatención de esta arquitectura puede capturar eficazmente las dependencias a larga distancia en el lenguaje. El modelo de "gran ...

AI Respuestas

hace 6 meses

037.8K

Qué es la red de memoria a largo plazo (LSTM), un artículo para leer y entender

La memoria a largo plazo (LSTM) es una variante de red neuronal recurrente diseñada específicamente para procesar datos secuenciales. En el campo de la inteligencia artificial, los datos secuenciales se utilizan ampliamente en tareas como la predicción de series temporales, el procesamiento del lenguaje natural y el reconocimiento del habla.

AI Respuestas

hace 6 meses

032.6K

CWM - Modelo Meta FAIR de lenguaje mundial de código abierto

CWM (Code World Model) es un modelo de lenguaje mundial de código abierto con 32.000 millones de parámetros publicado por el equipo Meta FAIR, diseñado para la generación y el razonamiento de código. Introduce el concepto de "modelo del mundo", que puede simular el proceso de ejecución del código, predecir los cambios de estado de las variables y avanzar...

Últimos recursos sobre IA

hace 6 meses

034.9K

Neovate Code - El asistente de programación inteligente de Ant Open Source

Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....

Últimos recursos sobre IA

hace 6 meses

038.7K

Audio2Face: el modelo de generación de animaciones faciales 3D de NVIDIA de código abierto

Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.

Últimos recursos sobre IA

hace 6 meses

040.3K

Qwen3-VL - Macromodelos de lenguaje visual multimodal de código abierto AliCloud Tongyi Qianqian

Qwen3-VL es un gran modelo de lenguaje visual multimodal de código abierto del equipo AliCloud Tongyi Qianqian, con 235.000 millones de referencias y unos 471 GB de archivos de modelo.Contiene versiones de instrucción y pensamiento, adopta el diseño intercalado MRope mejorado, DeepStack y otras tecnologías, que pueden utilizar eficazmente transformaciones visuales....

Últimos recursos sobre IA

hace 6 meses

052.7K

Qwen3Guard - Modelo de seguridad de código abierto Ali Qwen

Qwen3Guard es un modelo de protección de seguridad afinado basado en el modelo base Qwen3, diseñado para la detección de seguridad. Proporciona una categorización de seguridad precisa de las solicitudes y respuestas, proporciona niveles de riesgo y es compatible con entornos en inglés, chino y multilingües.Qwen3Guard está disponible en dos pro...

Últimos recursos sobre IA

hace 6 meses

043.3K

Qwen3-TTS-Flash - Modelos de síntesis de voz de Ali Tongyi

Qwen3-TTS-Flash es un avanzado modelo de síntesis de voz introducido por Ali Tongyi, compatible con 17 tonos y 10 idiomas, que abarca mandarín, inglés, dialectos, etc. Tiene una excelente estabilidad y una gran expresividad del habla china e inglesa, y el modelo puede ajustar automáticamente el tono de voz para hacerlo más vivo.

Últimos recursos sobre IA

hace 7 meses

053K

Qwen3-Omni - Modelo de IA omnimodal presentado por Ali Tongyi

Qwen3-Omni es un modelo de IA totalmente modal presentado por el equipo de Ali Tongyi que puede manejar múltiples tipos de datos, como texto, imágenes, audio y vídeo, y admite la interacción con texto en 119 idiomas con baja latencia y alta controlabilidad.

Últimos recursos sobre IA

hace 7 meses

038.2K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - La última versión del modelo de IA introducido por DeepSeek

DeepSeek-V3.1-Terminus es una versión mejorada de DeepSeek-V3.1, un modelo lingüístico de inteligencia artificial del equipo DeepSeek. El modelo se ha optimizado en términos de coherencia lingüística, generación de código y capacidades de búsqueda para...

Últimos recursos sobre IA

hace 7 meses

036.1K

¿Qué es el aprendizaje federado en un artículo?

El aprendizaje federado (FL) es un enfoque innovador de aprendizaje automático, propuesto por primera vez por un equipo de investigadores de Google en 2016, que tiene como objetivo abordar los desafíos de la privacidad de los datos y la computación distribuida.

AI Respuestas

hace 7 meses

037.7K

Granite-Docling-258M - Modelos de lenguaje visual de código abierto de IBM

Granite-Docling-258M es un modelo de lenguaje visual ultracompacto de código abierto de IBM diseñado para la conversión eficaz de documentos. El modelo convierte documentos a un formato legible por máquina conservando intactos el diseño, las tablas, las fórmulas y otros elementos.

Últimos recursos sobre IA

hace 7 meses

034.7K

Lucy Edit - Herramienta de edición de vídeo con inteligencia artificial de código abierto, edición de descripciones en lenguaje natural

Lucy Edit es una herramienta de edición de vídeo de IA de código abierto desarrollada por Decart AI. Permite a los usuarios editar vídeo mediante sencillas descripciones en lenguaje natural, como "cambiar el personaje en un oso polar" o "convertir la escena en un estilo de dibujos animados 2D", sin necesidad de complejos ajustes finos ni del uso de máscaras...

Últimos recursos sobre IA

hace 7 meses

043.9K

LongCat-Flash-Thinking: un modelo de razonamiento eficiente para Meituan Open Source

LongCat-Flash-Thinking es un modelo de razonamiento eficiente lanzado por el equipo de LongCat en Mission LongCat, cada vez más potente y profesional a la vez que mantiene la velocidad extrema de LongCat-Flash-Chat. El modelo se basa en la lógica, las matemáticas, el código, la inteligencia...

Últimos recursos sobre IA

hace 7 meses

034.1K

Ling-V2 - La serie de modelos de lenguaje de arquitectura de Ant-Belling de código abierto

Ling-V2 es una familia de modelos lingüísticos a gran escala basados en la arquitectura MoE introducida por el equipo Ant-Belling. La primera versión, Ling-mini-2.0, tiene 16.000 millones de parámetros totales, con sólo 1.400 millones de parámetros activados por token de entrada.

Últimos recursos sobre IA

hace 6 meses

035.7K

Kronos - Modelo de base de gráficos K financieros de código abierto conjunto de Tsinghua y Microsoft

Kronos es el primer modelo básico de gráfico K-line para el mercado financiero, desarrollado conjuntamente por la Universidad Tsinghua y Microsoft Research Asia. Mediante el análisis de los datos K-line de acciones, criptomonedas y otros activos, incluidos el precio de apertura, el precio máximo, el precio mínimo, el precio de cierre y el volumen, puede predecir futuros movimientos de precios.

Últimos recursos sobre IA

hace 7 meses

058.8K

Wan2.2-Animate - Un modelo generativo para la generación de acciones del código abierto Tongyi Wanxiang

Wan2.2-Animate es un modelo de generación de acción de código abierto de Tongyi Wanxiang, que admite dos modos de imitación de acción y juego de rol. Los usuarios sólo tienen que introducir una imagen del personaje y un vídeo de referencia, el modelo puede migrar los movimientos y expresiones del personaje del vídeo al personaje de la imagen, dando al personaje de la imagen una expresión dinámica ...

Últimos recursos sobre IA

hace 7 meses

037K

Xiaomi-MiMo-Audio: el primer modelo nativo de voz de extremo a extremo de código abierto de Xiaomi

Xiaomi-MiMo-Audio es el macromodelo de voz de Xiaomi de código abierto con 7.000 millones de parámetros de extremo a extremo y potentes funciones como el diálogo multilingüe, la continuación del habla, la generalización de menos muestras y la comprensión de audio, capaz de alcanzar el nivel SOTA en inteligencia del habla y comprensión de audio, superando a Google Gemi...

Últimos recursos sobre IA

hace 7 meses

040.6K

InternVLA-A1 - Laboratorio de IA de Shanghai Integración de código abierto de capacidades operativas para grandes modelos incorporados

InternVLA-A1 es un gran modelo de operación encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Tiene la capacidad de comprender, imaginar y ejecutar la integración, y puede completar la tarea con precisión. El modelo fusiona datos de operación reales y simulados, y automatiza la construcción de activos de escena híbridos multimodales masivos a través de...

Últimos recursos sobre IA

hace 7 meses

041.2K

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

VoxCPM es un modelo de generación de voz de código abierto desarrollado conjuntamente por Facade Intelligence y la Shenzhen International Graduate School de la Universidad de Tsinghua. VoxCPM adopta una arquitectura autorregresiva de difusión de extremo a extremo para generar representaciones continuas del habla directamente a partir del texto, superando las limitaciones de la desambiguación discreta tradicional. Mediante el modelado jerárquico del lenguaje y la cuantización de estados finitos...

Últimos recursos sobre IA

hace 7 meses

045.1K

InternVLA-N1 - Modelo grande de navegación de doble sistema de código abierto de Shanghai AI Lab

InternVLA-N1 es un macromodelo de navegación de doble sistema de extremo a extremo de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Utilizando una arquitectura de doble sistema, el Sistema 2 se encarga de comprender las órdenes lingüísticas y planificar las trayectorias de largo alcance, mientras que el Sistema 1 se centra en la respuesta de alta frecuencia y la evitación ágil de obstáculos. El modelo se entrena íntegramente a partir de datos sintéticos mediante ...

Últimos recursos sobre IA

hace 7 meses

040.7K

WebWeaver - Ali Tongyi abre un nuevo marco corporal de doble inteligencia

WebWeaver es un nuevo marco corporal de doble inteligencia introducido por el equipo de Alibaba Tongyi, que se utiliza principalmente en la investigación profunda abierta, y puede simular el proceso de investigación humana, que se divide en dos inteligencias: planificación y escritura.

Últimos recursos sobre IA

hace 7 meses

039.2K

MCP Registry - La plataforma oficial de gestión de servidores MCP de GitHub.

MCP Registry es una plataforma centralizada de GitHub que ayuda a los desarrolladores a descubrir e instalar servidores MCP más fácilmente.Con MCP Registry, los desarrolladores pueden encontrar rápidamente las herramientas de AI que necesitan en un solo lugar, simplificando enormemente...

Últimos recursos sobre IA

hace 7 meses

037.9K

VLAC - Gran modelo de recompensas encarnadas de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

VLAC es un macromodelo de recompensa encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Basado en el macromodelo multimodal InternVL, integra datos de vídeo de Internet y datos de funcionamiento del robot para proporcionar una estimación de la recompensa del proceso y la finalización de la tarea para el aprendizaje por refuerzo del robot en el mundo real.

Últimos recursos sobre IA

hace 7 meses

033.5K

Tongyi DeepResearch - Cuerpo de inteligencia de investigación profunda de código abierto Ali Tongyi

Tongyi DeepResearch (Tongyi Investigación Profunda) es un organismo inteligente de código abierto lanzado por Alibaba, diseñado para la recuperación profunda de información y el razonamiento de tareas complejas, con 30.000 millones de parámetros, compatible con múltiples modos de razonamiento, incluidos el modo ReAct y el modo de profundidad...

Últimos recursos sobre IA

hace 7 meses

042K

InternVLA-M1 - "Cerebro" de funcionamiento del sistema dual encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

InternVLA-M1 es un "cerebro" operativo encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, que es un gran modelo de funcionamiento de dos sistemas orientado al seguimiento de instrucciones. Construye un bucle cerrado completo que abarca "pensar-actuar-aprender" y es responsable del razonamiento espacial de alto nivel y de la planificación de tareas. El modelo adopta una política de entrenamiento en dos etapas...

Últimos recursos sobre IA

hace 7 meses

033.2K

Guía en PDF de OpenAI para mantenerse a la vanguardia en la era de la IA - con enlaces de descarga

Staying ahead in the age of AI es una guía de liderazgo en IA de OpenAI que ayuda a los líderes empresariales a mantener una ventaja competitiva en la era de la IA. La guía señala el rápido crecimiento de la IA, con lanzamientos de modelos más rápidos, costes más bajos y una adopción empresarial más rápida....

Últimos recursos sobre IA Información sobre el curso

hace 7 meses

042.5K

PDF gratuito de Fundamentos de grandes modelos de la Universidad de Zhejiang - con enlace de descarga

Fundamentos de los grandes modelos ofrece un análisis en profundidad de las tecnologías básicas y las vías prácticas de los grandes modelos lingüísticos (LLM). Partiendo de la teoría fundamental de la modelización lingüística, explica sistemáticamente los principios del diseño de modelos basados en arquitecturas estadísticas, de redes neuronales recurrentes (RNN) y Transformer, centrándose en los tres grandes modelos lingüísticos....

Últimos recursos sobre IA Información sobre el curso

hace 7 meses

044K

循环神经网络（Recurrent Neural Network）是什么，一文看懂

¿Qué es una red neuronal recurrente (RNN) en un artículo?

La red neuronal recurrente (RNN) es una arquitectura de red neuronal diseñada para procesar datos secuenciales. Por datos secuenciales se entiende una colección de datos con orden temporal o dependencias, como textos lingüísticos, señales de voz o series temporales.

AI Respuestas

hace 7 meses

040.7K

Qué es una red neuronal (Neural Network), un artículo para leer y entender

La red neuronal (NN) es un modelo computacional inspirado en el funcionamiento de las neuronas en el cerebro biológico.

AI Respuestas

hace 7 meses

032.5K

PromptEnhancer - Tencent Mixed Meta Herramienta de código abierto AI Prompt Word Enhancement

PromptEnhancer es una herramienta de código abierto para mejorar la generación de modelos texto-imagen (Text-to-Image, T2I). A través del enfoque de cadena de razonamiento (Chain-of-Thought, CoT) ...

Últimos recursos sobre IA

hace 7 meses

038.6K

LLaSO: el primer modelo de voz de código abierto de Logic Intelligence

LLaSO es un modelo del habla de código abierto lanzado por Beijing Depth Logic Intelligence Technology Co. Ltd, que resuelve los problemas de dispersión de datos e insuficiente cobertura de tareas en el campo del modelado del lenguaje del habla a gran escala integrando datos del habla y del texto y proporcionando conjuntos de datos de alineación, conjuntos de datos de ajuste de comandos y puntos de referencia de evaluación.

Últimos recursos sobre IA

hace 7 meses

029.6K

Hybrid 3D 3.0: modelos generados en 3D de Tencent compatibles con UHD

Hybrid 3D 3.0 es un modelo avanzado de generación 3D de Tencent, basado en la tecnología de esculpido jerárquico 3D-DiT, con una resolución geométrica de hasta 1536³, capaz de generar modelos 3D de ultra alta definición y ricos en detalles, y de destacar en el modelado de personajes, con capacidad para modelar con precisión los cinco sentidos y la forma del cuerpo.

Últimos recursos sobre IA

hace 7 meses

047.7K

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

UnifoLM-WMA-0 es una arquitectura de acción-modelo del mundo de código abierto para múltiples clases de ontologías robóticas de Yu Shu Technology, diseñada para el aprendizaje general de robots. Compuesto por un modelo de mundo y una arquitectura de acción, el modelo de mundo entiende las leyes físicas de la interacción robot-entorno, y la arquitectura de acción es responsable de...

Últimos recursos sobre IA

hace 7 meses

047.3K

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

InfiniteTalk es una herramienta de generación de vídeo basada en audio desarrollada por el equipo de MeiGen-AI que genera vídeos hablados de duración ilimitada a partir del audio introducido. Su principal ventaja es la precisa tecnología de sincronización labial, que hace coincidir perfectamente el audio con la forma de la boca del personaje, generando...

Últimos recursos sobre IA

hace 7 meses

056.6K

Mini-o3 - Bytes, modelo conjunto de razonamiento visual de código abierto de la HKU

Mini-o3 es un modelo de código abierto lanzado conjuntamente por ByteDance y la Universidad de Hong Kong, centrado en la resolución de problemas complejos de búsqueda visual. El modelo tiene una potente capacidad de razonamiento interactivo multirronda y puede localizar un objetivo mediante exploración profunda y ensayo-error.

Últimos recursos sobre IA

hace 7 meses

034.5K

GPT-5-Codex: el modelo de programación más sólido introducido por OpenAI

GPT-5-Codex es un potente modelo de optimización de programación de OpenAI, mejorado por GPT-5 y diseñado para ingenieros de software. El modelo genera código de alta calidad con rapidez, es compatible con múltiples lenguajes de programación y optimiza el código existente para mejorar el rendimiento.

Últimos recursos sobre IA

hace 7 meses

030.8K

ROMA - Marco metaagente de código abierto para la descomposición automática de tareas complejas para el procesamiento paralelo

ROMA (Recursive-Open-Meta-Agent) es un marco de meta-agente de código abierto desarrollado por Sentient AGI para resolver eficientemente problemas complejos a través de la descomposición recursiva de tareas y el procesamiento paralelo. Soporta Python 3.12+, Docker y...

Últimos recursos sobre IA

hace 7 meses

045K

Lumina-DiMOO - Un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y Huawei Rise

Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...

Últimos recursos sobre IA

hace 7 meses

040.4K

Hyprnote - Herramienta de código abierto para tomar notas de conferencias con inteligencia artificial en primer lugar local

Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.

Últimos recursos sobre IA

hace 7 meses

040.3K

MobileLLM-R1 - Meta serie de modelos de inferencia eficientes especializados de código abierto

MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...

Últimos recursos sobre IA

hace 7 meses

032.7K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Pensamiento - Modelo de pensamiento razonador de código abierto de Baidu

ERNIE-4.5-21B-A3B-Thinking es el modelo de lenguaje a gran escala de código abierto de Baidu centrado en tareas de razonamiento. Utilizando la arquitectura Mixed Expert (MoE) , el número total de referencias a 21 mil millones , cada token activa 3 mil millones de parámetros para soportar 128K ventana de contexto largo ...

Últimos recursos sobre IA

hace 7 meses

030.6K

Qué es la equidad de la Inteligencia Artificial (AI Fairness), en un artículo

La equidad en la IA es el campo interdisciplinar que consiste en garantizar que los sistemas de IA traten a todos los individuos y grupos de personas de forma justa e imparcial a lo largo de todo el ciclo de vida de su diseño, desarrollo, despliegue y funcionamiento.

AI Respuestas

hace 7 meses

037.3K

¿Qué es el metaaprendizaje (Meta-Learning) en un artículo?

El metaaprendizaje, o aprender a aprender, es una rama importante del campo del aprendizaje automático que se centra en el desarrollo de algoritmos de aprendizaje capaces de adaptarse rápidamente a nuevas tareas.

AI Respuestas

hace 7 meses

041.6K

MobiAgent - framework de código abierto para la creación de cuerpos inteligentes móviles de la Universidad Jiaotong de Shanghai

MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...

Últimos recursos sobre IA

hace 7 meses

038.2K

ZipVoice: la familia de modelos de síntesis de voz de código abierto de Xiaomi

ZipVoice es una serie de modelos de síntesis de voz (TTS) basados en la arquitectura Flow Matching lanzada por Xiaomi, entre los que se incluyen ZipVoice (modelo de síntesis de voz de cero muestras para un solo interlocutor) y ZipVoice-Dialog (modelo de síntesis de voz de cero muestras...

Últimos recursos sobre IA

hace 7 meses

046.4K

PP-OCRv5 - Modelo de IA de código abierto de Baidu para el reconocimiento de texto de nueva generación

PP-OCRv5 es el modelo de IA de reconocimiento de texto de última generación lanzado por Baidu. Con un diseño ligero y un recuento de referencias de solo 0,07 B, es apto para ejecutarse de forma eficiente en CPU y dispositivos edge, y puede procesar más de 370 caracteres por segundo. El modelo admite chino simplificado, chino tradicional, inglés, japonés y pinyin...

Últimos recursos sobre IA

hace 7 meses

059.7K

Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs

Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...

Últimos recursos sobre IA

hace 7 meses

039.5K

Stand-In - Marco de generación de vídeo ligero de código abierto Tencent WeChat Visual

Stand-In es un marco de generación de vídeo ligero, plug-and-play y preservador de identidad del equipo WeChat Vision de Tencent. Centrado en preservar rasgos de identidad específicos en la generación de vídeo, solo necesita entrenar parámetros adicionales del modelo base 1%, y puede lograr excelentes resultados en similitud facial y naturalidad.

Últimos recursos sobre IA

hace 7 meses

037.6K

IndexTTS2 - Modelo TTS gratuito de código abierto para la estación B, el primero que admite un control preciso de la duración

IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...

Últimos recursos sobre IA

hace 7 meses

099.2K

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - ¡El último modelo de generación de música por IA de MiniMax!

MiniMax Music 1.5 es una herramienta avanzada de generación de música por IA que permite generar hasta 4 minutos de música a partir de la descripción en lenguaje natural del usuario. El modelo es compatible con una amplia gama de estilos musicales y personalización del estado de ánimo, y genera tonos vocales naturales y completos, transiciones suaves y arreglos ricamente estratificados....

Últimos recursos sobre IA

hace 7 meses

039.4K

Qué es la seguridad de la inteligencia artificial (AI Safety), en un artículo

La seguridad de la inteligencia artificial (seguridad de la IA) es el campo interdisciplinar de vanguardia que consiste en garantizar que los sistemas de IA, especialmente los que son cada vez más potentes y autónomos, actúen de forma fiable y predecible a lo largo de su ciclo de vida de acuerdo con las intenciones humanas, sin consecuencias perjudiciales.

AI Respuestas

hace 7 meses

035.4K

¿Qué es el aprendizaje autosupervisado (SSL) en un artículo?

El aprendizaje autosupervisado (SSL) es un paradigma de aprendizaje emergente en el campo del aprendizaje automático, en el que la idea central es generar automáticamente señales supervisadas a partir de datos no etiquetados y entrenar modelos para aprender representaciones útiles de los datos.

AI Respuestas

hace 7 meses

036.2K

Más información

¿No encuentra herramientas de IA? Pruebe aquí