Círculo de intercambio de inteligencia artificial

Puesta en común diaria de los últimos productos, proyectos, marcos, interpretaciones de documentos, etc.~ sobre IA.
Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - Marco de código abierto de Tencent para cuerpos inteligentes eficientes

Youtu-agent es un marco de código abierto para construir y ejecutar inteligencias autónomas de Tencent Youtu Labs. El marco obtiene buenos resultados en las pruebas comparativas WebWalkerQA y GAIA, con una precisión de 71,47% y 72,8% respectivamente.El marco...
hace 1 mes
023K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - Modelo de generación de sonido de vídeo de código abierto de Tencent

HunyuanVideo-Foley es un modelo de generación de sonido de vídeo de código abierto del equipo Tencent Mixed Yuan que permite añadir efectos de sonido adaptados con precisión a los vídeos silenciosos. El modelo se basa en un conjunto de datos a gran escala de formación , con una arquitectura de convertidor de difusión multimodal , combinado con la representación de la función de pérdida de alineación y técnicas de optimización de audio VAE....
hace 1 mes
024.8K
PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - Aishi Technologies lanza un modelo de vídeo con inteligencia artificial de desarrollo propio

PixVerse V5 es un gran modelo de generación de vídeo por IA lanzado por Aishi Technology. El modelo puede generar contenidos de vídeo de alta calidad a partir de descripciones de texto o imágenes introducidas por el usuario, y admite diversos estilos, como anime, ciencia ficción y estilo nacional.
hace 1 mes
022.3K
问小白5 - 问小白推出的全能AI模型

Ask White 5 - Modelo AI todo en uno de Ask White

Ask White 5 es el modelo insignia "Todo en uno" con un nivel de inteligencia muy alto. El modelo obtiene buenos resultados en muchas evaluaciones, como la puntuación de evaluación compuesta AA-Index de 64,7 y la puntuación de evaluación de la capacidad STEM de 86, que se acerca a la del líder mundial GPT-5.
hace 1 mes
019.9K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - El modelo de generación y edición de imágenes más potente de Google

Gemini 2.5 Flash Image (nombre en clave nano banana) es un modelo de generación y edición de imágenes de última generación de Google que mantiene la coherencia de los caracteres en todas las escenas y admite la edición precisa de imágenes mediante lenguaje natural, como el desenfoque de fondos y la eliminación de manchas.
hace 2 meses
021.9K
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - Modelo de generación de vídeo basado en audio de código abierto Ali Tongyi

Wan2.2-S2V es un modelo de generación de vídeo multimodal de código abierto de Ali Tongyi , sólo una imagen estática y un fragmento de audio , puede generar vídeo humano digital de alta calidad , y soporta una variedad de tipos de imagen y marco .
hace 2 meses
023K
吴恩达面向开发者的ChatGPT提示工程免费课程

Curso gratuito sobre ingeniería de consejos ChatGPT para desarrolladores por Ernest Ng

ChatGPT Tip Engineering for Developers es un curso conjunto de DeepLearning.AI y OpenAI diseñado para desarrolladores, que cuenta con Isa Fulford, Andrew Ng para enseñar a utilizar Large Language Models (LLM...
hace 2 meses
020.1K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Un modelo de pensamiento paralelo introducido por Ask o4 que abre 8 vías de pensamiento al mismo tiempo

Ask White o4 es un innovador modelo de pensamiento paralelo que abre 8 vías de pensamiento al mismo tiempo, analiza el problema desde múltiples perspectivas y filtra automáticamente la solución óptima. El modelo incorpora técnicas avanzadas de aprendizaje por refuerzo Long-CoT y aprendizaje por recompensa de procesos, tiene potentes capacidades de razonamiento profundo y rinde bien en tareas complejas.
hace 2 meses
018.4K
VibeVoice - 微软推出的文本到语音模型

VibeVoice - Modelado de texto a voz de Microsoft

VibeVoice es un nuevo modelo de conversión de texto a voz (TTS) de Microsoft. Este modelo genera audio conversacional a partir de hasta cuatro altavoces diferentes y admite hasta 90 minutos de emisión continua de voz, con lo que rompe las limitaciones de duración de los sistemas TTS tradicionales.
hace 2 meses
024.8K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Modelos de generación de escenas 3D de código abierto de Qunar Technologies

SpatialGen es un modelo de generación de escenas 3D de código abierto de Qunar Technology, basado en la arquitectura del modelo de difusión, que admite la generación de imágenes multivista coherentes espaciotemporalmente a partir de descripciones textuales, imágenes de referencia y disposición espacial 3D, y que además genera escenas gaussianas 3D y renderiza vídeos itinerantes.
hace 2 meses
019.1K