Últimos recursos sobre IA

共 3143 篇文章

Información sobre el curso Últimos recursos sobre IA Base de conocimientos de IA Noticias AI

ordenar

hojear Marcador (Internet)

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman: un modelo de generación humana digital de vídeo largo lanzado por Bytes en colaboración con ZJU.

InfinityHuman es un modelo comercial de generación de vídeos de personajes con series de audio de larga duración lanzado conjuntamente por ByteDance y la Universidad de Zhejiang. El modelo se basa en el audio y puede generar vídeos de personajes de alta resolución, larga duración y coherencia visual.

Últimos recursos sobre IA

hace 11 meses

056.4K

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - Sistema libre de generación de vídeos musicales de código abierto M-A-P en colaboración con Beipiao, NU y otros.

AutoMV es un sistema de generación de vídeos musicales de código abierto desarrollado por el equipo de M-A-P en colaboración con varias universidades, que puede generar automáticamente vídeos musicales coherentes a partir de canciones completas sin necesidad de formación.Adopta un modelo de colaboración multiinteligencia, que incluye módulos de análisis musical, escritura de guiones, dirección y control de calidad, y puede analizar con precisión letras, ritmos...

Últimos recursos sobre IA

hace 7 meses

056.3K

Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face: el modelo de generación de animaciones faciales 3D de NVIDIA de código abierto

Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.

Últimos recursos sobre IA

hace 10 meses

056.3K

Wide Research - Manus平台推出的多智能体协同功能

Amplia investigación - Colaboración multiinteligencia introducida en la plataforma Manus

Wide Research es una potente función de la plataforma Manus diseñada para gestionar tareas complejas y a gran escala. La plataforma admite cientos de inteligencias de propósito general trabajando simultáneamente mediante mecanismos de procesamiento paralelo a nivel de sistema y protocolos de colaboración entre inteligencias.

Últimos recursos sobre IA

hace 1 año

056.3K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

Últimos recursos sobre IA

hace 7 meses

056.2K

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - Marco de generación de animación de personajes para cine y televisión de código abierto de Wisdom spectrum y Tsinghua

SCAIL (Studio-Grade Character Animation via In-Context Learning) es un marco de generación de animación de personajes para cine y televisión propuesto por Smart Spectrum en colaboración con el grupo del profesor Liu Yongjin de la Universidad de Tsinghua. A través de...

Últimos recursos sobre IA

hace 8 meses

056.2K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

Últimos recursos sobre IA

hace 6 meses

056.2K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto

AnyI2V es un marco de generación de animaciones de imágenes lanzado conjuntamente por la Universidad de Fudan, Alibaba Darmo Academy y otras entidades, que permite convertir imágenes condicionales estáticas (por ejemplo, cuadrículas, nubes de puntos, etc.) en vídeos dinámicos sin necesidad de un complejo proceso de formación y una gran cantidad de datos.

Últimos recursos sobre IA

hace 11 meses

056.2K

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra是一个基于OpenClaw框架开发的AI女友程序，由韩国开发者David Im制作，具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...

Últimos recursos sobre IA

hace 6 meses

056.1K

OpenReasoning-Nemotron - 英伟达推出的开源系列推理模型

OpenReasoning-Nemotron - Serie de modelos de razonamiento de código abierto de NVIDIA

OpenReasoning-Nemotron es una serie de modelos de lenguaje a gran escala de código abierto de NVIDIA para apoyar el procesamiento de tareas de razonamiento en matemáticas, ciencia y código. Los modelos se basan en el modelo DeepSeek R1 0528 con escalas de parámetros de 1,5B...

Últimos recursos sobre IA

hace 1 año

056.1K

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Un gran modelo de la arquitectura MoE de código abierto lanzado por Xiaomi

MiMo-V2-Flash es un gran modelo de arquitectura MoE de código abierto lanzado por Xiaomi, con 309.000 millones de parámetros totales y 15.000 millones de parámetros activos, centrado en el razonamiento eficiente y las aplicaciones corporales inteligentes. El modelo adopta una arquitectura de atención híbrida y tecnología de meta-predicción multi-palabra, con una velocidad de inferencia de 150 tokens/segundo, en...

Últimos recursos sobre IA

hace 8 meses

056.1K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

Últimos recursos sobre IA

hace 6 meses

056K

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型，在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”，扫描、手写、印章、多语混排、复杂表...

Últimos recursos sobre IA

hace 6 meses

056K

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - Serie de modelos de reconocimiento del habla de alto rendimiento y código abierto de Wisdom Spectrum AI

GLM-ASR es una familia de modelos de reconocimiento del habla de alto rendimiento de código abierto de Smart Spectrum AI, que incluye el modelo basado en la nube GLM-ASR-2512 y el modelo de código abierto GLM-ASR-Nano-2512.GLM-ASR-2512 es el modelo de reconocimiento del habla basado en la nube...

Últimos recursos sobre IA

hace 8 meses

056K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Macromodelado de extremo ultraeficiente mediante Facing Face Intelligence

MiniCPM 4.1 es un modelo de lenguaje de gran tamaño ultraeficiente introducido por Facade Intelligence. Con la arquitectura de atención dispersa InfLLM v2, cada lexema sólo necesita calcular la correlación con menos de 5% lexemas, lo que reduce significativamente la sobrecarga de procesamiento de texto largo. En el escenario de texto largo de 128K...

Últimos recursos sobre IA

hace 11 meses

055.8K

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型，以“边看边听主动说”的端到端架构，在手机端即可跑出 GPT-4o 级体验：支持单图、多图、高帧率长视频、实时语音双工对话，首 tok...

Últimos recursos sobre IA

hace 6 meses

055.8K

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型，性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性：通过增加采...

Últimos recursos sobre IA

hace 6 meses

055.8K

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - Un modelo de generación de vídeo de referencia multisujeto de código abierto creado por Smart Spectrum AI en colaboración con la Universidad de Tsinghua y otras instituciones.

Kaleido es un modelo de generación de vídeo de referencia multisujeto de código abierto desarrollado conjuntamente por la Universidad Tecnológica de Hefei, la Universidad de Tsinghua y Smart Spectrum AI. Genera vídeos coherentes con el sujeto a través de múltiples imágenes de referencia, resolviendo las deficiencias de los modelos existentes en cuanto a coherencia multisujeto y desacoplamiento del fondo.Kaleido genera vídeos a través de un...

Últimos recursos sobre IA

hace 8 meses

055.8K

阶跃深研 - 阶跃星辰推出的AI深入研究工具

Steps Deep Research - AI Deep Research Tool by Steps Star

Step Deep Research es una eficaz herramienta de investigación de IA lanzada por Step Star, que puede completar de forma autónoma investigaciones sobre temas complejos y generar informes profesionales en poco tiempo. La herramienta está diseñada para finanzas, consultoría, sanidad, derecho y otros campos, y ha destacado en las reseñas del sector por sus capacidades de búsqueda en profundidad e integración de información.

Últimos recursos sobre IA

hace 1 año

055.8K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

Últimos recursos sobre IA

hace 7 meses

055.8K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - El modelo de programación de inteligencia artificial más potente de Anthropic

Claude Sonnet 4.5 es un modelo de inteligencia artificial de Anthropic diseñado para programación, operaciones informáticas y automatización de tareas complejas. El modelo destaca en la generación de código, el procesamiento de tareas largas, el razonamiento y el cálculo matemático, soportando desde la planificación inicial...

Últimos recursos sobre IA

hace 10 meses

055.7K

ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - Ali Tongyi lanza el framework de código abierto para motores de búsqueda de grandes modelos

ZeroSearch es Alibaba Tongyi Lab de código abierto innovador gran modelo de motor de búsqueda marco. El marco no necesita interactuar con los motores de búsqueda reales , basado en la simulación del motor de búsqueda , con un gran modelo de su propio conocimiento pre-entrenamiento para generar documentos relevantes o de ruido , lo que reduce significativamente el coste de formación ( reducir 80% o más...

Últimos recursos sobre IA

hace 1 año

055.6K

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Herramienta de código abierto AI Prompt Word Enhancement

PromptEnhancer es una herramienta de código abierto para mejorar la generación de modelos texto-imagen (Text-to-Image, T2I). A través del enfoque de cadena de razonamiento (Chain-of-Thought, CoT) ...

Últimos recursos sobre IA

hace 11 meses

055.5K

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Modelo de diálogo de audio dúplex completo (FLM-Audio) de código abierto creado por WisdomSource en colaboración con el Instituto Tecnológico de Nanyang (NTI).

FLM-Audio es un macromodelo de diálogo de audio full-duplex nativo publicado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con Spin Matrix y la Universidad Tecnológica Nanyang de Singapur, que admite tanto el chino como el inglés. Al adoptar una arquitectura full-duplex nativa, puede combinar la escucha, el habla y el monólogo en cada paso temporal...

Últimos recursos sobre IA

hace 10 meses

055.5K

Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear: una novedosa arquitectura híbrida de atención lineal de código abierto en el Lado Oscuro de la Luna

Kimi Linear es una nueva arquitectura híbrida de atención lineal de código abierto de Dark Side of the Moon, con Kimi Delta Attention (KDA) como núcleo, que optimiza el modelo de atención tradicional mediante un mecanismo de control más preciso, mejorando significativamente la eficiencia del hardware y la capacidad de control de la memoria...

Últimos recursos sobre IA

hace 9 meses

055.4K

混元图像2.1 - 腾讯推出的开源文生图模型

Imagen híbrida 2.1 - Modelo gráfico de proveedor de código abierto de Tencent

HunyuanImage 2.1 es el modelo gráfico de código abierto de Tencent diseñado para la generación de imágenes de alta calidad. El modelo admite resolución 2K nativa, puede renderizar con precisión escenas y detalles complejos, de modo que la expresión y el movimiento de los personajes pueden reproducirse vívidamente.

Últimos recursos sobre IA

hace 11 meses

055.4K

SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab

SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. SoulX-Podcast tiene la capacidad de generar múltiples rondas de diálogo y puede simular un diálogo fluido en escenarios reales de podcasting, soportando mandarín, inglés y múltiples...

Últimos recursos sobre IA

hace 9 meses

055.3K

NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....

Últimos recursos sobre IA

hace 10 meses

055.3K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

Últimos recursos sobre IA

hace 7 meses

055.3K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

Últimos recursos sobre IA

hace 7 meses

055.3K

ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架

ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架

ClawWork是香港大学数据科学实验室开发的AI经济压力测试框架，允许AI在模拟经济环境中完成真实工作任务并获得报酬。核心逻辑是让初始资金仅10美元的AI通过完成220个专业任务（覆盖制造、金融、医...

Últimos recursos sobre IA

hace 5 meses

055.3K

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型，拥有140亿参数量，实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...

Últimos recursos sobre IA

hace 6 meses

055K

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move: el marco de código abierto de Ali Tongyi para la generación de vídeo con inteligencia artificial, en colaboración con Tsinghua y otros organismos.

Wan-Move es un marco de generación de vídeo de IA de código abierto desarrollado conjuntamente por Ali Tongyi Labs, la Universidad de Tsinghua y otras instituciones, centrado en la composición de vídeo de alta calidad mediante una tecnología precisa de control del movimiento. La tecnología central es la "guía de trayectoria potencial", que puede añadir sin problemas el control de movimiento a nivel de punto al modelo existente de imagen a vídeo...

Últimos recursos sobre IA

hace 8 meses

054.9K

MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - La plataforma oficial de gestión de servidores MCP de GitHub.

MCP Registry es una plataforma centralizada de GitHub que ayuda a los desarrolladores a descubrir e instalar servidores MCP más fácilmente.Con MCP Registry, los desarrolladores pueden encontrar rápidamente las herramientas de AI que necesitan en un solo lugar, simplificando enormemente...

Últimos recursos sobre IA

hace 11 meses

054.9K

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - Gran modelo de recompensas encarnadas de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

VLAC es un macromodelo de recompensa encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Basado en el macromodelo multimodal InternVL, integra datos de vídeo de Internet y datos de funcionamiento del robot para proporcionar una estimación de la recompensa del proceso y la finalización de la tarea para el aprendizaje por refuerzo del robot en el mundo real.

Últimos recursos sobre IA

hace 11 meses

054.9K

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - Tecnología de composición de escenas 3D con visión monocular de código abierto de Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) es la tecnología de síntesis de vista monocular de código abierto de Apple. Puede generar rápidamente una representación 3D realista de una escena a partir de una sola foto en menos de un segundo....

Últimos recursos sobre IA

hace 7 meses

054.8K

Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型

Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型

Ring-2.5-1T 是蚂蚁集团百灵大模型团队开源的全球首个万亿参数混合线性架构思考模型，采用1:7 MLA与Lightning Linear Attention混合设计，激活参数量达63B。模型在...

Últimos recursos sobre IA

hace 5 meses

054.8K

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型，拥有47亿参数，采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型，负责理解人类模糊指令与空间推理；动作执行小脑则通过Di...

Últimos recursos sobre IA

hace 5 meses

054.7K

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

Últimos recursos sobre IA

hace 6 meses

054.6K

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team Modelos de movimiento 3D de generación de texto de código abierto

Hybrid Motion1.0 (HY-Motion1.0) es el modelo de acción 3D generado por texto de código abierto del equipo Hybrid de Tencent, que utiliza una arquitectura de transformadores de difusión con mil millones de parámetros, y puede generarse directamente mediante la descripción en lenguaje natural de animaciones de personajes 3D de alta calidad.

Últimos recursos sobre IA

hace 7 meses

054.6K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

Últimos recursos sobre IA

hace 6 meses

054.5K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - La última versión del modelo de IA introducido por DeepSeek

DeepSeek-V3.1-Terminus es una versión mejorada de DeepSeek-V3.1, un modelo lingüístico de inteligencia artificial del equipo DeepSeek. El modelo se ha optimizado en términos de coherencia lingüística, generación de código y capacidades de búsqueda para...

Últimos recursos sobre IA

hace 10 meses

054.5K

olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2

olmOCR 2 es un modelo de análisis sintáctico multimodal de documentos de código abierto del Allen Institute for Artificial Intelligence (AI2) y es una versión mejorada de olmOCR. Los documentos impresos digitalizados (por ejemplo, PDF) se...

Últimos recursos sobre IA

hace 9 meses

054.5K

HeyGen - AI 数字人视频创作平台，支持多语言翻译配音

HeyGen - Plataforma de creación de vídeo humano digital con IA y soporte de traducción y doblaje multilingüe

HeyGen es una plataforma de creación de vídeos humanos digitales impulsada por la IA que facilita un proceso de producción de vídeo racionalizado, permitiendo a los usuarios generar rápidamente vídeos humanos digitales de calibre profesional. La plataforma se basa en una avanzada tecnología de inteligencia artificial que ofrece a los usuarios un control total sobre la imagen y la voz de sus personajes digitales, así como una...

Últimos recursos sobre IA

hace 1 año

054.5K

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”，把视频生成与机器人控制塞进同一 Transformer，每一步同时输出下一帧世界画面和对应动作，实现“边想边干”。

Últimos recursos sobre IA

hace 6 meses

054.4K

CWM - Meta FAIR开源的代码世界语言模型

CWM - Modelo Meta FAIR de lenguaje mundial de código abierto

CWM (Code World Model) es un modelo de lenguaje mundial de código abierto con 32.000 millones de parámetros publicado por el equipo Meta FAIR, diseñado para la generación y el razonamiento de código. Introduce el concepto de "modelo del mundo", que puede simular el proceso de ejecución del código, predecir los cambios de estado de las variables y avanzar...

Últimos recursos sobre IA

hace 10 meses

054.4K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab

XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....

Últimos recursos sobre IA

hace 11 meses

054.3K

Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - Un nuevo modelo de lenguaje cíclico de código abierto del equipo ByteHopper Seed

Ouro es un nuevo tipo de Looped Language Models (LLMs) desarrollado por el equipo de ByteDance Seed, con la innovación central de construir directamente capacidades de inferencia en la fase de pre-entrenamiento a través de una estructura computacional recurrente de parámetros compartidos. El modelo utiliza 24 capas como bloque base, a través de...

Últimos recursos sobre IA

hace 9 meses

054.1K

Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - Marco de generación de vídeos didácticos de IA de código abierto de Show Lab

Code2Video es un innovador proyecto de código abierto que convierte automáticamente fragmentos de código en contenido de vídeo de alta calidad (formato mp4). El proyecto a través de un paradigma único centrado en el código , utilizando herramientas de carbono-ahora-cli para generar código en bellas imágenes , el uso de ffmpeg será estos...

Últimos recursos sobre IA

hace 10 meses

054.1K

Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - El asistente de programación inteligente de Ant Open Source

Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....

Últimos recursos sobre IA

hace 10 meses

054K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

Últimos recursos sobre IA

hace 6 meses

053.7K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next, el último modelo básico lanzado por Ali Tongyi

Qwen3-Next es un gran modelo de arquitectura híbrida de nueva generación, desarrollado por Ali Tongyi, que combina las tecnologías Gated DeltaNet y Gated Attention, lo que le permite tratar textos largos, realizar inferencias rápidas y ahorrar recursos informáticos.

Últimos recursos sobre IA

hace 11 meses

053.7K

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - Un modelo generativo para la generación de acciones del código abierto Tongyi Wanxiang

Wan2.2-Animate es un modelo de generación de acción de código abierto de Tongyi Wanxiang, que admite dos modos de imitación de acción y juego de rol. Los usuarios sólo tienen que introducir una imagen del personaje y un vídeo de referencia, el modelo puede migrar los movimientos y expresiones del personaje del vídeo al personaje de la imagen, dando al personaje de la imagen una expresión dinámica ...

Últimos recursos sobre IA

hace 10 meses

053.7K

Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Asistente de código de línea de comandos de código abierto de Mistral AI

Mistral Vibe es un asistente de codificación de línea de comandos de código abierto de Mistral AI, desarrollado basado en el modelo Devstral, que soporta la interacción del lenguaje natural para completar la búsqueda de código, manipulación de archivos, control de versiones y otras tareas. Puede escanear automáticamente la estructura del proyecto y el estado de Git a través del símbolo @...

Últimos recursos sobre IA

hace 8 meses

053.5K

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Modelo de segmentación de audio multimodal de código abierto de Meta

SAM Audio es un modelo de segmentación de audio multimodal de código abierto de Meta que separa con precisión sonidos objetivo arbitrarios de mezclas de audio complejas. Mediante la combinación de pistas dimensionales textuales, visuales y temporales, permite un procesamiento de audio flexible y eficiente para tareas como la edición de audio,...

Últimos recursos sobre IA

hace 7 meses

053.5K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

Últimos recursos sobre IA

hace 7 meses

053.4K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

Últimos recursos sobre IA

hace 7 meses

053.3K

DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST

DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...

Últimos recursos sobre IA

hace 9 meses

053.3K

PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架，专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作（检索、规划、造型、渲染和批评），实现从文本描述到Neu...

Últimos recursos sobre IA

hace 6 meses

053K

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...

Últimos recursos sobre IA

hace 10 meses

053K

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...

Últimos recursos sobre IA

hace 10 meses

052.9K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, modelo conjunto de razonamiento visual de código abierto de la HKU

Mini-o3 es un modelo de código abierto lanzado conjuntamente por ByteDance y la Universidad de Hong Kong, centrado en la resolución de problemas complejos de búsqueda visual. El modelo tiene una potente capacidad de razonamiento interactivo multirronda y puede localizar un objetivo mediante exploración profunda y ensayo-error.

Últimos recursos sobre IA

hace 11 meses

052.9K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Modelo de traducción ligera de código abierto Tencent Mixed Meta

Hunyuan-MT-7B es un modelo de traducción ligero introducido por el Mixed Meta Team de Tencent, con 7.000 millones de referencias, que admite la traducción mutua de 33 idiomas y 5 lenguas/dialectos del chino popular, incluidos el cantonés, el uigur y el tibetano. En el concurso WMT2025 de la Asociación Internacional de Lingüística Computacional (ACL)...

Últimos recursos sobre IA

hace 11 meses

052.8K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

Últimos recursos sobre IA

hace 6 meses

052.7K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent: el eficiente modelo de inferencia de IA de código abierto de Microsoft

rStar2-Agent es un modelo avanzado de razonamiento matemático de IA de código abierto de Microsoft que demuestra una gran capacidad para resolver problemas matemáticos al alcanzar una precisión de 80,61 TP3T en la prueba AIME24. El modelo está equipado con capacidades de razonamiento científico, logrando en la prueba GPQA-Diamond...

Últimos recursos sobre IA

hace 11 meses

052.6K

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA: pruebas de referencia de código abierto de Google para agentes de investigación de IA

DeepSearchQA es la prueba de referencia de código abierto de Google para agentes de investigación de IA, diseñada para evaluar el rendimiento de las inteligencias en tareas de consulta complejas de varios pasos. Consta de 900 tareas de "cadena causal" diseñadas a mano que abarcan 17 dominios y exigen que la IA actúe como un investigador humano y...

Últimos recursos sobre IA

hace 8 meses

052.6K

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Modelo de base corporal inteligente GUI universal de código abierto de Ali Tongyi Labs

MAI-UI es un modelo base de cuerpo inteligente GUI universal de código abierto de Alibaba Tongyi Labs, con cuatro capacidades principales: funcionamiento entre aplicaciones, comprensión semántica difusa, interacción activa con el usuario y coordinación de procesos en varios pasos. Adoptando una arquitectura de colaboración extremo-nube, el modelo ligero reside en el dispositivo para gestionar las tareas diarias, y las tareas complejas pueden llamar a la nube big...

Últimos recursos sobre IA

hace 7 meses

052.6K

Lynx - 字节跳动开源的高保真视频生成模型

Lynx - Modelo de generación de vídeo de alta fidelidad de código abierto de ByteHop

Lynx es un modelo de generación de vídeo personalizado de alta fidelidad de código abierto de ByteDance que puede generar vídeos coherentes con la identidad con una sola foto de retrato. Basado en el modelo de difusión Transformer (DiT), la introducción de ID-adaptador y Ref-adaptador...

Últimos recursos sobre IA

hace 10 meses

052.5K

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

Ask o4 - Un modelo de pensamiento paralelo introducido por Ask o4 que abre 8 vías de pensamiento al mismo tiempo

Ask White o4 es un innovador modelo de pensamiento paralelo que abre 8 vías de pensamiento al mismo tiempo, analiza el problema desde múltiples perspectivas y filtra automáticamente la solución óptima. El modelo incorpora técnicas avanzadas de aprendizaje por refuerzo Long-CoT y aprendizaje por recompensa de procesos, tiene potentes capacidades de razonamiento profundo y rinde bien en tareas complejas.

Últimos recursos sobre IA

hace 11 meses

052.4K

美间：在线软装（家装）设计工具，快速生成设计方案，软装辅助AI工具箱

Meiman: herramientas de diseño en línea de mobiliario blando (decoración del hogar), generación rápida de soluciones de diseño, conjunto de herramientas de IA auxiliar de mobiliario blando.

Introducción exhaustiva Meiman es una plataforma en línea centrada en el diseño de viviendas y la negociación de marketing. El sitio ofrece una gran cantidad de materiales de diseño, mobiliario blando y plantillas de propuestas PPT, plantillas de carteles, etc. para ayudar a los diseñadores y propietarios de viviendas a generar rápidamente propuestas de diseño de alta calidad. La herramienta de diseño de mobiliario en línea de Meiman puede utilizarse en tan solo 10 segundos...

Últimos recursos sobre IA # Editor de imágenes AI # Presentación generada por AI/PPT

hace 1 año

052.2K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

Últimos recursos sobre IA

hace 7 meses

052.2K

GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - Modelo de agente GUI multimodal de código abierto por el equipo Steps

GELab-Zero es un modelo de agente GUI multimodal de código abierto creado por el equipo Step Leap, basado en el modelo Qwen3-VL-4B-Instruct con parámetros 4B. Puede reconocer elementos de interfaz de usuario y realizar operaciones como hacer clic, deslizar, etc., y admite tareas entre aplicaciones...

Últimos recursos sobre IA

hace 8 meses

052.2K

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network

DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...

Últimos recursos sobre IA

hace 10 meses

052.2K

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Navegador web de IA de código abierto basado en el núcleo de Firefox

Zen Browser es un navegador de código abierto basado en el núcleo de Firefox, centrado en una experiencia de navegación sencilla y eficiente, con características básicas como la barra de pestañas vertical y el aislamiento del espacio de trabajo. Con el diseño de barra lateral, puede mostrar claramente el título completo de más de 50 pestañas y soportar la navegación multi-ventana en pantalla dividida.

Últimos recursos sobre IA

hace 7 meses

051.9K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - El último modelo experimental de IA de código abierto de DeepSeek

DeepSeek-V3.2-Exp es un modelo experimental de IA de código abierto de DeepSeek que mejora significativamente la eficiencia del procesamiento de textos largos mediante la introducción del mecanismo DeepSeek Sparse Attention (DSA). El modelo se basa en DeepSeek...

Últimos recursos sobre IA

hace 10 meses

051.9K

MedASR - 谷歌开源的医疗语音识别模型

MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

MedASR es un modelo de reconocimiento del habla médica con 105 millones de parámetros, de código abierto de Google, perfeccionado con un corpus clínico desensibilizado de 5.000 horas, optimizado para la terminología de fármacos, dosis y anatomía, con un modelo de lenguaje médico integrado de 6 gramos y una tasa de error de palabra de sólo el 4,6 en el conjunto de datos privados de radiología RAD-DICT...

Últimos recursos sobre IA

hace 7 meses

051.7K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

Últimos recursos sobre IA

hace 7 meses

051.6K

Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Modelo de generación multimodal de audio unificado de código abierto Ant

Ming-UniAudio es el modelo de generación multimodal de audio unificado de código abierto de Ant Group que admite entrada y salida mixta de texto, audio, imagen y vídeo. Utilizando la arquitectura de transformadores multiescala y expertos mixtos (MoE) , a través del mecanismo de enrutamiento consciente de la modalidad para manejar eficientemente el cross-modal...

Últimos recursos sobre IA

hace 10 meses

051.6K

Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - La serie de modelos de lenguaje de arquitectura de Ant-Belling de código abierto

Ling-V2 es una familia de modelos lingüísticos a gran escala basados en la arquitectura MoE introducida por el equipo Ant-Belling. La primera versión, Ling-mini-2.0, tiene 16.000 millones de parámetros totales, con sólo 1.400 millones de parámetros activados por token de entrada.

Últimos recursos sobre IA

hace 10 meses

051.4K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

Últimos recursos sobre IA

hace 6 meses

051.3K

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA（MOSS-Video-and-Audio）是上海创智学院 OpenMOSS 团队联合模思智能（MOSI）开源的端到端音视频生成模型，是中国首个高性能开源音视频模型。突破了传统"先画面后配音...

Últimos recursos sobre IA

hace 6 meses

051.1K

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex: el modelo de programación más sólido introducido por OpenAI

GPT-5-Codex es un potente modelo de optimización de programación de OpenAI, mejorado por GPT-5 y diseñado para ingenieros de software. El modelo genera código de alta calidad con rapidez, es compatible con múltiples lenguajes de programación y optimiza el código existente para mejorar el rendimiento.

Últimos recursos sobre IA

hace 11 meses

051.1K

FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones

FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...

Últimos recursos sobre IA

hace 7 meses

050.9K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

Últimos recursos sobre IA

hace 6 meses

050.9K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

Últimos recursos sobre IA

hace 6 meses

050.9K

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - Modelo de generación de mundos interactivos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Fudan

Yume 1.5 es un modelo de generación de mundos interactivos de código abierto, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan y el Instituto de Investigación en Innovación de Shanghai, capaz de renderizar interactivamente en tiempo real (12 FPS en una sola tarjeta). Adopta la tecnología de modelado conjunto de canales espaciotemporales (TSCM), aunque la longitud del contexto aumente...

Últimos recursos sobre IA

hace 7 meses

050.8K

聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Modelo grande de base de ultrasonidos de código abierto de la Academia de Ciencias de Hong Kong

EchoCare es un gran modelo de base de ecografía desarrollado por el Centro de Inteligencia Artificial e Innovación Robótica (CAIR) del Instituto de Innovación e Investigación de Hong Kong, Academia China de Ciencias (CAS), entrenado en el mayor conjunto de datos de imágenes de ecografía del mundo (más de 4,5 millones de imágenes) que abarca múltiples centros, regiones, etnias y más de 50...

Últimos recursos sobre IA

hace 10 meses

050.7K

TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology, Tsinghua y otros marcos de aceleración de generación de vídeo de código abierto

TurboDiffusion es un marco de aceleración de generación de vídeo de código abierto desarrollado conjuntamente por la Universidad de Tsinghua, BioDigital Technology y UC Berkeley, capaz de mejorar la velocidad de generación de vídeo entre 100 y 200 veces manteniendo una calidad de imagen casi sin pérdidas. Mediante la atención lineal dispersa, la destilación por pasos de...

Últimos recursos sobre IA

hace 7 meses

050.5K

EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - Sistema operativo de memoria a largo plazo de código abierto por Team Shanda

EverMemOS es un sistema operativo de memoria a largo plazo de código abierto lanzado por el equipo de Shanda dirigido por Chen Tianqiao, diseñado para que las inteligencias artificiales resuelvan el problema de la rotura de memoria causada por la ventana de contexto fija de los grandes modelos de lenguaje. El sistema se basa en el mecanismo de memoria del cerebro humano, utilizando una arquitectura de cuatro capas (capa de agente, capa de memoria, capa de índice...

Últimos recursos sobre IA

hace 9 meses

050.4K

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Sistema de síntesis de voz industrial de código abierto de Smart Spectrum AI

GLM-TTS es un sistema de síntesis de voz industrial de código abierto con potentes funciones de síntesis de voz. Adopta una arquitectura de generación en dos etapas: la primera convierte el texto en secuencias de tokens de voz y la segunda convierte las secuencias de tokens en audio de alta calidad. El sistema admite sólo 3 segundos de muestras de voz para completar la...

Últimos recursos sobre IA

hace 8 meses

050.4K

Granite-Docling-258M - IBM开源的视觉语言模型

Granite-Docling-258M - Modelos de lenguaje visual de código abierto de IBM

Granite-Docling-258M es un modelo de lenguaje visual ultracompacto de código abierto de IBM diseñado para la conversión eficaz de documentos. El modelo convierte documentos a un formato legible por máquina conservando intactos el diseño, las tablas, las fórmulas y otros elementos.

Últimos recursos sobre IA

hace 10 meses

050.3K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

Últimos recursos sobre IA

hace 6 meses

050.3K

T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google

T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...

Últimos recursos sobre IA

hace 7 meses

050.3K

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Sistema de generación de vídeo en tiempo real de código abierto de Wisdom Spectrum AI

RealVideo es un sistema de generación de vídeo en tiempo real de código abierto de Smart Spectrum AI que puede generar rápidamente respuestas de vídeo naturales y fluidas en 2 o 3 segundos. Los usuarios solo tienen que subir una foto e introducir un texto, y el sistema genera la voz y el vídeo correspondientes, lo que permite dialogar en tiempo real con personajes de IA....

Últimos recursos sobre IA

hace 8 meses

050.3K

LazyCraft - 开源AI Agent应用开发与管理平台，基于LazyLLM构建

LazyCraft - Plataforma de desarrollo y gestión de aplicaciones de agentes de IA de código abierto, basada en LazyLLM

LazyCraft es una plataforma de desarrollo y gestión de aplicaciones de agentes de IA de código abierto creada por Shangtang basada en el marco de código abierto LazyLLM, que proporciona soluciones integrales de desarrollo de aplicaciones de IA para empresas y desarrolladores. Ayuda a los desarrolladores a construir y lanzar rápidamente grandes aplicaciones modelo con bajo umbral y bajo coste....

Últimos recursos sobre IA

hace 9 meses

050.2K

PromptFill - 开源的结构化提示词生成AI工具，专为AI绘画设计

PromptFill - Herramienta de código abierto de generación de palabras clave estructuradas diseñada para la pintura de IA

PromptFill es una herramienta de generación de indicaciones estructurada diseñada para el dibujo de IA, que ayuda a los usuarios a crear, gestionar e iterar rápidamente indicaciones complejas mediante interacciones visuales de "rellenar los espacios en blanco", mejorando la eficacia y la calidad de la generación de imágenes de IA.Las características principales de PromptFill...

Últimos recursos sobre IA

hace 7 meses

050.1K

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - Modelos de reconstrucción visual 3D de código abierto por Bitmap Seed

Depth Anything 3 (DA3) es un modelo de reconstrucción visual 3D desarrollado y de código abierto por el equipo de Byte Jump Seed. A través de una única arquitectura Transformer para lograr la reconstrucción de la geometría espacial en cualquier punto de vista, sólo tiene que predecir el mapa de profundidad y mapa de rayos puede restaurar la escena 3D, en comparación con...

Últimos recursos sobre IA

hace 8 meses

050K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

Últimos recursos sobre IA

hace 7 meses

050K

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型，参数规模为 19.6 亿。专为智能体任务设计，具备强大的“原生智能体能力”，在多项任务中超越同规模甚至更大模型。

Últimos recursos sobre IA

hace 7 meses

049.9K

Más información