Últimos recursos sobre IA

共 3143 篇文章

Información sobre el curso Últimos recursos sobre IA Base de conocimientos de IA Noticias AI

ordenar

hojear Marcador (Internet)

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - Wisdom Source Research Institute modelo de encarnación generalizado de ontología cruzada de muestra cero de código abierto

RoboBrain-X0 es el primer modelo encarnado de código abierto del mundo que admite la generalización entre ontologías de muestra cero, de código abierto por el Wisdom Source Research Institute, que tiene una gran importancia para la industria. Puede controlar varios robots reales de distintas configuraciones para realizar tareas básicas sin necesidad de ajuste fino y, tras un pequeño ajuste fino de la muestra, demuestra la capacidad de reproducir ...

Últimos recursos sobre IA

hace 10 meses

049.9K

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - Modelo de generación de vídeo ligero de código abierto y gratuito Tencent mixed yuan

HunyuanVideo 1.5 es un modelo de generación de vídeo ligero de código abierto de Tencent hybrid big model team , basado en la arquitectura Diffusion Transformer (DiT) , el número de parámetros es de 8.3B. soporta la generación de 5-10 segundos de vídeo de alta definición , sub...

Últimos recursos sobre IA

hace 8 meses

049.8K

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统，专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术，自动存储关键帧并在后续生成时参考，确保人物外貌、服装、场景元素...

Últimos recursos sobre IA

hace 7 meses

049.7K

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

HunyuanOCR es un modelo de reconocimiento óptico de caracteres de alto rendimiento de código abierto creado por el equipo híbrido de Tencent, con sólo 1.000 millones de referencias. Desarrollado sobre la base de la arquitectura multimodal híbrida, adopta un diseño integral y puede gestionar eficazmente tareas de detección y reconocimiento de texto y análisis sintáctico de documentos. El modelo obtuvo 94,1 puntos en la prueba de documentos complejos, superando...

Últimos recursos sobre IA

hace 8 meses

049.7K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

Últimos recursos sobre IA

hace 6 meses

049.6K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

Últimos recursos sobre IA

hace 7 meses

049.5K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

Últimos recursos sobre IA

hace 7 meses

049.3K

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - La nueva generación de modelos de programación de Mistral AI

Devstral 2 es una familia de modelos de programación de nueva generación diseñados para tareas de ingeniería de software de Mistral AI, que consta de las versiones Devstral 2 (parámetro 123B) y Devstral Small 2 (parámetro 24B).D...

Últimos recursos sobre IA

hace 8 meses

049.3K

nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - el proyecto de formación de modelos de bajo coste, gratuito y de código abierto de Karpathy

nanochat es un proyecto de código abierto lanzado por Andrej Karpathy, leyenda de la IA y antiguo Director de IA de Tesla, que permite a los particulares entrenar rápidamente un pequeño modelo de lenguaje similar a ChatGPT con un coste y una simplicidad muy bajos. Todo el proyecto utiliza sólo unos 800...

Últimos recursos sobre IA

hace 10 meses

049.2K

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - Modelo de visión-lenguaje-acción de código abierto de NVIDIA con capacidad de razonamiento

Alpamayo-R1 es un modelo Visión-Lenguaje-Acción (VLA) desarrollado por NVIDIA con capacidad de razonamiento, diseñado para mejorar la capacidad de toma de decisiones de la conducción autónoma en escenarios complejos. Mediante la introducción de un mecanismo de razonamiento de cadena causal, el vehículo es capaz de analizar la causalidad del escenario (por ejemplo, "debido a...

Últimos recursos sobre IA

hace 8 meses

049.1K

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks

VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...

Últimos recursos sobre IA

hace 9 meses

049K

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型，突破传统视觉语言模型（VLM）仅能理解图像文字的局限，通过在机器人操作数据上的持续预训练，实现从"图文理解"向具备物理常...

Últimos recursos sobre IA

hace 6 meses

049K

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO: el primer modelo de voz de código abierto de Logic Intelligence

LLaSO es un modelo del habla de código abierto lanzado por Beijing Depth Logic Intelligence Technology Co. Ltd, que resuelve los problemas de dispersión de datos e insuficiente cobertura de tareas en el campo del modelado del lenguaje del habla a gran escala integrando datos del habla y del texto y proporcionando conjuntos de datos de alineación, conjuntos de datos de ajuste de comandos y puntos de referencia de evaluación.

Últimos recursos sobre IA

hace 11 meses

048.9K

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - Proyecto de código abierto de la NUS para generar automáticamente vídeos de demostración de trabajos académicos

Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....

Últimos recursos sobre IA

hace 10 meses

048.8K

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA - Sistema de AI de código abierto para el servicio postventa que ayuda a las empresas a crear rápidamente plataformas de preguntas y respuestas

KoalaQA es un sistema de servicio posventa inteligente de código abierto desarrollado por el equipo de Chaitin. Basado en el modelo de IA, proporciona funciones de servicio al cliente de IA, búsqueda de IA y gestión de base de conocimientos para ayudar a las empresas a crear rápidamente una plataforma inteligente de preguntas y respuestas. El sistema permite responder en tiempo real 24/7 ...

Últimos recursos sobre IA

hace 8 meses

048.6K

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...

Últimos recursos sobre IA

hace 10 meses

048.5K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Meta serie de modelos de inferencia eficientes especializados de código abierto

MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...

Últimos recursos sobre IA

hace 11 meses

048.4K

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied: el modelo pedestal de inteligencia incorporada multidominio de código abierto de Xiaomi

MiMo-Embodied es el primer modelo base del mundo basado en la inteligencia artificial y la conducción autónoma. Resuelve el problema de la migración de conocimientos entre la IA incorporada y la conducción autónoma, y logra un modelado unificado de tareas en los dos dominios.

Últimos recursos sobre IA

hace 8 meses

048.4K

OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci: el modelo de gran lenguaje omnimodal de código abierto de NVIDIA

OmniVinci es un modelo lingüístico a gran escala, totalmente modal y de código abierto desarrollado por NVIDIA que resuelve el problema de la fragmentación modal en modelos multimodales mediante la innovación arquitectónica y la optimización de datos. La alineación de las incrustaciones visuales y sonoras se mejora mediante OmniAlignNet, que utiliza la captura de grupos incrustada temporalmente....

Últimos recursos sobre IA

hace 9 meses

048.4K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - "Cerebro" de funcionamiento del sistema dual encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

InternVLA-M1 es un "cerebro" operativo encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, que es un gran modelo de funcionamiento de dos sistemas orientado al seguimiento de instrucciones. Construye un bucle cerrado completo que abarca "pensar-actuar-aprender" y es responsable del razonamiento espacial de alto nivel y de la planificación de tareas. El modelo adopta una política de entrenamiento en dos etapas...

Últimos recursos sobre IA

hace 11 meses

048.3K

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Modelo de representación de texto genérico de código abierto de Tencent Youtu

Youtu-Embedding es un modelo de representación de texto universal de código abierto de Youtu Labs de Tencent, diseñado para aplicaciones de nivel empresarial. El texto se mapea en un espacio vectorial de alta dimensión mediante redes neuronales profundas, de modo que las frases semánticamente similares están más cerca unas de otras en ese espacio, logrando una recuperación semántica precisa.

Últimos recursos sobre IA

hace 10 meses

048.1K

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

Fun-Audio-Chat-8B es un gran modelo de voz integral de 8.000 millones de parámetros de código abierto creado por el equipo de Ali Tongyi, con entrada directa de voz y salida de voz, sin necesidad de empalme ASR+LLM+TTS, bilingüe fluido en chino e inglés, con baja latencia y timbre natural. Utiliza LLM compartido de doble resolución con 25 Hz...

Últimos recursos sobre IA

hace 7 meses

047.9K

FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - El primer texto JSON de código abierto del mundo con soporte nativo para generar modelos de imagen

FIBO es el primer modelo de imagen de generación de texto de código abierto del mundo con soporte nativo JSON desarrollado por Bria AI. Basado en la arquitectura DiT (Diffusion Transformer) con 8B parámetros, adopta el método de entrenamiento Flow Matching....

Últimos recursos sobre IA

hace 9 meses

047.9K

Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型

Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型

Intern-S1-Pro是上海人工智能实验室开源的全球首个万亿参数级科学多模态大模型。采用512专家MoE架构，激活仅8专家22B参数，兼顾性能与效率。模型基于SAGE架构，引入傅里叶位置编码，统一...

Últimos recursos sobre IA

hace 6 meses

047.9K

LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking: un modelo de razonamiento eficiente para Meituan Open Source

LongCat-Flash-Thinking es un modelo de razonamiento eficiente lanzado por el equipo de LongCat en Mission LongCat, cada vez más potente y profesional a la vez que mantiene la velocidad extrema de LongCat-Flash-Chat. El modelo se basa en la lógica, las matemáticas, el código, la inteligencia...

Últimos recursos sobre IA

hace 10 meses

047.8K

DeepSeek-TUI - 开源终端 AI 编程智能体，终端原生 TUI 界面

DeepSeek-TUI - 开源终端 AI 编程智能体，终端原生 TUI 界面

DeepSeek-TUI 是美国独立开发者 Hunter Bown（GitHub: Hmbown）用 Rust 语言编写的开源终端 AI 编程智能体，专为 DeepSeek V4 系列模型（Pro/F...

Últimos recursos sobre IA

hace 3 meses

047.8K

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto

WorldMirror 1.1 (WorldMirror) es una reconstrucción 3D de código abierto de grandes modelos lanzada por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la reconstrucción 3D tradicional que sólo se basa en...

Últimos recursos sobre IA

hace 9 meses

047.7K

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI - Vídeo AI de código abierto a la herramienta de pantalla dividida dibujado a mano, soporte de la estación B, pequeño libro rojo

ClipSketch AI es una herramienta de código abierto de conversión de vídeo a pantalla dividida dibujada a mano diseñada para creadores de vídeos cortos. Puede convertir vídeos de B station, Xiaohongshu y otras plataformas en storyboards de estilo dibujado a mano en un solo clic, admite el marcado de fotogramas clave, la generación automática de subescenas y social copy, y puede integrar roles definidos por el usuario.

Últimos recursos sobre IA

hace 7 meses

047.7K

RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型

RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型

RynnBrain 是阿里巴巴达摩院开源的具身智能大脑基础模型，为机器人提供深度环境理解和物理世界交互能力。是业界首个赋予机器人时空记忆和物理空间推理能力的开源模型。包含2B、8B、30B等7个不同参...

Últimos recursos sobre IA

hace 6 meses

047.6K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Pensamiento - Modelo de pensamiento razonador de código abierto de Baidu

ERNIE-4.5-21B-A3B-Thinking es el modelo de lenguaje a gran escala de código abierto de Baidu centrado en tareas de razonamiento. Utilizando la arquitectura Mixed Expert (MoE) , el número total de referencias a 21 mil millones , cada token activa 3 mil millones de parámetros para soportar 128K ventana de contexto largo ...

Últimos recursos sobre IA

hace 11 meses

047.6K

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Modelo de agente de IA de código abierto para teléfonos móviles de Smart Spectrum AI

OpenAutoGLM es un modelo corporal inteligente de código abierto con capacidad de "uso del teléfono móvil", que puede comprender el contenido de la pantalla del teléfono móvil mediante la percepción multimodal, y generar automáticamente el flujo de operaciones para completar las tareas especificadas por el usuario. Los usuarios sólo tienen que utilizar el lenguaje natural para describir las necesidades, como "abrir Meituan para buscar una olla caliente cercana...".

Últimos recursos sobre IA

hace 8 meses

047.4K

ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit: NVIDIA y la Universidad de Toronto abren un marco de edición de imágenes basado en IA

ChronoEdit, un marco de edición de imágenes de IA de código abierto desarrollado conjuntamente por NVIDIA y la Universidad de Toronto, redefine la tarea de edición de imágenes como una tarea de generación de vídeo para garantizar que los resultados de la edición sean coherentes temporal y físicamente. Mediante la destilación de un modelo de generación de vídeo preentrenado con 14B...

Últimos recursos sobre IA

hace 9 meses

047.3K

Glow - 开源的命令行工具，支持在终端渲染Markdown文件

Glow - herramienta de línea de comandos de código abierto que permite renderizar archivos Markdown en el terminal

Glow es una herramienta de línea de comandos de código abierto para la representación elegante de archivos Markdown en el terminal. La herramienta permite resaltar bloques de código , fórmulas matemáticas y otros elementos complejos , proporcionando una gran cantidad de características tales como estilos personalizados , visualización de paginación , soporte de ratón y así sucesivamente.

Últimos recursos sobre IA

hace 9 meses

047.3K

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - La Universidad de Macao y otros de código abierto en tiempo real AI retrato animación generación marco vivo

PersonaLive es un marco de código abierto para la transmisión en directo de intercambio de rostros de IA en tiempo real, desarrollado conjuntamente por la Universidad de Macao, dzine.ai y el GVC Lab de la Universidad de la Gran Área de la Bahía. Puede lograr una baja latencia y una alta velocidad de fotogramas en la transmisión digital de personas con tarjetas gráficas ordinarias de consumo (12 GB de memoria de vídeo), y soportar en tiempo real a través de la cámara...

Últimos recursos sobre IA

hace 7 meses

047.2K

Infographic - 阿里AntV团队开源的信息图生成框架

Infografía - Marco de generación de infografías de código abierto del equipo Ali AntV

Infographic es una nueva generación de marco de código abierto del equipo Ali AntV , basado en el desarrollo G2 y Ant Design , centrándose en la rápida generación de infografías de alta calidad , proporcionando 30 + plantillas de diseño , 120 + temas preestablecidos y capacidades de generación inteligente AI .

Últimos recursos sobre IA

hace 7 meses

047.1K

Frappe Builder - 开源的AI低代码网站构建工具，拖拽组件快速搭建

Frappe Builder - Constructor de sitios web de código bajo, componentes de arrastrar y soltar para una construcción rápida.

Frappe Builder es un constructor de sitios web de código abierto, desarrollado por Frappe, la característica principal es proporcionar un editor visual similar a Figma que soporta componentes de arrastrar y soltar para construir sitios web rápidamente. Forma parte de la ecología Frappe (Frappeverse)...

Últimos recursos sobre IA

hace 9 meses

047.1K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

Últimos recursos sobre IA

hace 7 meses

047.1K

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Modelo de asistente informático de código abierto de Microsoft

Fara-7B es una versión de código abierto de Microsoft de un modelo de agente operado por ordenador (CUA) a escala de 7.000 millones de parámetros basado en la arquitectura Qwen 2.5-VL-7B. Al analizar visualmente capturas de pantalla de páginas web y realizar clics, entradas, etc. en la pantalla, no necesita depender de árboles de accesibilidad adicionales ni de múltiples modelos de gran tamaño...

Últimos recursos sobre IA

hace 8 meses

047K

Kimi Work - 月之暗面 Kimi 推出的桌面端产品

Kimi Work - 月之暗面 Kimi 推出的桌面端产品

Kimi Work 是月之暗面（Moonshot AI）公测的桌面端产品，为面向知识工作者的通用型本地 Agent。将 Kimi Code 在工程场景中验证过的本地 Agent 能力，迁移到普通知识工...

Últimos recursos sobre IA

hace 2 meses

046.8K

SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - Herramienta de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos con inteligencia artificial

SmartResume es la herramienta inteligente de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos que extrae eficazmente información estructurada, como datos básicos, formación y experiencia laboral, de documentos PDF, imágenes u Office. Mediante la integración de tecnología OCR y metadatos PDF...

Últimos recursos sobre IA

hace 9 meses

046.8K

觅游 - 美团推出的 AI 原生共生社区

觅游 - 美团推出的 AI 原生共生社区

觅游（Meyo）是美团基础研发 AI 创新产品团队推出的 AI 原生共生社区，目前已进入公测阶段。产品以"养虾"为核心隐喻，将 AI Agent 升级为拥有身份、MBTI 人格、社交关系与成长属性的...

Últimos recursos sobre IA

hace 3 meses

046.7K

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型（Agentic VLM），提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具（如...

Últimos recursos sobre IA

hace 6 meses

046.7K

Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - Conjunto de datos robóticos de código abierto sobre la perspectiva en primera persona de Build AI

Egocentric-10K es un conjunto de datos de vídeo a gran escala de operaciones de fábrica con vista en primera persona (egocéntrica) de código abierto del equipo build.ai. El conjunto de datos contiene 10.000 horas de vídeo, con un total de 1.080 millones de...

Últimos recursos sobre IA

hace 9 meses

046.6K

MoMA - 中国移动发布的一站式AI模型服务平台

MoMA - 中国移动发布的一站式AI模型服务平台

MoMA（Mobile Model Access）是中国移动发布的一站式AI模型服务平台。平台接入超300款业界主流AI模型，包括自研"九天"基座大模型及DeepSeek、通义千问、豆包、Kimi...

Últimos recursos sobre IA

hace 3 meses

046.5K

Clawith - DataElem 团队开源的多智能体协作平台

Clawith - DataElem 团队开源的多智能体协作平台

Clawith 是 DataElem 团队开源的"OpenClaw for Teams"——面向团队的多智能体协作平台。在保留 OpenClaw 灵魂与记忆能力的基础上，升级为 Aware 自主感知系...

Últimos recursos sobre IA

hace 5 meses

046.4K

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

Step-Audio-EditX es un macromodelo de edición de audio de código abierto, desarrollado por el equipo Step-Star, que se centra en la manipulación precisa del contenido de audio mediante tecnología de inteligencia artificial. El modelo puede ajustar dinámicamente el estado de ánimo del audio, el estilo de habla (como petulante, acento de anciano, etc.) y los elementos paralingüísticos (como risas, suspiros...

Últimos recursos sobre IA

hace 9 meses

046.2K

OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - Proyecto de colaboración libre y de código abierto para crear redes de agentes de IA

OpenAgents es el proyecto de código abierto que crea una red de agentes de IA y facilita la colaboración abierta entre agentes. Se proporciona una infraestructura de red básica para que los agentes de IA puedan conectarse y colaborar sin problemas. Los usuarios pueden crear rápidamente su propia red de agentes, ampliar la funcionalidad mediante una arquitectura modular,...

Últimos recursos sobre IA

hace 10 meses

046.1K

Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - Plataforma de desarrollo de flujos de trabajo inteligentes de código abierto para empresas de KDDI

Astron Agent es una plataforma de desarrollo de flujo de trabajo inteligente de grado empresarial de código abierto de KDDI , centrándose en ayudar a las empresas a construir rápidamente una aplicación de agente AI aterrizable . Utilizando la pila de tecnología Java + Spring Boot , soporte para el despliegue privado ligero (configuración mínima de 2 núcleos 4G) , incorporado ...

Últimos recursos sobre IA

hace 9 meses

046.1K

SAM 3D - Meta开源的3D重建模型系列

SAM 3D - Meta serie de modelos de reconstrucción 3D de código abierto

SAM 3D es un modelo de reconstrucción 3D basado en la serie SAM de Meta, que incluye dos ramas, SAM 3D Objects y SAM 3D Body. SAM 3D Objects puede generar modelos de objetos 3D interactivos a partir de una sola foto, soportando...

Últimos recursos sobre IA

hace 8 meses

046K

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense - Herramientas de código abierto para la investigación en IA y la gestión del conocimiento, Las pintas más fuertes de NotebookLM

SurfSense es una herramienta de investigación y gestión del conocimiento de IA de código abierto. Altamente personalizable, puede conectarse a motores de búsqueda, Slack, Jira, Notion, YouTube, GitHub y muchas otras fuentes de datos externas para facilitar la integración de la información. Los usuarios pueden cargar...

Últimos recursos sobre IA

hace 8 meses

046K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - Modelo multimodal gratuito y de código abierto para una comprensión multimodal de alto rendimiento

LLaVA-OneVision-1.5 es un modelo multimodal de código abierto del equipo EvolvingLMMS-Lab, que utiliza la escala de parámetros 8B, mediante un proceso de entrenamiento compacto en tres etapas (alineación lenguaje-imagen, equilibrio conceptual e inyección de conocimientos, y ajuste fino de instrucciones) en 128 A800....

Últimos recursos sobre IA

hace 10 meses

045.7K

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Step 3.5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型，每 token 仅激活 110 亿参数，能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 ...

Últimos recursos sobre IA

hace 6 meses

045.5K

Mamoda2.5 - 字节跳动 Mamoda Team 推出的统一多模态生成模型

Mamoda2.5 - 字节跳动 Mamoda Team 推出的统一多模态生成模型

Mamoda2.5 是字节跳动 Mamoda Team 研发的全球首个 25B 级统一多模态生成模型，模型基于自回归-扩散（AR-Diffusion）框架，采用 Qwen3-VL-8B 理解模块与 D...

Últimos recursos sobre IA

hace 3 meses

045.5K

VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - Weibo AI abre un modelo lingüístico a gran escala con 1.500 millones de parámetros

VibeThinker-1.5B es un modelo lingüístico a gran escala de 1.500 millones de parámetros de código abierto de Weibo AI. Basado en el modelo Qwen2.5-Math-1.5B de Alibaba, está optimizado para tareas matemáticas y de codificación y ofrece un rendimiento de inferencia líder en el sector.

Últimos recursos sobre IA

hace 9 meses

045.4K

SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - framework de código abierto de la Universidad Jiao Tong de Shanghai para generar escenas 3D a partir de una sola imagen

SceneGen es un método de código abierto para generar escenas 3D a partir de una sola imagen de la Universidad Jiao Tong de Shanghai. A partir de una sola imagen de escena y una máscara de recursos de destino, se genera eficazmente una escena completa que contiene múltiples recursos 3D, incluida la estructura geométrica de los recursos, la textura y la ubicación espacial relativa.

Últimos recursos sobre IA

hace 10 meses

045.4K

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建，融合三维重建、视觉生成技术与物理引擎，实现毫米级精准复刻真实环境，通过自然语言指...

Últimos recursos sobre IA

hace 7 meses

045.4K

Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - Google abre recursos gratuitos sobre cómo crear aplicaciones de IA en Android

Androidify es el proyecto de código abierto de Google para ayudar a los desarrolladores a aprender a crear aplicaciones basadas en IA en Android. El proyecto utiliza las últimas tecnologías de Google, como Jetpack Compose, Gemini API (a través de Fire...

Últimos recursos sobre IA

hace 10 meses

045.4K

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - aplicación gráfica de escritorio de código abierto diseñada para Claude Code

opcode está diseñado para Claude Code de código abierto aplicación gráfica de escritorio , el desarrollador winfunc basado en Tauri 2 + React 18 + Rust desarrollo . Proporciona una interfaz visual para gestionar proyectos Claude Code , soporte para la creación de...

Últimos recursos sobre IA

hace 7 meses

045.3K

LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - Un modelo de gran lenguaje completamente modal para Meituan Open Source

LongCat-Flash-Omni es un modelo de gran lenguaje de código abierto totalmente modal lanzado por el equipo LongCat de Meituan. Con una escala de parámetros de 560.000 millones (27.000 millones de parámetros activados), consigue capacidades de interacción de audio y vídeo en tiempo real de nivel de milisegundos manteniendo un gran número de parámetros.

Últimos recursos sobre IA

hace 9 meses

045.1K

ArkClaw - 火山引擎推出的云端AI助手，零门槛部署OpenClaw

ArkClaw - 火山引擎推出的云端AI助手，零门槛部署OpenClaw

ArkClaw是火山引擎推出的云端智能助手平台，基于OpenClaw架构构建，让用户无需繁琐配置可快速部署专属AI Agent。

Últimos recursos sobre IA

hace 5 meses

045K

OpenCLI - 开源 AI 命令行工具框架，任何网站变成命令行

OpenCLI - 开源 AI 命令行工具框架，任何网站变成命令行

OpenCLI是开源的命令行工具框架，将网站、Electron应用和本地命令行工具统一转化为可通过命令行操作的接口，将网站（如B站、知乎、Twitter等）和Electron应用（如Cursor、No...

Últimos recursos sobre IA

hace 4 meses

045K

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - Macromodelo totalmente modal de código abierto del Grupo Ant

Ming-flash-omni-Preview es un macromodelo full-modal de código abierto lanzado por Ant Group inclusionAI, con una escala de parámetros de cientos de miles de millones, basado en la arquitectura sparse MoE de Ling 2.0, con parámetros totales de 103B y activaciones de 9B. en la comprensión full-modal y la generación...

Últimos recursos sobre IA

hace 9 meses

044.6K

NocoBase - 免费开源的AI无代码开发平台，可视化构建应用

NocoBase - Plataforma de desarrollo de IA sin código, gratuita y de código abierto, para crear aplicaciones de forma visual.

NocoBase se basa en la plataforma de desarrollo sin código de código abierto impulsado por IA , el apoyo a la rápida construcción de sistemas de negocio , sin programación se puede completar a través de la configuración del desarrollo de aplicaciones . El proyecto utiliza el protocolo Apache-2.0 , proporciona despliegue privado y escalabilidad flexible , adecuado para la gestión empresarial , plataformas de colaboración y otros campos ...

Últimos recursos sobre IA

hace 9 meses

044.6K

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - Racer de código abierto de programación libre de modelos específicos

KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...

Últimos recursos sobre IA

hace 10 meses

044.6K

TalkCody - 免费开源的AI编程桌面助手，支持复杂任务

TalkCody - Asistente de escritorio de programación de IA gratuito y de código abierto con soporte para tareas complejas

TalkCody es una aplicación de escritorio de asistente de programación de AI gratuita y de código abierto , construida sobre Rust + Tauri 2 , soporte para Windows, macOS y Linux tres plataformas , con rendimiento nativo , inicio rápido y ventajas de bajo uso de recursos . Soporte para más de 50 A...

Últimos recursos sobre IA

hace 8 meses

044.6K

MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - Sistema de memoria de IA de código abierto de MemVerge

MemMachine es un sistema de memoria de IA de código abierto desarrollado por MemVerge, diseñado para modelos e inteligencias de IA, que puede almacenar y recuperar datos de interacción como el cerebro humano, resolviendo el problema de la "pérdida de memoria sin estado" de la IA. Adopta una arquitectura en capas (memoria a corto plazo, memoria a largo plazo, imagen de usuario...

Últimos recursos sobre IA

hace 8 meses

044.3K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

Últimos recursos sobre IA

hace 6 meses

044.2K

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK: el entorno de código abierto de Alibaba para el entrenamiento corporal inteligente

ROCK (Reinforcement Open Construction Kit) es el sandbox de código abierto de Alibaba para el entorno de entrenamiento de inteligencias, que resuelve el problema de que las inteligencias no pueden entrenarse a escala en entornos reales.ROCK proporciona un servicio de gestión de sandbox altamente estable...

Últimos recursos sobre IA

hace 8 meses

044.2K

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Gran modelo de conversión de voz de código abierto de la Universidad de Fudan

MOSS-Speech es un gran modelo de voz a voz (Speech-to-Speech) de código abierto del equipo del profesor Qiu Xipeng, de la Universidad de Fudan. Rompe con el procesamiento tradicional del habla, sin necesidad de guía textual, y comprende y genera directamente el habla, que puede capturar elementos no textuales como la entonación y la emoción, haciendo...

Últimos recursos sobre IA

hace 8 meses

044.2K

GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动

GigaBrain-0 - Modelo básico encarnado de código abierto basado en datos de generación de modelos mundiales

GigaBrain-0 es el primer modelo de base encarnada Visión-Lenguaje-Acción (VLA) integral de China que utiliza datos de generación de modelos mundiales para lograr una generalización real de la máquina, y está publicado conjuntamente como código abierto por GigaVision y el Centro de Innovación en Robótica Humanoide de Hubei. Adopta la arquitectura híbrida Transformer, que fusiona ...

Últimos recursos sobre IA

hace 9 meses

044K

Anijam - Dzine 推出的端到端一体化 AI 动画创作平台

Anijam - Dzine 推出的端到端一体化 AI 动画创作平台

Anijam 是 Dzine 推出的 AI 驱动动画创作平台，用 AI Agent 为任何故事制作动画。并非简单的单片段视频生成工具，是一个端到端的一体化动画工作室。

Últimos recursos sobre IA

hace 3 meses

043.9K

小艺Claw - 华为推出的个人手机AI助理，一键接入OpenClaw

小艺Claw - 华为推出的个人手机AI助理，一键接入OpenClaw

小艺Claw是华为基于OpenClaw开源框架推出的AI智能体，集成于小艺App中。小艺Claw打破传统语音助手"被动应答"的交互逻辑，具备自主规划与任务执行能力，可独立完成办公文档处理、信息检索、服...

Últimos recursos sobre IA

hace 5 meses

043.6K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

Últimos recursos sobre IA

hace 7 meses

043.6K

Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - Marco de reconocimiento del habla multilingüe de Meta

Omnilingual ASR es un marco de reconocimiento del habla multilingüe introducido por Meta, que cubre más de 1600 idiomas, con una tasa de error de caracteres lingüísticos 78% inferior a 10%. Su codificador wav2vec 2.0 de 7.000 millones de parámetros, combinado con el decodificador CTC y Transformer, admite...

Últimos recursos sobre IA

hace 9 meses

043.6K

Paperclip - 开源的AI Agent编排平台，管理和协调多个AI智能体

Paperclip - 开源的AI Agent编排平台，管理和协调多个AI智能体

Paperclip是开源的AI代理编排平台，定位为“零人工公司操作系统”，用于管理和协调多个AI代理（如OpenClaw、Claude Code等）协同工作。提供组织架构、目标对齐、预算控制、任务追踪...

Últimos recursos sobre IA

hace 5 meses

043.6K

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - La máquina de la Fuerza Espíritu de código abierto inteligencia corporal modelo VLA plataforma de servicios de investigación de ventanilla única.

Dexbotic es el modelo de código abierto Visual-Lingüística-Acción (VLA) de la plataforma de servicios de investigación de ventanilla única de inteligencia incorporada de Dexmal, que resuelve los problemas de fragmentación y baja eficiencia de la investigación en el campo de la inteligencia incorporada. Basado en PyTorch, Dexbotic es una plataforma de servicios de investigación de ventanilla única para resolver los problemas de fragmentación y baja eficiencia en el campo de la inteligencia corporal....

Últimos recursos sobre IA

hace 9 meses

043.5K

Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina: plataforma descentralizada de aprendizaje automático de código abierto desarrollada por la Universidad Técnica de Múnich en colaboración con la Universidad de Michigan.

Koina es una plataforma de aprendizaje automático descentralizada y de código abierto cuyo objetivo es simplificar el análisis de datos proteómicos. Ha sido desarrollada por un equipo de la Universidad Técnica de Múnich (Alemania) y la Universidad de Michigan (EE.UU.). La plataforma integra más de 30 modelos principales (por ejemplo, ProSIT, MS²PIP) a través de una interfaz estandarizada y admite...

Últimos recursos sobre IA

hace 9 meses

043.4K

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat

LongCat-Audio-Codec es una solución de códec de voz de código abierto del equipo LongCat de Meituan. La solución está diseñada para Speech Large Language Model (Speech LLM), a través del mecanismo de extracción en paralelo Token dual semántico y acústico , teniendo en cuenta las características semánticas y acústicas del habla ...

Últimos recursos sobre IA

hace 9 meses

043.4K

DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - Plataforma de evaluación comparativa de código abierto JetBrains para programación de IA

DPAI Arena (Developer Productivity AI Arena) es una plataforma de evaluación comparativa abierta creada por JetBrains para medir la eficacia de las herramientas de desarrollo asistidas por IA en tareas de ingeniería de software del mundo real. A través de un flujo de evaluación transparente...

Últimos recursos sobre IA

hace 9 meses

043.4K

NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - NewBieAI-Lab modelos gráficos experimentales alfabetizados en anime de código abierto

NewBie-image-Exp0.1 es el primer modelo gráfico experimental de anime nacido de texto y de código abierto del equipo NewBieAI-Lab, que utiliza la arquitectura Next-DiT con parámetros 3.5B, optimizada para el estilo secundario. El modelo está optimizado para el estilo secundario mediante un codificador de texto dual (GEMMA3-4B...

Últimos recursos sobre IA

hace 8 meses

043.3K

Supertonic - 开源的高性能AI 文本转语音系统，极速离线运行

Supertonic - Sistema AI de conversión de texto en voz de código abierto y alto rendimiento que funciona offline a velocidades de vértigo.

Supertonic es un sistema de texto a voz (TTS) de código abierto y alto rendimiento centrado en la generación rápida de voz en dispositivos locales. Gracias a la tecnología ONNX Runtime, puede ejecutarse en dispositivos como teléfonos móviles, ordenadores e incluso Raspberry Pi, admite 23 idiomas y clones de voz, y no requiere red....

Últimos recursos sobre IA

hace 8 meses

043.3K

Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Nuevo marco de desarrollo de agentes de IA de código abierto de Moonshot AI

Kosong es un nuevo marco de desarrollo de agentes de IA de código abierto de Moonshot AI, que proporciona a los desarrolladores un soporte subyacente ligero, flexible y altamente escalable para crear aplicaciones de cuerpos inteligentes de próxima generación. Con un motor de programación de herramientas asíncrono que programa eficientemente múltiples herramientas...

Últimos recursos sobre IA

hace 9 meses

042.9K

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - Proyecto de réplica de código abierto basado en el modelo DeepSeek-OCR

DeepOCR es un proyecto de replicación de código abierto que implementa la arquitectura central de DeepSeek-OCR, que procesa eficientemente información textual mediante técnicas de compresión óptica. El núcleo es DeepEncoder, que consta de SAM-base (procesamiento de imágenes de alta resolución), compresor convolucional de 16×...

Últimos recursos sobre IA

hace 9 meses

042.8K

InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - Marco de generación de vídeo autorregresivo espaciotemporal unificado de código abierto Byte

InfinityStar es un marco autorregresivo espaciotemporal unificado de código abierto de ByteDance, diseñado para la generación de imágenes y vídeos de alta resolución. Utilizando un enfoque autorregresivo discreto, puede gestionar simultáneamente tareas de texto a imagen, texto a vídeo e imagen a vídeo en un único modelo. El marco se evalúa en VBench ...

Últimos recursos sobre IA

hace 9 meses

042.7K

UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - Una nueva generación de modelos de edición de imágenes lanzada por RabbitShow Intelligence y la Universidad de Pekín

UniWorld V2 es un modelo de edición de imágenes de nueva generación lanzado conjuntamente por RabbitZhan Intelligence y el equipo UniWorld de la Universidad de Pekín. Presenta ventajas significativas en el campo de la edición de imágenes, especialmente en la comprensión del chino y la ejecución de comandos complejos. El modelo puede representar con precisión fuentes chinas artísticas y...

Últimos recursos sobre IA

hace 9 meses

042.6K

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Serie de modelos multilingües multimodales de código abierto Wisdom Spectrum AI

GLM-4.6V es una serie de grandes modelos lingüísticos multimodales de código abierto de Smart Spectrum AI. La serie contiene dos versiones: GLM-4.6V (106B-A12B), la versión base para escenarios de nube y clúster de alto rendimiento, con la arquitectura Mixed Expert (MoE), un total de unos 106.000 millones de referencias y una activación...

Últimos recursos sobre IA

hace 8 meses

042.5K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

Últimos recursos sobre IA

hace 6 meses

042.4K

MiroFish - 开源的AI预测引擎，智能体进行自由交互与社会演化

MiroFish - 开源的AI预测引擎，智能体进行自由交互与社会演化

MiroFish是中科大20岁学生BaiFu开源的AI预测引擎，基于多智能体技术，能从新闻、小说等种子信息自动构建高保真平行数字世界。

Últimos recursos sobre IA

hace 5 meses

042.4K

Gemma 4 12B - 谷歌开源的多模态 AI 模型

Gemma 4 12B - 谷歌开源的多模态 AI 模型

Gemma 4 12B是谷歌开源的多模态AI模型，采用无编码器架构，仅需16GB显存即可在消费级设备运行。取消传统视觉和音频编码器，通过轻量级嵌入模块直接处理原始数据，实现9GB显存占用下接近26B参...

Últimos recursos sobre IA

hace 2 meses

042.4K

HiClaw - 阿里云开源的多智能体团队协作系统

HiClaw - 阿里云开源的多智能体团队协作系统

HiClaw 是阿里云开源的多 Agent 协作框架，让单个用户能像指挥团队一样调度多个 AI 员工。系统设置一位 Manager 管家负责拆解任务、分配工作，各 Worker 专精不同领域且相互隔离...

Últimos recursos sobre IA

hace 4 meses

042.4K

MiniCPM-V 4.6 - 面壁智能联合清华开源的端侧多模态大模型

MiniCPM-V 4.6 - 面壁智能联合清华开源的端侧多模态大模型

MiniCPM-V 4.6 是面壁智能（OpenBMB）联合清华大学发布并开源的端侧多模态大模型。模型总参数量仅 1.3B，是 MiniCPM-V 系列有史以来最小的模型，在多模态综合能力上超越了阿里...

Últimos recursos sobre IA

hace 3 meses

042.2K

OpenHuman - 开源桌面个人 AI 助手，能主动理解用户的数字同事

OpenHuman - 开源桌面个人 AI 助手，能主动理解用户的数字同事

OpenHuman是开源的个人AI助手项目，由Tiny Humans AI团队开发，解决传统AI助手缺乏长期记忆和上下文理解能力的问题。定位为“个人AI操作系统”或“数字分身”，目标是让AI从被动响应...

Últimos recursos sobre IA

hace 2 meses

042.1K

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - Comprensión multimodal de vídeo y generación de grandes modelos de código abierto de ByteHop

Vidi2 es un gran modelo de generación y comprensión de vídeo multimodal de segunda generación de código abierto de ByteDance, centrado en la comprensión, el análisis y la creación de contenidos de vídeo. Admite la entrada conjunta de modalidades de texto, vídeo y audio, y puede comprender simultáneamente contenido de imagen, información de sonido y comandos de lenguaje natural para lograr una interacción intermodal y empujar...

Últimos recursos sobre IA

hace 8 meses

042.1K

PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes modelo de generación 3D de una sola figura de código abierto

PartCrafter es un modelo generativo 3D avanzado, propuesto conjuntamente por la Universidad de Pekín, ByteDance y la Universidad Carnegie Mellon. Puede generar a la vez múltiples partes de malla 3D semánticamente explícitas y geométricamente diversas a partir de una sola imagen RGB. El modelo se modela mediante un espacio potencial combinatorio y...

Últimos recursos sobre IA

hace 8 meses

042K

灵珠 - 零门槛 AI 应用创作平台，精准解析需求

灵珠 - 零门槛 AI 应用创作平台，精准解析需求

灵珠是上海灵感菇智能科技有限公司打造的零门槛AI应用创作平台，由语生科学AI孵化平台推出。用户无需编写任何代码，只需在网页中输入创意想法，系统即可自动生成可实际运行的产品

Últimos recursos sobre IA

hace 3 meses

042K

FireRed-OCR - 小红书团队开源的端到端文档解析模型

FireRed-OCR - 小红书团队开源的端到端文档解析模型

FireRed-OCR 是小红书 Super Intelligence 团队开源的端到端文档解析模型，基于 Qwen3-VL-2B 架构打造，仅用 2B 参数就在 OmniDocBench v1.5 ...

Últimos recursos sobre IA

hace 5 meses

041.9K

omp - 开源的终端 AI Coding Agent

omp - 开源的终端 AI Coding Agent

omp（oh-my-pi）是开源的终端 AI Coding Agent，由 can1357 基于 Mario Zechner 的 Pi 项目扩展而来。不是简单的聊天式代码助手，是将终端、代码仓库、L...

Últimos recursos sobre IA

hace 2 meses

041.9K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - Modelo de razonamiento ligero de código abierto de Israel AI21 Labs

Jamba Reasoning 3B es un modelo de inferencia ligero de código abierto de la startup israelí AI21 Labs, con un gran rendimiento y potencial para una amplia gama de aplicaciones. Utiliza una arquitectura híbrida SSM-Transformer que combina...

Últimos recursos sobre IA

hace 10 meses

041.9K

Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - Proyecto de modelo multimodal de gran tamaño de código abierto Tencent Mixed Meta y Tsinghua

Bee es una solución de big model multimodal de código abierto de pila completa lanzada conjuntamente por el equipo de Tencent Mixed Element y la Universidad de Tsinghua para reducir la brecha de rendimiento entre los modelos de código abierto y los de código cerrado mediante la mejora de la calidad de los datos. El proyecto contiene tres logros fundamentales: el conjunto de datos CoT de dos capas de alta calidad a escala de 15 millones Honey-Data...

Últimos recursos sobre IA

hace 9 meses

041.8K

Más información