Últimos recursos sobre IA

共 2920 篇文章
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - ¡El último modelo de Dark Side of the Moon!

Kimi K2-0905 es un modelo avanzado de IA de Dark Side of the Moon Technologies Ltd. que destaca en la asistencia a la programación, genera código de forma eficiente y favorece la generación de código ordenado y estandarizado en el desarrollo front-end. La longitud del contexto del modelo se amplía hasta 256K para gestionar tareas complejas.
hace 4 meses
060.8K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 - Modelo de generación de voz de MiniMax

MiniMax Speech 2.5 es un modelo avanzado de generación del habla desarrollado por el equipo MiniMax. Supone un avance significativo en el campo de la síntesis del habla, especialmente en términos de expresividad multilingüe, precisión en la reproducción del timbre y cobertura lingüística. El modelo admite 40 idiomas...
hace 5 meses
037.9K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统

GPT-5 - El modelo de lenguaje más sólido presentado por OpenAI, sistema de inteligencia unificado

GPT-5 es el último modelo de lenguaje lanzado por OpenAI con varias actualizaciones. Es un sistema de inteligencia unificada con un enrutador en tiempo real integrado que cambia automáticamente entre los modos de pensamiento eficiente y profundo en función de la complejidad del problema, lo que permite una respuesta rápida y respuestas precisas.GPT-5 tiene varias versiones, incluyendo para pu...
hace 5 meses
035.6K
RedOne - 小红书最新推出的社交大模型

RedOne: el último megamodelo social de Little Red Book

RedOne es un gran modelo lingüístico adaptado a las redes sociales presentado por Little Red Book. El modelo se entrena mediante una estrategia de formación en tres fases que incorpora conocimientos sociales y culturales, refuerza las capacidades multitarea y alinea las preferencias humanas.RedOne supera significativamente al modelo base en rendimiento de tareas sociales, en detección de contenidos nocivos y navegación...
hace 5 meses
035K
TRAE SOLO - 字节跳动TRAE推出的AI自动开发助手

TRAE SOLO - Asistente de desarrollo automatizado de Wordhop TRAE

TRAE SOLO es un asistente de desarrollo automatizado de IA introducido por TRAE, un asistente de programación de IA lanzado por ByteDance, para simplificar el proceso de desarrollo de software con tecnología de IA.TRAE SOLO entiende las necesidades del usuario, admite descripciones de texto, comandos de voz y cargas de archivos para introducir los requisitos, y planifica automáticamente...
hace 6 meses
055.2K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Introducción completa LiveTalking es un sistema humano digital interactivo en tiempo real de código abierto , se ha comprometido a la construcción de alta calidad humana digital solución en vivo . El proyecto utiliza el protocolo de código abierto Apache 2.0 , integrado con una serie de tecnologías de vanguardia , incluyendo ER-NeRF renderizado , audio en tiempo real y procesamiento de streaming de vídeo ...
hace 1 año
092.7K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team Modelos de movimiento 3D de generación de texto de código abierto

Hybrid Motion1.0 (HY-Motion1.0) es el modelo de acción 3D generado por texto de código abierto del equipo Hybrid de Tencent, que utiliza una arquitectura de transformadores de difusión con mil millones de parámetros, y puede generarse directamente mediante la descripción en lenguaje natural de animaciones de personajes 3D de alta calidad.
hace 2 semanas
017.4K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - Modelo de generación de mundos interactivos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Fudan

Yume 1.5 es un modelo de generación de mundos interactivos de código abierto, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan y el Instituto de Investigación en Innovación de Shanghai, capaz de renderizar interactivamente en tiempo real (12 FPS en una sola tarjeta). Adopta la tecnología de modelado conjunto de canales espaciotemporales (TSCM), aunque la longitud del contexto aumente...
hace 2 semanas
012K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - Sistema libre de generación de vídeos musicales de código abierto M-A-P en colaboración con Beipiao, NU y otros.

AutoMV es un sistema de generación de vídeos musicales de código abierto desarrollado por el equipo de M-A-P en colaboración con varias universidades, que puede generar automáticamente vídeos musicales coherentes a partir de canciones completas sin necesidad de formación.Adopta un modelo de colaboración multiinteligencia, que incluye módulos de análisis musical, escritura de guiones, dirección y control de calidad, y puede analizar con precisión letras, ritmos...
hace 2 semanas
013.4K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - La Universidad de Macao y otros de código abierto en tiempo real AI retrato animación generación marco vivo

PersonaLive es un marco de código abierto para la transmisión en directo de intercambio de rostros de IA en tiempo real, desarrollado conjuntamente por la Universidad de Macao, dzine.ai y el GVC Lab de la Universidad de la Gran Área de la Bahía. Puede lograr una baja latencia y una alta velocidad de fotogramas en la transmisión digital de personas con tarjetas gráficas ordinarias de consumo (12 GB de memoria de vídeo), y soportar en tiempo real a través de la cámara...
hace 2 semanas
012.3K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - Vídeo AI de código abierto a la herramienta de pantalla dividida dibujado a mano, soporte de la estación B, pequeño libro rojo

ClipSketch AI es una herramienta de código abierto de conversión de vídeo a pantalla dividida dibujada a mano diseñada para creadores de vídeos cortos. Puede convertir vídeos de B station, Xiaohongshu y otras plataformas en storyboards de estilo dibujado a mano en un solo clic, admite el marcado de fotogramas clave, la generación automática de subescenas y social copy, y puede integrar roles definidos por el usuario.
hace 2 semanas
015.4K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Modelo de base corporal inteligente GUI universal de código abierto de Ali Tongyi Labs

MAI-UI es un modelo base de cuerpo inteligente GUI universal de código abierto de Alibaba Tongyi Labs, con cuatro capacidades principales: funcionamiento entre aplicaciones, comprensión semántica difusa, interacción activa con el usuario y coordinación de procesos en varios pasos. Adoptando una arquitectura de colaboración extremo-nube, el modelo ligero reside en el dispositivo para gestionar las tareas diarias, y las tareas complejas pueden llamar a la nube big...
hace 2 semanas
018.2K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - Tecnología de generación de control de diseño de código abierto de Little Red Book y la Universidad de Fudan

InstanceAssemble es una tecnología de generación de control de disposición de código abierto desarrollada conjuntamente por Xiaohongshu y la Universidad de Fudan, que consigue una generación de imágenes precisa de disposiciones simples a complejas y de dispersas a densas mediante el mecanismo de "Instance Assemble Attention". Adoptando una arquitectura en cascada de dos etapas , primero en el fondo de la imagen , y luego uno a uno ...
hace 2 semanas
07.8K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Navegador web de IA de código abierto basado en el núcleo de Firefox

Zen Browser es un navegador de código abierto basado en el núcleo de Firefox, centrado en una experiencia de navegación sencilla y eficiente, con características básicas como la barra de pestañas vertical y el aislamiento del espacio de trabajo. Con el diseño de barra lateral, puede mostrar claramente el título completo de más de 50 pestañas y soportar la navegación multi-ventana en pantalla dividida.
hace 2 semanas
013.1K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - Modelo de inferencia de texto largo de código abierto de Ali Tongyi Lab

QwenLong-L1.5 es un modelo de inferencia de texto largo de código abierto de Alibaba Tongyi Lab, centrado en la resolución de problemas de inferencia complejos con contextos ultra largos (por ejemplo, 1M-4M de tokens). El principal avance radica en tres innovaciones importantes en la fase de post-entrenamiento: a través del grafo de conocimiento, el análisis sintáctico SQL y la multiinteligencia...
hace 2 semanas
012.4K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology, Tsinghua y otros marcos de aceleración de generación de vídeo de código abierto

TurboDiffusion es un marco de aceleración de generación de vídeo de código abierto desarrollado conjuntamente por la Universidad de Tsinghua, BioDigital Technology y UC Berkeley, capaz de mejorar la velocidad de generación de vídeo entre 100 y 200 veces manteniendo una calidad de imagen casi sin pérdidas. Mediante la atención lineal dispersa, la destilación por pasos de...
hace 3 semanas
015.7K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

MedASR es un modelo de reconocimiento del habla médica con 105 millones de parámetros, de código abierto de Google, perfeccionado con un corpus clínico desensibilizado de 5.000 horas, optimizado para la terminología de fármacos, dosis y anatomía, con un modelo de lenguaje médico integrado de 6 gramos y una tasa de error de palabra de sólo el 4,6 en el conjunto de datos privados de radiología RAD-DICT...
hace 3 semanas
011.4K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

Fun-Audio-Chat-8B es un gran modelo de voz integral de 8.000 millones de parámetros de código abierto creado por el equipo de Ali Tongyi, con entrada directa de voz y salida de voz, sin necesidad de empalme ASR+LLM+TTS, bilingüe fluido en chino e inglés, con baja latencia y timbre natural. Utiliza LLM compartido de doble resolución con 25 Hz...
hace 3 semanas
012.1K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计

PromptFill - Herramienta de código abierto de generación de palabras clave estructuradas diseñada para la pintura de IA

PromptFill es una herramienta de generación de indicaciones estructurada diseñada para el dibujo de IA, que ayuda a los usuarios a crear, gestionar e iterar rápidamente indicaciones complejas mediante interacciones visuales de "rellenar los espacios en blanco", mejorando la eficacia y la calidad de la generación de imágenes de IA.Las características principales de PromptFill...
hace 3 semanas
011.5K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - La última generación de modelos de gran tamaño de Wisdom Spectrum AI Open Source

GLM-4.7 es la última generación del buque insignia Grand Model lanzado y de código abierto por Smart Spectrum AI, que está profundamente optimizado para la programación de IA, el razonamiento complejo y las tareas corporales inteligentes. El modelo admite una longitud de contexto de 200k y una salida máxima de 128k, con codificación multilingüe, planificación de tareas de largo alcance y capacidades de colaboración de herramientas...
hace 3 semanas
020.4K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen: el modelo de IA para juegos de código abierto de NVIDIA en colaboración con Stanford, Caltech y otros.

NitroGen es un modelo de IA para juegos de código abierto desarrollado por NVIDIA en colaboración con la Universidad de Stanford, Caltech y otras instituciones, capaz de ejecutar más de 1.000 tipos de juegos diferentes. El modelo se basa en la arquitectura GROOT N1.5 y se obtiene mediante el análisis de 40.000 horas de datos de vídeo de juegos (incluida la anotación del funcionamiento del joystick)....
hace 3 semanas
016.8K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

Qwen-Image-Layered es un modelo de edición de imágenes de AI de código abierto del equipo Ali que descompone de forma inteligente imágenes ordinarias en capas transparentes independientes para lograr una edición de precisión similar a la de Photoshop. El modelo es de código abierto mediante el protocolo Apache 2.0 y admite un control flexible de las capas...
hace 3 semanas
019K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google

T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...
hace 3 semanas
014.5K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones

FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...
hace 3 semanas
013.1K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft

TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...
hace 3 semanas
016.4K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - Protocolo declarativo de código abierto de Google para interfaces de interacción de usuario basadas en agentes

A2UI (Agent-to-User Interface) es el protocolo de interfaz de código abierto de Google impulsado por agentes que aborda los retos de la generación de interfaces interactivas complejas para agentes de IA. A través de un formato JSON declarativo que permite a los agentes de IA describir la estructura de la interfaz de usuario , las aplicaciones cliente...
hace 4 semanas
022.1K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Un gran modelo de la arquitectura MoE de código abierto lanzado por Xiaomi

MiMo-V2-Flash es un gran modelo de arquitectura MoE de código abierto lanzado por Xiaomi, con 309.000 millones de parámetros totales y 15.000 millones de parámetros activos, centrado en el razonamiento eficiente y las aplicaciones corporales inteligentes. El modelo adopta una arquitectura de atención híbrida y tecnología de meta-predicción multi-palabra, con una velocidad de inferencia de 150 tokens/segundo, en...
hace 4 semanas
016.8K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move: el marco de código abierto de Ali Tongyi para la generación de vídeo con inteligencia artificial, en colaboración con Tsinghua y otros organismos.

Wan-Move es un marco de generación de vídeo de IA de código abierto desarrollado conjuntamente por Ali Tongyi Labs, la Universidad de Tsinghua y otras instituciones, centrado en la composición de vídeo de alta calidad mediante una tecnología precisa de control del movimiento. La tecnología central es la "guía de trayectoria potencial", que puede añadir sin problemas el control de movimiento a nivel de punto al modelo existente de imagen a vídeo...
hace 4 semanas
013.4K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - Un modelo de generación de vídeo de referencia multisujeto de código abierto creado por Smart Spectrum AI en colaboración con la Universidad de Tsinghua y otras instituciones.

Kaleido es un modelo de generación de vídeo de referencia multisujeto de código abierto desarrollado conjuntamente por la Universidad Tecnológica de Hefei, la Universidad de Tsinghua y Smart Spectrum AI. Genera vídeos coherentes con el sujeto a través de múltiples imágenes de referencia, resolviendo las deficiencias de los modelos existentes en cuanto a coherencia multisujeto y desacoplamiento del fondo.Kaleido genera vídeos a través de un...
hace 4 semanas
011.8K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - La Universidad de Hong Kong convierte documentos académicos de código abierto en diapositivas Herramientas de IA

Paper2Slides es una herramienta de IA de código abierto del Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong que convierte documentos académicos en diapositivas o pósters profesionales en un solo clic. Utiliza la tecnología RAG (Retrieval Augmented Generation), analizando directamente el contenido del documento en lugar de basarse en información de la red, para garantizar que el PPT generado sea altamente coherente con el original....
hace 4 semanas
012.2K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Sistema de generación de vídeo en tiempo real de código abierto de Wisdom Spectrum AI

RealVideo es un sistema de generación de vídeo en tiempo real de código abierto de Smart Spectrum AI que puede generar rápidamente respuestas de vídeo naturales y fluidas en 2 o 3 segundos. Los usuarios solo tienen que subir una foto e introducir un texto, y el sistema genera la voz y el vídeo correspondientes, lo que permite dialogar en tiempo real con personajes de IA....
hace 4 semanas
010.8K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - Sistema de AI de código abierto para el servicio postventa que ayuda a las empresas a crear rápidamente plataformas de preguntas y respuestas

KoalaQA es un sistema de servicio posventa inteligente de código abierto desarrollado por el equipo de Chaitin. Basado en el modelo de IA, proporciona funciones de servicio al cliente de IA, búsqueda de IA y gestión de base de conocimientos para ayudar a las empresas a crear rápidamente una plataforma inteligente de preguntas y respuestas. El sistema permite responder en tiempo real 24/7 ...
hace 1 mes
012.6K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Modelado de texto a voz de código abierto de extremo a extremo de Faceted Intelligence

VoxCPM 1.5 es un modelo de generación de voz de código abierto publicado por Facade Intelligence, basado en la tecnología de conversión de texto a voz (TTS) sin necesidad de divisor, con varias innovaciones y mejoras. Adoptando una arquitectura autorregresiva de difusión de extremo a extremo, genera formas de onda de habla continua directamente a partir del texto, evitando las limitaciones de los métodos tradicionales de segmentación...
hace 1 mes
016.4K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Asistente de código de línea de comandos de código abierto de Mistral AI

Mistral Vibe es un asistente de codificación de línea de comandos de código abierto de Mistral AI, desarrollado basado en el modelo Devstral, que soporta la interacción del lenguaje natural para completar la búsqueda de código, manipulación de archivos, control de versiones y otras tareas. Puede escanear automáticamente la estructura del proyecto y el estado de Git a través del símbolo @...
hace 1 mes
011.4K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Sistema de síntesis de voz industrial de código abierto de Smart Spectrum AI

GLM-TTS es un sistema de síntesis de voz industrial de código abierto con potentes funciones de síntesis de voz. Adopta una arquitectura de generación en dos etapas: la primera convierte el texto en secuencias de tokens de voz y la segunda convierte las secuencias de tokens en audio de alta calidad. El sistema admite sólo 3 segundos de muestras de voz para completar la...
hace 1 mes
013.7K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Modelo de agente de IA de código abierto para teléfonos móviles de Smart Spectrum AI

OpenAutoGLM es un modelo corporal inteligente de código abierto con capacidad de "uso del teléfono móvil", que puede comprender el contenido de la pantalla del teléfono móvil mediante la percepción multimodal, y generar automáticamente el flujo de operaciones para completar las tareas especificadas por el usuario. Los usuarios sólo tienen que utilizar el lenguaje natural para describir las necesidades, como "abrir Meituan para buscar una olla caliente cercana...".
hace 1 mes
019.2K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - Herramientas de código abierto para la investigación en IA y la gestión del conocimiento, Las pintas más fuertes de NotebookLM

SurfSense es una herramienta de investigación y gestión del conocimiento de IA de código abierto. Altamente personalizable, puede conectarse a motores de búsqueda, Slack, Jira, Notion, YouTube, GitHub y muchas otras fuentes de datos externas para facilitar la integración de la información. Los usuarios pueden cargar...
hace 1 mes
014.2K
InkSight - Google开源的AI手写识别工具

InkSight - Herramienta de Google de código abierto para el reconocimiento de la escritura a mano con inteligencia artificial

InkSight es la herramienta de reconocimiento de escritura AI de código abierto de Google que convierte notas manuscritas en papel en archivos digitales editables con tinta (por ejemplo, en formato SVG). A diferencia de OCR tradicional , puede reconocer el contenido del texto , puede restaurar el estilo de escritura a mano , la estructura del párrafo y la marca de enfoque , soporte para el procesamiento multi-idioma .
hace 1 mes
012.4K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - Modelo de generación y edición de imágenes de código abierto del grupo estadounidense LongCat team

LongCat-Image es un modelo de generación y edición de imágenes de código abierto lanzado por el equipo LongCat de Meituan. Utilizando una arquitectura híbrida de columna vertebral (MM-DiT+Single-DiT), combinada con un codificador condicional de modelo de lenguaje visual (VLM), es capaz de lograr imágenes generadas por texto y múltiples rondas de edición de imágenes....
hace 1 mes
012K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - Herramienta de desarrollo de flujos de trabajo de IA de código abierto por Magic Hitch y el equipo Wooli WULI

Flowra es el motor de ejecución de gráficos de código abierto y las herramientas de desarrollo de paquetes de nodos de ModelScope joint woo mile WULI team, es el componente central de FlowBench. A través del flujo de trabajo de organización de grafo acíclico dirigido (DAG) , con almacenamiento en caché inteligente , programación paralela , soporte distribuido ...
hace 1 mes
014.6K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Un conjunto de datos de robots reales de doble brazo de código abierto creado por Wisdom Source en colaboración con varias universidades.

RoboCOIN es el primer conjunto de datos de máquinas reales de robots de doble brazo a gran escala del mundo, de código abierto, creado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con varias empresas y universidades. Contiene 15 tipos de plataformas robóticas, 180.000 trayectorias de operaciones reales y 421 tipos de escenarios de tareas. Su mayor característica es la adopción de un sistema de anotación jerárquica para desmontar la tarea...
hace 1 mes
012.1K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - Sistema de memoria de IA de código abierto de MemVerge

MemMachine es un sistema de memoria de IA de código abierto desarrollado por MemVerge, diseñado para modelos e inteligencias de IA, que puede almacenar y recuperar datos de interacción como el cerebro humano, resolviendo el problema de la "pérdida de memoria sin estado" de la IA. Adopta una arquitectura en capas (memoria a corto plazo, memoria a largo plazo, imagen de usuario...
hace 1 mes
018.7K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - Comprensión multimodal de vídeo y generación de grandes modelos de código abierto de ByteHop

Vidi2 es un gran modelo de generación y comprensión de vídeo multimodal de segunda generación de código abierto de ByteDance, centrado en la comprensión, el análisis y la creación de contenidos de vídeo. Admite la entrada conjunta de modalidades de texto, vídeo y audio, y puede comprender simultáneamente contenido de imagen, información de sonido y comandos de lenguaje natural para lograr una interacción intermodal y empujar...
hace 1 mes
014.8K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - Modelo de visión-lenguaje-acción de código abierto de NVIDIA con capacidad de razonamiento

Alpamayo-R1 es un modelo Visión-Lenguaje-Acción (VLA) desarrollado por NVIDIA con capacidad de razonamiento, diseñado para mejorar la capacidad de toma de decisiones de la conducción autónoma en escenarios complejos. Mediante la introducción de un mecanismo de razonamiento de cadena causal, el vehículo es capaz de analizar la causalidad del escenario (por ejemplo, "debido a...
hace 1 mes
022.2K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Wisdom Source Research Institute gran modelo multimodal del mundo de código abierto

Wujie-Emu3.5 es un macromodelo de mundo multimodal de código abierto del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín, con 34.000 millones de referencias y capacidad de modelado de mundo nativo. Entrenado con 10 billones de Token multimodales (incluidos 790 años de datos de vídeo), puede simular las leyes de la física y lograr la generación de gráficos, la guía visual...
hace 1 mes
015.8K