Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo
Fun-Audio-Chat-8B es un gran modelo de voz integral de 8.000 millones de parámetros de código abierto creado por el equipo de Ali Tongyi, con entrada directa de voz y salida de voz, sin necesidad de empalme ASR+LLM+TTS, bilingüe fluido en chino e inglés, con baja latencia y timbre natural. Utiliza LLM compartido de doble resolución con 25 Hz...
PromptFill - Herramienta de código abierto de generación de palabras clave estructuradas diseñada para la pintura de IA
PromptFill es una herramienta de generación de indicaciones estructurada diseñada para el dibujo de IA, que ayuda a los usuarios a crear, gestionar e iterar rápidamente indicaciones complejas mediante interacciones visuales de "rellenar los espacios en blanco", mejorando la eficacia y la calidad de la generación de imágenes de IA.Las características principales de PromptFill...
GLM-4.7 - La última generación de modelos de gran tamaño de Wisdom Spectrum AI Open Source
GLM-4.7 es la última generación del buque insignia Grand Model lanzado y de código abierto por Smart Spectrum AI, que está profundamente optimizado para la programación de IA, el razonamiento complejo y las tareas corporales inteligentes. El modelo admite una longitud de contexto de 200k y una salida máxima de 128k, con codificación multilingüe, planificación de tareas de largo alcance y capacidades de colaboración de herramientas...
NitroGen: el modelo de IA para juegos de código abierto de NVIDIA en colaboración con Stanford, Caltech y otros.
NitroGen es un modelo de IA para juegos de código abierto desarrollado por NVIDIA en colaboración con la Universidad de Stanford, Caltech y otras instituciones, capaz de ejecutar más de 1.000 tipos de juegos diferentes. El modelo se basa en la arquitectura GROOT N1.5 y se obtiene mediante el análisis de 40.000 horas de datos de vídeo de juegos (incluida la anotación del funcionamiento del joystick)....
Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali
Qwen-Image-Layered es un modelo de edición de imágenes de AI de código abierto del equipo Ali que descompone de forma inteligente imágenes ordinarias en capas transparentes independientes para lograr una edición de precisión similar a la de Photoshop. El modelo es de código abierto mediante el protocolo Apache 2.0 y admite un control flexible de las capas...
VTP - La tecnología de modelado generativo visual de código abierto del equipo de vídeo MiniMax Conch
VTP (Visual Tokenizer Pre-training) es una tecnología clave para modelos generativos visuales propuesta por el equipo de MiniMax Conch Video para mejorar el rendimiento del sistema generativo mejorando el método de preentrenamiento del tokenizador visual (tokenizer). El método tradicional...
T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google
T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...
FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones
FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...
SHARP - Tecnología de composición de escenas 3D con visión monocular de código abierto de Apple
SHARP (Sharp Monocular View Synthesis in Less Than a Second) es la tecnología de síntesis de vista monocular de código abierto de Apple. Puede generar rápidamente una representación 3D realista de una escena a partir de una sola foto en menos de un segundo....
TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft
TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...









