Google lanza el modelo Gemma 3 QAT: los mejores modelos de IA llegan a las GPU de consumo

Noticias AIPublicado hace 9 meses Círculo de intercambio de inteligencia artificial

48.6K 00

Tras el lanzamiento el mes pasado de una nueva generación de modelos abiertos Gemma 3 Google ha ampliado recientemente su ecosistema de modelos con una nueva versión optimizada para Quantization-Aware Training (QAT). Gemma 3 se ha utilizado anteriormente en BF16 La precisión es inferior a la de una única GPU de gama alta (por ejemplo. NVIDIA H100La versión QAT está diseñada para reducir significativamente los requisitos de memoria de los modelos, manteniendo al mismo tiempo la mayor calidad de salida posible, lo que permite ejecutar potentes modelos de IA en un hardware de mayor calidad para el consumidor. Y la versión QAT está diseñada para reducir significativamente los requisitos de memoria del modelo, manteniendo al mismo tiempo la mayor calidad de salida posible, lo que permite a los modelos de IA potentes ejecutarse en hardware de grado más consumidor.

Google 发布 Gemma 3 QAT 模型：让顶尖 AI 模型走进消费级 GPU
Este gráfico clasifica los modelos de IA en función de las puntuaciones Elo de Chatbot Arena, donde las puntuaciones más altas representan una mayor preferencia del usuario. Los puntos indican lo que el modelo necesita para funcionar NVIDIA H100 El número estimado de GPUs.

Comprender los umbrales de rendimiento, precisión y cuantificación

El gráfico anterior muestra una comparación del rendimiento (puntuaciones Elo) de grandes modelos lingüísticos publicados recientemente. Las barras más altas indican que los modelos obtienen mejores resultados en las comparaciones anónimas realizadas por evaluadores humanos. En la parte inferior del gráfico se indica el rendimiento en el BF16 necesarios para ejecutar cada modelo con el tipo de datos NVIDIA H100 Número estimado de GPU.

opción BF16 La comparación se debe a que se trata de un formato numérico de uso común para muchas inferencia de modelos a gran escala, que representa parámetros de modelos almacenados con una precisión de 16 bits. En el caso del formato unificado BF16 Las comparaciones bajo la configuración ayudan a evaluar las capacidades inherentes del propio modelo en la misma configuración de inferencia, excluyendo las variables introducidas por hardware diferente o técnicas de optimización como la cuantificación.

Cabe señalar que, aunque el gráfico utiliza BF16 hacer una comparación justa, pero en el despliegue real de modelos muy grandes, para reducir la enorme demanda de hardware (por ejemplo, el número de procesadores gráficos), a menudo es necesario utilizar un sistema como el FP8 y otros formatos de menor precisión, lo que puede exigir un compromiso entre rendimiento y viabilidad.

Romper las barreras del hardware: hacer más accesible la IA

Aunque Gemma 3 funciona bien en hardware de gama alta para despliegues en la nube y escenarios de investigación, los comentarios de los usuarios indican claramente que el mercado espera poder utilizar las capacidades de Gemma 3 en el hardware existente. Impulsar la adopción de potentes tecnologías de IA significa que los modelos deben ejecutarse de forma eficiente en GPU de consumo, habituales en ordenadores de sobremesa, portátiles e incluso dispositivos móviles. La ejecución local de modelos de gran tamaño no sólo mejora la privacidad de los datos, reduce la latencia de la red y admite aplicaciones offline, sino que también ofrece más margen para la personalización por parte del usuario.

Tecnología QAT: la clave para equilibrar rendimiento y accesibilidad

Las técnicas de cuantificación son fundamentales para alcanzar este objetivo. En los modelos de IA, la cuantificación pretende reducir la precisión de los números (es decir, los parámetros del modelo) utilizados en el almacenamiento y cálculo del modelo. Esto es similar a comprimir una imagen reduciendo el número de colores utilizados en ella. En comparación con el uso de 16 bits por número (BF16), la cuantificación puede utilizar menos bits, por ejemplo 8 bits (int8) o incluso de 4 bits (int4).

adopción int4 Esto significa que cada dígito está representado por sólo 4 bits y que el tamaño de los datos es menor que el del BF16 Reducido en un factor de 4. Los métodos tradicionales de cuantificación (por ejemplo, la cuantificación post-entrenamiento PTQ) se suelen realizar después de que el modelo haya sido entrenado, lo que es fácil de implementar pero puede conducir a una degradación significativa del rendimiento. La técnica QAT utilizada por Google es diferente.

QAT introduce un paso de cuantificación durante el entrenamiento del modelo para simular operaciones de baja precisión. Este enfoque permite que el modelo se adapte al entorno de baja precisión mientras aún está en entrenamiento, lo que le permite mantener mejor la precisión durante la cuantificación posterior, permitiendo modelos más pequeños y rápidos. En concreto, Google aplicó aproximadamente 5.000 pasos de QAT al modelo Gemma 3, centrándose en la probabilidad de un punto de control no cuantificado. De este modo, se afirma que tras cuantificar a Q4_0 La perplejidad, una medida del poder predictivo del modelo, disminuye en 54% cuando el formato (utilizando la llama.cpp (Evaluación).

Efecto significativo: el uso de VRAM se reduce drásticamente.

int4 El impacto de la cuantificación es significativo, especialmente en términos de la cantidad de memoria de vídeo (VRAM) necesaria para cargar los pesos del modelo:

Gemma 3 27B. A partir de 54 GB (BF16) a 14,1 GB (int4)
Gemma 3 12B. A partir de 24 GB (BF16) Reducción a 6,6 GB (int4)
Gemma 3 4B. A partir de 8 GB (BF16) Reducido a 2,6 GB (int4)
Gemma 3 1B. A partir de 2 GB (BF16) a 0,5 GB (int4)

Google 发布 Gemma 3 QAT 模型：让顶尖 AI 模型走进消费级 GPU

Precaución. Estos datos representan sólo la VRAM necesaria para cargar los pesos del modelo. La ejecución del modelo también requiere VRAM adicional para la caché KV, que almacena la información del contexto de diálogo, cuyo tamaño depende de la longitud del contexto.

Ejecuta Gemma 3 en tu dispositivo

La drástica reducción de los requisitos de memoria gráfica hace posible ejecutar modelos más grandes y potentes en hardware de consumo ampliamente disponible:

Gemma 3 27B (int4): Ahora es fácil de ejecutar en una sola clase de escritorio de 24 GB de VRAM NVIDIA RTX 3090 o tarjetas gráficas similares, los usuarios pudieron ejecutar localmente la variante Gemma 3 más grande de Google.
Gemma 3 12B (int4): La capacidad de funcionar en GPU de portátiles con 8 GB de VRAM (como el NVIDIA RTX 4060 Laptop GPULa empresa también aporta potentes capacidades de IA a los dispositivos portátiles.
Modelos más pequeños (4B, 1B). Proporciona una mayor accesibilidad a los sistemas con recursos más limitados, incluidos algunos dispositivos móviles.

Fácil integración con las principales herramientas

Para facilitar a los usuarios el uso de estos modelos en sus propios flujos de trabajo, Google ha puesto a disposición de los usuarios la herramienta Hugging Face responder cantando Kaggle El funcionario int4 responder cantando Q4_0 Modelos QAT no cuantificados. Al mismo tiempo, Google se ha asociado con varias herramientas de desarrollo populares para que los usuarios puedan probar sin problemas los puntos de control cuantificados basados en QAT:

Ollama. Todos los modelos Gemma 3 QAT son compatibles de forma nativa y se ejecutan rápidamente con un simple comando.
Estudio LM. Proporciona una interfaz fácil de usar para descargar y ejecutar fácilmente los modelos QAT de Gemma 3 en su escritorio.
MLX. utilice MLX El marco está en Apple Silicon Inferencia eficiente y óptima de los modelos QAT de Gemma 3 en la
Gemma.cpp. Una implementación C++ específica de Google para una inferencia eficiente en la CPU.
llama.cpp. Compatibilidad nativa con modelos QAT en formato GGUF para facilitar la integración en los flujos de trabajo existentes.

Más opciones cuantitativas en el Gemmaverse Ecology

Además del modelo QAT publicado oficialmente, los activos Gemmaverse La comunidad también ofrece muchas alternativas. Estos sistemas suelen utilizar técnicas de cuantificación posterior a la formación (PTQ), que son utilizadas por los Bartowski, Unsloth, GGML y otras contribuciones de los miembros de la comunidad, y en Hugging Face Disponible en. La exploración de estas opciones comunitarias ofrece a los usuarios una gama más amplia de opciones de compromiso entre el tamaño del modelo, la velocidad y la calidad para satisfacer necesidades específicas.

¡Empieza ya!

Llevar el rendimiento de la IA de vanguardia a un hardware de fácil acceso es un paso fundamental para democratizar el desarrollo de la IA. Con los modelos Gemma 3 optimizados a través de QAT, los usuarios pueden aprovechar las capacidades de IA de vanguardia en su propio ordenador de sobremesa o portátil. Esto no solo reduce la barrera para que desarrolladores e investigadores exploren modelos lingüísticos a gran escala, sino que también señala el potencial de aplicaciones de IA más potentes.

Explore modelos cuantitativos y empiece a construirlos:

Uso en PC Ollama Corriendo:https://ollama.com/library/gemma3
existe Hugging Face responder cantando Kaggle Busca el modelo en:
- Cara de abrazo. https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b
- Kaggle. https://www.kaggle.com/models/google/gemma-3/transformers
Funciona en dispositivos móviles (a través de Google AI Edge):https://developers.googleblog.com/en/gemma-3-on-mobile-and-web-with-google-ai-edge/

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

Noticias AI

hace 10 meses

046.6K

LongBench v2: Evaluación de textos largos +o1?

Noticias AI

hace 1 año

035.1K

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

Noticias AI

hace 11 meses

036.2K

La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes

Noticias AI

hace 1 año

035.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Google lanza el modelo Gemma 3 QAT: los mejores modelos de IA llegan a las GPU de consumo

Comprender los umbrales de rendimiento, precisión y cuantificación

Romper las barreras del hardware: hacer más accesible la IA

Tecnología QAT: la clave para equilibrar rendimiento y accesibilidad

Efecto significativo: el uso de VRAM se reduce drásticamente.

Ejecuta Gemma 3 en tu dispositivo

Fácil integración con las principales herramientas

Más opciones cuantitativas en el Gemmaverse Ecology

¡Empieza ya!

La generación de vídeo Veo 2 de Google llega a Gemini y Whisk, ampliando el territorio de las herramientas de creación de IA

Interpretación del espacio Coze: agente de IA con disposición de salto de byte, objetivo asistente de oficina "umbral cero".

Artículos relacionados

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

LongBench v2: Evaluación de textos largos +o1?

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes

Sin comentarios

Últimas colecciones

Últimos artículos

Google lanza el modelo Gemma 3 QAT: los mejores modelos de IA llegan a las GPU de consumo

Comprender los umbrales de rendimiento, precisión y cuantificación

Romper las barreras del hardware: hacer más accesible la IA

Tecnología QAT: la clave para equilibrar rendimiento y accesibilidad

Efecto significativo: el uso de VRAM se reduce drásticamente.

Ejecuta Gemma 3 en tu dispositivo

Fácil integración con las principales herramientas

Más opciones cuantitativas en el Gemmaverse Ecology

¡Empieza ya!

La generación de vídeo Veo 2 de Google llega a Gemini y Whisk, ampliando el territorio de las herramientas de creación de IA

Interpretación del espacio Coze: agente de IA con disposición de salto de byte, objetivo asistente de oficina "umbral cero".

Artículos relacionados

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

LongBench v2: Evaluación de textos largos +o1?

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos