JetBrains Open Source Mellum: un modelo especializado diseñado para completar código

Noticias AIPublicado hace 8 meses Círculo de intercambio de inteligencia artificial

38.1K 00

JetBrains, proveedor de herramientas de desarrollo de software, acaba de anunciar que ha puesto en código abierto la versión básica de Mellum, su modelo de lenguaje diseñado específicamente para la finalización de código, y la ha hecho disponible en la plataforma Hugging Face. El objetivo es impulsar la transparencia y la colaboración en el campo de la IA en el desarrollo de software.

En lugar de aspirar a la omnipresencia, la filosofía de diseño de Mellum se centra en una tarea fundamental: completar el código. JetBrains denomina a este tipo de modelo Modelos dedicados (modelo especializado), destacando que su objetivo de diseño es tener capacidades profundas en dominios específicos, en lugar de perseguir ciegamente una amplia generalidad. El modelo admite la finalización de código en diversos lenguajes de programación, como Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust y Ruby.

código abierto Mellum-4b-base es el primer modelo de la familia Mellum. JetBrains tiene previsto ampliar esta familia en el futuro con más modelos dedicados a distintas tareas de codificación, como la predicción de disparidades.

Consideraciones sobre el código abierto

La decisión de que Mellum fuera de código abierto no se tomó a la ligera. En lugar de ser una versión perfeccionada de un modelo de código abierto ya existente, Mellum fue formado desde cero por JetBrains para ofrecer funciones de compleción de código basadas en la nube para sus productos IDE, y fue lanzado al público el año pasado.

JetBrains afirma que Open Source Mellum se basa en la creencia en el poder de la transparencia, la colaboración y el progreso compartido. Desde Linux y Git hasta Node.js y Docker, el paradigma del código abierto ha sido un impulsor clave de grandes saltos tecnológicos. Teniendo en cuenta que ya hay LLM de código abierto que superan a algunos líderes del sector, no es improbable que el desarrollo general de la IA siga una trayectoria similar.

JetBrains también abre a la comunidad una de sus principales tecnologías. Al liberar Mellum en Hugging Face, la empresa ofrece a investigadores, educadores y equipos técnicos superiores la oportunidad de conocer el funcionamiento interno de un modelo especializado. Más que una herramienta, es una inversión en investigación y colaboración abiertas.

¿Qué es un modelo especializado?

En el campo del aprendizaje automático, la especialización no es un concepto nuevo, sino un enfoque básico que ha guiado el diseño de modelos durante décadas: construir modelos para resolver tareas específicas de forma eficiente y eficaz. Sin embargo, en los últimos años el debate en la IA se ha desplazado gradualmente hacia el intento de cubrir todas las tareas con grandes modelos generalizados, pero esto suele conllevar importantes costes computacionales y medioambientales.

Modelos dedicadosEn su lugar, vuelve al propósito original de la especialización: construir modelos que funcionen bien en un dominio concreto.

Esto puede analogarse con una "habilidad T": un individuo tiene amplios conocimientos sobre muchos temas (amplitud de conocimientos, la barra horizontal de la T), pero una gran pericia en un dominio concreto (profundidad de conocimientos, la barra vertical de la T). Los modelos especializados siguen la misma filosofía: no están hechos para ocuparse de todo, sino que se especializan y destacan en una única tarea para ser realmente valiosos en un dominio concreto.

Mellum es la encarnación de esta filosofía. Es un modelo relativamente pequeño y eficiente diseñado para tareas relacionadas con el código, empezando por la finalización de código.

La razón de este planteamiento es que no todos los problemas requieren soluciones genéricas, y no todos los equipos tienen los recursos o la necesidad de ejecutar grandes modelos omnicomprensivos. Los modelos especializados (como Mellum) ofrecen claras ventajas:

Proporcionar precisión para tareas específicas del dominio.
Rentable en términos de funcionamiento e implantación.
Las necesidades de cálculo y la huella de carbono son bajas.
Proporciona mayor accesibilidad a investigadores, educadores y equipos pequeños.

No se trata de un retroceso tecnológico, sino de una aplicación de principios de especialización probados a los problemas modernos de la IA. JetBrains lo considera una forma más inteligente de avanzar.

¿Cómo actúa Mellum?

Mellum es un modelo paramétrico 4B multilingüe (Mellum-4b-base), optimizado específicamente para la finalización de código. JetBrains lo ha sometido a pruebas comparativas en varios lenguajes y conjuntos de datos, y ha realizado una amplia evaluación manual en su IDE.

A continuación se muestran datos que comparan el rendimiento de Mellum con el de una serie de modelos con un mayor número de parámetros (los detalles completos, los resultados y las comparaciones se pueden encontrar en la ficha del modelo de Hugging Face):

modelización	Relleno HumanEval (línea única)	Relleno HumanEval (varias líneas)	RepoBench 1.1 (2K context, py)	SAFIM (media)
Mellum-4B-base	66.2	38.5	28.2	38.1
InCoder-6B	69.0	38.6	-	33.8
CodeLlama-7B-base	83.0	50.8	34.1	45.0
CódigoLlama-13B-base	85.6	56.1	36.2	52.8
DeepSeek-Coder-6.7B	80.7	-	-	63.4

Nota: HumanEval Infilling comprueba las capacidades de rellenado de código, RepoBench evalúa el rendimiento en el contexto de una base de código real, y SAFIM es otra prueba comparativa de completado de código. Entre los modelos de comparación se encuentran la familia CodeLlama de Meta y el DeepSeek del modelo Coder.

Los datos muestran que Mellum rinde de forma competitiva en pruebas específicas (especialmente si se tiene en cuenta su tamaño) a pesar de su reducido número de participantes. Esto respalda aún más la idea de que los modelos dedicados pueden lograr un rendimiento eficiente en tareas específicas. El número de parámetros no es la única medida de la capacidad de un modelo, sino que la optimización de tareas específicas también es fundamental.

¿Para quién es Mellum?

Es importante dejar claro que la versión actual de Mellum publicada en Hugging Face no está dirigida principalmente al desarrollador final medio, que no puede poner a punto o desplegar directamente el modelo.

El modelo está abierto a los siguientes grupos:

Investigadores de IA/ML: En particular, los académicos que exploran el papel de la IA en el desarrollo de software, realizan evaluaciones comparativas o investigan la interpretabilidad de los modelos.
Ingenieros y educadores en IA/ML: Puede utilizarse como base para aprender a construir, afinar y adaptar modelos lingüísticos específicos de un dominio, o para apoyar proyectos educativos centrados en la arquitectura y especialización de los LLM.

Experimente Mellum ahora

El modelo básico de Mellum ya está disponible en Cara de abrazo En marcha. JetBrains subraya que esto es sólo el principio y que su objetivo no es buscar la generalidad, sino construir herramientas centradas y eficientes. Quienes deseen explorar, experimentar o construir basándose en Mellum, ya pueden acceder al modelo y probarlo.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Próximamente, Kling 1.5: "Modelos personalizados" entrena a los personajes con sus propias secuencias de vídeo.

Noticias AI

hace 1 año

039.6K

No hace falta programar, ¡todo el mundo puede desarrollar aplicaciones! Seconda" de Baidu lidera la era sin código.

Noticias AI

hace 1 año

036.3K

Llega el monstruo del rendimiento Mac Studio de Apple: reinventa las grandes implantaciones de modelos y los flujos de trabajo profesionales

Noticias AI

hace 10 meses

038.4K

Desde GPT2, OpenAI planea publicar nuevos modelos de ponderación de código abierto

Noticias AI

hace 10 meses

037.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

JetBrains Open Source Mellum: un modelo especializado diseñado para completar código

Consideraciones sobre el código abierto

¿Qué es un modelo especializado?

¿Cómo actúa Mellum?

¿Para quién es Mellum?

Experimente Mellum ahora

Lanzamiento de Qwen3: una nueva generación de grandes modelos lingüísticos para pensar en profundidad y responder con rapidez

Google NotebookLM amplía sus funciones multilingües, incluido el chino, y lanza aplicaciones para móviles

Artículos relacionados

Próximamente, Kling 1.5: "Modelos personalizados" entrena a los personajes con sus propias secuencias de vídeo.

No hace falta programar, ¡todo el mundo puede desarrollar aplicaciones! Seconda" de Baidu lidera la era sin código.

Llega el monstruo del rendimiento Mac Studio de Apple: reinventa las grandes implantaciones de modelos y los flujos de trabajo profesionales

Desde GPT2, OpenAI planea publicar nuevos modelos de ponderación de código abierto

Sin comentarios

Últimas colecciones

Últimos artículos

JetBrains Open Source Mellum: un modelo especializado diseñado para completar código

Consideraciones sobre el código abierto

¿Qué es un modelo especializado?

¿Cómo actúa Mellum?

¿Para quién es Mellum?

Experimente Mellum ahora

Lanzamiento de Qwen3: una nueva generación de grandes modelos lingüísticos para pensar en profundidad y responder con rapidez

Google NotebookLM amplía sus funciones multilingües, incluido el chino, y lanza aplicaciones para móviles

Artículos relacionados

Próximamente, Kling 1.5: "Modelos personalizados" entrena a los personajes con sus propias secuencias de vídeo.

No hace falta programar, ¡todo el mundo puede desarrollar aplicaciones! Seconda" de Baidu lidera la era sin código.

Llega el monstruo del rendimiento Mac Studio de Apple: reinventa las grandes implantaciones de modelos y los flujos de trabajo profesionales

Desde GPT2, OpenAI planea publicar nuevos modelos de ponderación de código abierto

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos