JetBrains Open Source Mellum: un modelo especializado diseñado para completar código

JetBrains, proveedor de herramientas de desarrollo de software, acaba de anunciar que ha puesto en código abierto la versión básica de Mellum, su modelo de lenguaje diseñado específicamente para la finalización de código, y la ha hecho disponible en la plataforma Hugging Face. El objetivo es impulsar la transparencia y la colaboración en el campo de la IA en el desarrollo de software.
En lugar de aspirar a la omnipresencia, la filosofía de diseño de Mellum se centra en una tarea fundamental: completar el código. JetBrains denomina a este tipo de modelo Modelos dedicados (modelo especializado), destacando que su objetivo de diseño es tener capacidades profundas en dominios específicos, en lugar de perseguir ciegamente una amplia generalidad. El modelo admite la finalización de código en diversos lenguajes de programación, como Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust y Ruby.
código abierto Mellum-4b-base
es el primer modelo de la familia Mellum. JetBrains tiene previsto ampliar esta familia en el futuro con más modelos dedicados a distintas tareas de codificación, como la predicción de disparidades.
Consideraciones sobre el código abierto
La decisión de que Mellum fuera de código abierto no se tomó a la ligera. En lugar de ser una versión perfeccionada de un modelo de código abierto ya existente, Mellum fue formado desde cero por JetBrains para ofrecer funciones de compleción de código basadas en la nube para sus productos IDE, y fue lanzado al público el año pasado.
JetBrains afirma que Open Source Mellum se basa en la creencia en el poder de la transparencia, la colaboración y el progreso compartido. Desde Linux y Git hasta Node.js y Docker, el paradigma del código abierto ha sido un impulsor clave de grandes saltos tecnológicos. Teniendo en cuenta que ya hay LLM de código abierto que superan a algunos líderes del sector, no es improbable que el desarrollo general de la IA siga una trayectoria similar.
JetBrains también abre a la comunidad una de sus principales tecnologías. Al liberar Mellum en Hugging Face, la empresa ofrece a investigadores, educadores y equipos técnicos superiores la oportunidad de conocer el funcionamiento interno de un modelo especializado. Más que una herramienta, es una inversión en investigación y colaboración abiertas.
¿Qué es un modelo especializado?
En el campo del aprendizaje automático, la especialización no es un concepto nuevo, sino un enfoque básico que ha guiado el diseño de modelos durante décadas: construir modelos para resolver tareas específicas de forma eficiente y eficaz. Sin embargo, en los últimos años el debate en la IA se ha desplazado gradualmente hacia el intento de cubrir todas las tareas con grandes modelos generalizados, pero esto suele conllevar importantes costes computacionales y medioambientales.
Modelos dedicadosEn su lugar, vuelve al propósito original de la especialización: construir modelos que funcionen bien en un dominio concreto.
Esto puede analogarse con una "habilidad T": un individuo tiene amplios conocimientos sobre muchos temas (amplitud de conocimientos, la barra horizontal de la T), pero una gran pericia en un dominio concreto (profundidad de conocimientos, la barra vertical de la T). Los modelos especializados siguen la misma filosofía: no están hechos para ocuparse de todo, sino que se especializan y destacan en una única tarea para ser realmente valiosos en un dominio concreto.
Mellum es la encarnación de esta filosofía. Es un modelo relativamente pequeño y eficiente diseñado para tareas relacionadas con el código, empezando por la finalización de código.
La razón de este planteamiento es que no todos los problemas requieren soluciones genéricas, y no todos los equipos tienen los recursos o la necesidad de ejecutar grandes modelos omnicomprensivos. Los modelos especializados (como Mellum) ofrecen claras ventajas:
- Proporcionar precisión para tareas específicas del dominio.
- Rentable en términos de funcionamiento e implantación.
- Las necesidades de cálculo y la huella de carbono son bajas.
- Proporciona mayor accesibilidad a investigadores, educadores y equipos pequeños.
No se trata de un retroceso tecnológico, sino de una aplicación de principios de especialización probados a los problemas modernos de la IA. JetBrains lo considera una forma más inteligente de avanzar.
¿Cómo actúa Mellum?
Mellum es un modelo paramétrico 4B multilingüe (Mellum-4b-base
), optimizado específicamente para la finalización de código. JetBrains lo ha sometido a pruebas comparativas en varios lenguajes y conjuntos de datos, y ha realizado una amplia evaluación manual en su IDE.
A continuación se muestran datos que comparan el rendimiento de Mellum con el de una serie de modelos con un mayor número de parámetros (los detalles completos, los resultados y las comparaciones se pueden encontrar en la ficha del modelo de Hugging Face):
modelización | Relleno HumanEval (línea única) | Relleno HumanEval (varias líneas) | RepoBench 1.1 (2K context, py) | SAFIM (media) |
---|---|---|---|---|
Mellum-4B-base | 66.2 | 38.5 | 28.2 | 38.1 |
InCoder-6B | 69.0 | 38.6 | - | 33.8 |
CodeLlama-7B-base | 83.0 | 50.8 | 34.1 | 45.0 |
CódigoLlama-13B-base | 85.6 | 56.1 | 36.2 | 52.8 |
DeepSeek-Coder-6.7B | 80.7 | - | - | 63.4 |
Nota: HumanEval Infilling comprueba las capacidades de rellenado de código, RepoBench evalúa el rendimiento en el contexto de una base de código real, y SAFIM es otra prueba comparativa de completado de código. Entre los modelos de comparación se encuentran la familia CodeLlama de Meta y el DeepSeek del modelo Coder.
Los datos muestran que Mellum rinde de forma competitiva en pruebas específicas (especialmente si se tiene en cuenta su tamaño) a pesar de su reducido número de participantes. Esto respalda aún más la idea de que los modelos dedicados pueden lograr un rendimiento eficiente en tareas específicas. El número de parámetros no es la única medida de la capacidad de un modelo, sino que la optimización de tareas específicas también es fundamental.
¿Para quién es Mellum?
Es importante dejar claro que la versión actual de Mellum publicada en Hugging Face no está dirigida principalmente al desarrollador final medio, que no puede poner a punto o desplegar directamente el modelo.
El modelo está abierto a los siguientes grupos:
- Investigadores de IA/ML: En particular, los académicos que exploran el papel de la IA en el desarrollo de software, realizan evaluaciones comparativas o investigan la interpretabilidad de los modelos.
- Ingenieros y educadores en IA/ML: Puede utilizarse como base para aprender a construir, afinar y adaptar modelos lingüísticos específicos de un dominio, o para apoyar proyectos educativos centrados en la arquitectura y especialización de los LLM.
Experimente Mellum ahora
El modelo básico de Mellum ya está disponible en Cara de abrazo En marcha. JetBrains subraya que esto es sólo el principio y que su objetivo no es buscar la generalidad, sino construir herramientas centradas y eficientes. Quienes deseen explorar, experimentar o construir basándose en Mellum, ya pueden acceder al modelo y probarlo.
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...