Chatbot Arena (LMSYS): una plataforma competitiva en línea para la evaluación comparativa de grandes modelos lingüísticos y la comparación del rendimiento entre varios modelos.
Últimos recursos sobre IAActualizado hace 6 meses Círculo de intercambio de inteligencia artificial 14.3K 00
Introducción general
La LMSYS Org, conocida como Large Model Systems Organization, es una organización de investigación abierta cofundada por estudiantes y profesores de la Universidad de California en Berkeley en colaboración con la Universidad de California en San Diego y la Universidad Carnegie Mellon. El objetivo de la organización es poner los grandes modelos al alcance de todos mediante el desarrollo conjunto de modelos abiertos, conjuntos de datos, sistemas y herramientas de evaluación.
Chatbot Arena es una plataforma en línea centrada en la evaluación comparativa del rendimiento de distintos modelos lingüísticos amplios (LLM). La plataforma fue creada por investigadores para ofrecer a los usuarios un entorno anónimo y aleatorio en el que interactuar y evaluar varios chatbots de IA en paralelo. Mediante análisis detallados de calidad, rendimiento y precios, Chatbot Arena ayuda a los usuarios a encontrar la solución de IA que mejor se adapta a sus necesidades.


Modelo PK: https://lmarena.ai/
Lista de funciones
- Vicuna: un chatbot con calidad 90% ChatGPT, disponible en tallas 7B/13B/33B.
- Chatbot Arena: evaluación escalable y gamificada de LLMs mediante crowdsourcing y el sistema de puntuación Elo.
- SGLang: Interfaz y tiempo de ejecución eficientes para programas LLM complejos.
- LMSYS-Chat-1M: Un conjunto de datos a gran escala de diálogos LLM reales.
- FastChat: una plataforma abierta para entrenar, servir y evaluar chatbots basados en LLM.
- MT-Bench: un desafiante conjunto de preguntas abiertas en varias rondas para evaluar chatbots.
Utilizar la ayuda
- comparación de modelos::
- Visite la página de comparación de modelos.
- Seleccione los modelos que desea comparar y haga clic en el botón "Añadir a la comparación".
- Consulte los resultados de la comparación, incluida la calidad, el rendimiento, el precio y otras métricas.
- control de calidad::
- Consulte los resultados de las pruebas de calidad en la página Detalles del modelo.
- Conozca las puntuaciones y clasificaciones específicas de las distintas dimensiones de las pruebas.
- Análisis de precios::
- En la página de detalles del modelo, vea el análisis de precios.
- Compare los precios de los distintos modelos para encontrar la opción más rentable.
- Evaluación del rendimiento::
- En la página Detalles del modelo, vea los resultados de la evaluación del rendimiento.
- Comprender la velocidad de salida del modelo, la latencia y otras métricas de rendimiento.
- análisis de la ventana de contexto::
- En la página Detalles del modelo, visualice el Análisis de la ventana de contexto.
- Comprender el tamaño de la ventana contextual del modelo para diferentes escenarios de aplicación.
Siguiendo estos pasos, los usuarios pueden conocer a fondo el rendimiento y las características de los distintos modelos lingüísticos a gran escala y elegir el que mejor se adapte a sus necesidades.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...