ChainForge: un entorno de programación visual de código abierto para probar y evaluar la eficacia de grandes sugerencias de modelos lingüísticos

Introducción general

ChainForge es un entorno de programación visual de código abierto diseñado para probar y evaluar la eficacia de las indicaciones de los grandes modelos lingüísticos (LLM). ChainForge es compatible con una amplia gama de proveedores de modelos, como OpenAI, HuggingFace, Anthropic, etc., y permite a los usuarios comparar y evaluar varios modelos en una única interfaz. La herramienta es especialmente adecuada para la exploración temprana de pistas y la iteración rápida, ya que ayuda a los usuarios a optimizar la configuración de pistas y modelos para obtener una calidad de respuesta óptima.

ChainForge:测试和评估大型语言模型提示效果的开源可视化编程环境

 

Lista de funciones

  • Consultas multimodeloConsulta múltiples LLM al mismo tiempo para probar rápidamente ideas y variantes.
  • Comparación de la calidad de la respuestaComparación de la calidad de las respuestas en función de las señales, los modelos y la configuración de los modelos.
  • Evaluación de la visualización: Establezca métricas de evaluación y visualice al instante los resultados de las indicaciones, los parámetros, los modelos y los ajustes.
  • diálogo a varias bandasMúltiples rondas de diálogo entre los parámetros de la plantilla y el modelo de chat, comprobando y evaluando el resultado de cada ronda de diálogo.
  • Plantillas de consejosEl chat de seguimiento: no sólo puede crear plantillas de mensajes, sino también de mensajes de seguimiento.
  • Ejemplos de flujos de evaluaciónProporcionar múltiples ejemplos de flujos de evaluación para demostrar posibles escenarios de uso.
  • Instalación local y en línea: Admite la instalación local y la prueba en línea, lo que proporciona flexibilidad de uso.
  • Compatible con varios modelosSoporte para OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI y muchos otros proveedores de modelos.

 

Utilizar la ayuda

Proceso de instalación

instalación local

  1. Asegúrese de que Python 3.8 o posterior está instalado.
  2. Ejecute el siguiente comando para instalar ChainForge:
   pip install chainforge
  1. Una vez finalizada la instalación, ejecute el siguiente comando para iniciar el servidor ChainForge:
   chainforge serve
  1. Abra su navegador y visite localhost:8000Ya puedes empezar a utilizar ChainForge.

Instalación con Docker

  1. Cree la imagen Docker:
   docker build -t chainforge .
  1. Ejecute el contenedor Docker:
   docker run -p 8000:8000 chainforge
  1. Abra su navegador y visite 127.0.0.1:8000Ya puedes empezar a utilizar ChainForge.

Normas de uso

  1. Configuración de la clave APIHaga clic en el icono Configuración de la esquina superior derecha e introduzca la clave API de OpenAI, Anthropic, Google PaLM, etc.
  2. Crear un nuevo proyectoHaga clic en el botón "Nuevo proyecto" y seleccione el modelo y la plantilla deseados.
  3. Añadir consejos y modelos: Añade plantillas y modelos rápidos al proyecto y establece diferentes parámetros para las pruebas.
  4. Evaluación operativaAl hacer clic en el botón "Ejecutar", ChainForge consultará automáticamente todos los modelos seleccionados y mostrará los resultados de la respuesta.
  5. Comparación y visualizaciónUtiliza las herramientas de visualización para comparar la calidad de respuesta de diferentes avisos y modelos y seleccionar los mejores ajustes de avisos y modelos.
  6. Guardar y compartir: Una vez finalizado el proyecto, puede guardar la evaluación y generar un enlace para compartirla con otras personas.

Ejemplos de flujos de evaluación

ChainForge proporciona varios flujos de evaluación de ejemplo para ayudar a los usuarios a empezar rápidamente. Por ejemplo, puede utilizar el ejemplo "Comparación de la longitud de respuesta" para comparar las longitudes de respuesta de diferentes modelos con la misma señal. También puede crear flujos de evaluación personalizados con métricas de evaluación y visualizaciones específicas.

Funciones avanzadas

  • Nodos de evaluación personalizadosLos usuarios pueden escribir código Python para personalizar los nodos de evaluación para una evaluación de respuestas más compleja.
  • Evaluación del diálogo en varias rondasSe admiten múltiples rondas de evaluación del diálogo, lo que permite a los usuarios comprobar la calidad de las respuestas para diferentes rondas de diálogo.
  • Exportación de datosLos resultados de la evaluación pueden exportarse a una tabla de Excel para su posterior análisis.

ChainForge es una potente herramienta para investigadores, desarrolladores y científicos de datos que les ayuda a optimizar los ajustes de pistas y modelos y a mejorar la calidad de las respuestas LLM.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...