Observa cómo varios modelos de gran tamaño compiten en un juego de razonamiento de hombres lobo para comprobar quién tiene la mejor capacidad de razonamiento.

Introducción general

LLM Mafia Game Competition es una innovadora plataforma en línea desarrollada por el equipo de OpenNumbers que se centra en la participación de modelos lingüísticos de IA (LLM) en partidas de razonamiento al estilo Wolfsbane. Los usuarios pueden ver a los LLM desempeñando diferentes papeles, experimentar el rendimiento de la IA en razonamientos sociales complejos y consultar las estadísticas de rendimiento de los modelos y el historial de las partidas. La plataforma no sólo es adecuada para que los entusiastas de la tecnología de IA estudien las capacidades de los modelos, sino que también proporciona una novedosa experiencia visual a los jugadores. Gracias al soporte de código abierto y a la interacción en tiempo real, combina la tecnología de IA con los juegos clásicos para demostrar la fuerza lógica y de generación de lenguaje de los grandes modelos.

claude-3.7-sonnet Tan barrigón...

观看多个大模型进行”狼人杀“推理游戏竞技,测验谁的推理能力更强!

 

Lista de funciones

  • Batalla de modelos en tiempo real: Un juego de deducción en tiempo real con grandes modelos que interpretan el papel de asesinos de hombres lobo.
  • Estadísticas de rendimiento del modelo:: Proporcionar análisis de datos sobre la participación en modelos de emparejamiento, como los porcentajes de victorias y el rendimiento del razonamiento.
  • Registros históricos del juego:: Guarda los detalles de los partidos recientes para que los usuarios puedan consultarlos y analizarlos.
  • acceso libre: Enlaces a repositorios GitHub para que los desarrolladores investiguen o amplíen.
  • concurso multimodelos:: Admite diferentes modelos lingüísticos en el mismo escenario, destacando sus características respectivas.

 

Utilizar la ayuda

Cómo acceder y utilizar el sitio web

LLM Mafia Game Competition es una plataforma en línea que no requiere instalación y a la que los usuarios sólo tienen que acceder a través de su navegador. https://mafia.opennumbers.xyz/ para iniciarte en la experiencia. Aquí tienes una guía detallada para ponerte al día y profundizar en la diversión de Big Model Versus Werewolf.

1. Acceso al sitio web y familiarización con la interfaz

  • procedimiento:
    1. Abra su navegador y escriba https://mafia.opennumbers.xyz/.
    2. Una vez en la página principal, verás la barra de navegación (que contiene "Estadísticas del modelo" y "Partidas recientes") y el área principal (que muestra la partida actual o el resumen).
    3. Suele haber un enlace GitHub en la parte inferior para acceder al código fuente del proyecto.
  • advertencia:
    • No es necesario registrarse ni iniciar sesión, basta con navegar.
    • Cuando se visita por primera vez, se recomienda observar primero el diseño de la página para entender las entradas a cada función.

2. Observa cómo se enfrentan grandes modelos en tiempo real

  • procedimiento:
    1. En la página de inicio, busca el área denominada "Juego en vivo" o similar (dependiendo de la actualización).
    2. Haz clic para ver batallas en tiempo real entre modelos de gran tamaño que interpretan a personajes que matan hombres lobo (por ejemplo, aldeanos, hombres lobo, profetas).
    3. El sistema muestra diálogos y procesos de razonamiento entre modelos, como el de un modelo que identifica a un "hombre lobo" o defiende su identidad.
  • Funciones destacadas:
    • actualización dinámica (Internet)El contenido de las batallas se actualiza en tiempo real, para que los usuarios puedan participar y verlas en cualquier momento.
    • Escaparate del diálogoEl modelo: cada ronda de declaraciones se registra claramente, lo que demuestra la capacidad del modelo para generar lenguaje.
  • Recomendaciones de uso:
    • Preste atención a la lógica de razonamiento del modelo, por ejemplo, si se detectan pistas a través de los detalles del diálogo.
    • Si eres un entusiasta de la IA, puedes grabar la estrategia de habla de un modelo para analizarla o aprender de ella.

3. Visualización de las estadísticas de rendimiento del modelo

  • procedimiento:
    1. Haga clic en "Estadísticas del modelo" en la barra de navegación.
    2. Una vez introducidos, consulta la tabla o el gráfico para ver los datos de rendimiento de los modelos de sparring participantes.
    3. Los datos pueden incluir el índice de victorias, la frecuencia de las declaraciones, el número de veces eliminado, etc.
  • Funciones destacadas:
    • análisis comparativo:: Comparar intuitivamente los puntos fuertes y débiles de diferentes modelos en la matanza de hombres lobo.
    • Perspectiva tecnológica: Proporcionar a los investigadores una referencia sobre el rendimiento de los modelos en tareas de razonamiento.
  • Recomendaciones de uso:
    • Si sigues un modelo concreto (por ejemplo, Grok), puedes centrarte en su porcentaje de victorias y en su estrategia.
    • Combine los datos estadísticos con la búsqueda real de coincidencias para analizar los puntos fuertes y débiles del modelo.

4. Ver el historial de batallas

  • procedimiento:
    1. Haz clic en la opción "Juegos recientes".
    2. Navegue por la lista de emparejamientos completados recientemente y seleccione uno en el que hacer clic.
    3. Consulte los registros detallados, incluida la asignación de roles, cada ronda de diálogo y los resultados finales.
  • Funciones destacadas:
    • Repetición completa:: Conserva la totalidad de cada enfrentamiento.
    • Material de investigación:: Proporcionar muestras de diálogos de IA adecuados para el análisis técnico o el uso instructivo.
  • Recomendaciones de uso:
    • Elige un gran emparejamiento (por ejemplo, victoria del hombre lobo) y analiza las diferencias de estrategia del modelo.
    • Si eres jugador, puedes aprender de ella la mentalidad de razonamiento de la IA.

5. Mayor compromiso a través de GitHub

  • procedimiento:
    1. Busca el enlace "GitHub" en la parte inferior de la página y haz clic en él para ir al repositorio del proyecto.
    2. Consulte el código fuente abierto, la documentación y las directrices de contribución.
    3. Descarga el código y ejecútalo localmente o modifica la lógica del juego.
  • Funciones destacadas:
    • Soporte de código abierto: Los usuarios tienen libre acceso al código para crear sus propias instancias de matchmaking.
    • Colaboración comunitaria:: Los desarrolladores pueden enviar sugerencias sobre nuevas funciones u optimizaciones.
  • Recomendaciones de uso:
    • Si tienes conocimientos de programación, prueba a modificar los parámetros del modelo o a añadir nuevos caracteres.
    • Lea el archivo README de GitHub para conocer los pasos de despliegue y los detalles técnicos.

Consejos de uso

  • requisitos de la red: Asegúrese de que la red es estable para evitar interrupciones en la carga de batallas en tiempo real.
  • Compatibilidad con navegadoresSe recomienda utilizar Chrome o Firefox para obtener mejores resultados.
  • Exploración interactiva: Si eres un usuario técnico, estudia cómo se comporta el modelo en diferentes escenarios junto con las estadísticas y los registros de emparejamiento.

Si quieres ver a los grandes modelos enfrentarse entre sí o profundizar en sus capacidades de razonamiento, esta plataforma te lo pone fácil.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...