Inflection-2.5: Conozca a las mejores IA personales del mundo

Inflection-2.5:认识世界上最好的个人AI

 

En Inflection, nuestra misión es crear una IA personal para todos, y el pasado mes de mayo lanzamos [...].PiEn noviembre, anunciamos el lanzamiento de un nuevo modelo básico primario [...Inflección-2], en aquel momento el segundo mejor modelo lingüístico a gran escala del mundo.

 

Ahora, añadimos el CI (Coeficiente Intelectual) al excepcional CE (Coeficiente Emocional) de Pi.

 

Hemos lanzado Inflection-2.5, nuestro modelo interno mejorado que no tiene nada que envidiar a los modelos lingüísticos a gran escala más importantes del mundo, como GPT-4 y Gemini. Combina la potencia bruta con nuestra personalidad y ajuste únicos. A partir de hoy, Inflection-2.5 estará disponible en [...pi.ai]( ), [iOS], [Android (sistema operativo)] o nuestro nuevo [escritorio] para todos los usuarios de Pi.

 

Hemos logrado este hito con una eficiencia increíble: Inflection-2.5 tiene casi el mismo rendimiento que GPT-4, pero utiliza para el entrenamiento sólo la misma cantidad de cálculo que GPT-4.40%.

 

Hemos avanzado especialmente en áreas de CI como la codificación y las matemáticas. Esto se refleja en mejoras específicas en puntos de referencia clave de la industria, asegurando que el Pi se mantiene a la vanguardia de la tecnología.El Pi ahora también incluyeFunciones de búsqueda web en tiempo real de primera clase:: Garantizar que los usuarios tengan acceso a actualizaciones de alta calidad e información actualizada.

 

Hemos desplegado Inflection-2.5 entre nuestros usuarios y están encantados con Pi. Hemos observado un enorme aumento del sentimiento de los usuarios, de su compromiso y de su retención, lo que ha acelerado el crecimiento orgánico de usuarios.

 

Tenemos un millón de usuarios activos al día, seis millones al mes, que han intercambiado más de cuatro mil millones de mensajes con el Pi.

 

La duración media del diálogo con Pi es de33 minutos.Una de cada 10 conversaciones dura más de una hora al día. De las personas que hablan con Pi en una semana, aproximadamente60%La semana que viene volveremos a hablar, y estamos viendo una mayor adherencia mensual que nuestros principales competidores.

 

Inflection-2.5:认识世界上最好的个人AI

 

Con la potencia de Inflection-2.5, los usuarios pueden hablar de una gama de temas con Pi más amplia que nunca: comentar la actualidad, obtener recomendaciones de restaurantes locales, estudiar para un examen de biología, redactar un plan de negocio, codificar, prepararse para una conversación importante o simplemente divertirse hablando de un hobby. Estamos impacientes por mostrarte lo que Pi puede hacer.

 

Resultados técnicos

 

Inflection-2.5:认识世界上最好的个人AI

 

A continuación, mostramos los resultados de una serie de pruebas comparativas clave del sector. Para simplificar, comparamos Inflection-2.5 con GPT-4. Estos resultados demuestran que Pi dispone ahora de capacidades de CI comparables a las de líderes reconocidos del sector. Debido a los diferentes formatos de los informes, prestamos atención al formato utilizado para la evaluación.

Inflection-1 utilizó unos 41 TP3T de operaciones en coma flotante (FLOPs) de entrenamiento para la GPT-4, y obtuvo una media de 721 TP3T de rendimiento de la GPT-4 en una serie de tareas orientadas al CI. Inflection-2.5, que ahora controla la Pi, logra un rendimiento medio de más de 941 TP3T para la GPT-4, a pesar de utilizar sólo 401 TP3T de FLOPs de entrenamiento. Hemos observado un aumento significativo del rendimiento en una amplia gama de dominios, y las mayores mejoras se han producido en el dominio STEM.

En comparación con Inflection-1, Inflection-2.5 ha logrado avances significativos en el punto de referencia MMLU, un punto de referencia diverso que mide el rendimiento en una amplia gama de tareas, desde la dificultad de la escuela secundaria hasta la profesional. También hemos evaluado el extremadamente difícil benchmark GPQA Diamond, un benchmark de nivel experto.

 

Inflection-2.5:认识世界上最好的个人AI

 

También incluimos los resultados de dos exámenes STEM diferentes: el examen húngaro de Matemáticas y los resultados del GRE de Física - Physics Graduate Entrance Exam.

Para las matemáticas húngaras, utilizamos [aquí estánPara facilitar la repetición, se proporciona un pequeño número de ejemplos de pistas y formatos. Inflection-2.5 sólo utiliza el primer ejemplo de las pistas.

También estamos...Publicado.] publicaron versiones procesadas de los exámenes GRE físicos (GR8677, GR9277, GR9677, GR0177) y compararon el rendimiento de Inflection 2.5 en el primer examen con el GPT-4. Hemos comprobado que Inflection-2.5 alcanza el percentil 85 de los examinandos humanos en MAJ@8, y logra casi la puntuación más alta en MAJ@32. Algunas preguntas con imágenes se han excluido de los resultados que figuran a continuación para facilitar las comparaciones generales. En cualquier caso, hemos publicado todas las preguntas.

 

Inflection-2.5:认识世界上最好的个人AI

 

En BIG-Bench-Hard, un subconjunto de problemas de BIG-Bench difíciles para los grandes modelos lingüísticos, Inflection-2.5 mejora en más de 101 TP3T a Inflection-1, y es tan bueno como los modelos más potentes.

 

Inflection-2.5:认识世界上最好的个人AI

 

Seguimos aquí.MT-BenchEvaluamos nuestro modelo en MT-Bench, una tabla de clasificación muy conocida en la comunidad para comparar modelos. Sin embargo, después de evaluar MT-Bench, nos dimos cuenta de que casi una cuarta parte de los ejemplos de las categorías Razonamiento, Matemáticas y Codificación tenían soluciones de referencia incorrectas o premisas de problemas defectuosas. Por ello, hemos corregido estos ejemplos y los hemos publicado en [...aquí están] publicó una versión corregida del conjunto de datos.

Al evaluar estos dos subconjuntos, observamos que, en la versión correctamente corregida, nuestro modelo funciona de forma más coherente con las expectativas basadas en otras pruebas de referencia.

 

Inflection-2.5:认识世界上最好的个人AI

 

Inflection-2.5 ofrece mejoras particulares con respecto a Inflection-1 en términos de rendimiento matemático y de codificación, como se muestra en la tabla siguiente.

 

Inflection-2.5:认识世界上最好的个人AI

 

En las pruebas de codificación MBPP+ y HumanEval+, observamos una mejora significativa con respecto a Inflection-1.

Para el MBPP, presentamos los resultados de [Codificador de DeepSeek] para los valores de GPT-4. Para HumanEval, utilizamos el valor [EvalPlus] resultados en la tabla de clasificación (GPT-4 en mayo de 2023).

 

Inflection-2.5:认识世界上最好的个人AI

 

También evaluamos el rendimiento de Inflection-2.5 en HellaSwag y ARC-C, dos pruebas de referencia científicas y de sentido común sobre las que informan muchos modelos. En ambos casos, vimos un rendimiento excelente en estos puntos de referencia casi saturados.

 

Inflection-2.5:认识世界上最好的个人AI

 

Todas las evaluaciones anteriores corresponden al modelo que ahora maneja Pi, pero hay que tener en cuenta que la experiencia del usuario puede variar ligeramente debido a los efectos de la recuperación web (en ninguna de las pruebas anteriores se utilizó la recuperación web), la estructura del reducido número de avisos de ejemplo y otras diferencias de producción.

En resumen, el Inflection-2.5 conserva la personalidad única y cercana del Pi y sus excepcionales estándares de seguridad, al tiempo que se convierte en un modelo más íntimo en todos los sentidos.

Agradecemos a nuestros socios de Azure y CoreWeave su apoyo para llevar el modelo lingüístico de vanguardia que hay detrás de Pi a millones de usuarios de todo el mundo.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...