Inflection-2.5: Conozca a las mejores IA personales del mundo

Noticias AI2年前更新 Círculo de intercambio de inteligencia artificial

44.7K 00

En Inflection, nuestra misión es crear una IA personal para todos, y el pasado mes de mayo lanzamos [...].PiEn noviembre, anunciamos el lanzamiento de un nuevo modelo básico primario [...Inflección-2], en aquel momento el segundo mejor modelo lingüístico a gran escala del mundo.

Ahora, añadimos el CI (Coeficiente Intelectual) al excepcional CE (Coeficiente Emocional) de Pi.

Hemos lanzado Inflection-2.5, nuestro modelo interno mejorado que no tiene nada que envidiar a los modelos lingüísticos a gran escala más importantes del mundo, como GPT-4 y Gemini. Combina la potencia bruta con nuestra personalidad y ajuste únicos. A partir de hoy, Inflection-2.5 estará disponible en [...pi.ai]( ), [iOS], [Android (sistema operativo)] o nuestro nuevo [escritorio] para todos los usuarios de Pi.

Hemos logrado este hito con una eficiencia increíble: Inflection-2.5 tiene casi el mismo rendimiento que GPT-4, pero utiliza para el entrenamiento sólo la misma cantidad de cálculo que GPT-4.40%.

Hemos avanzado especialmente en áreas de CI como la codificación y las matemáticas. Esto se refleja en mejoras específicas en puntos de referencia clave de la industria, asegurando que el Pi se mantiene a la vanguardia de la tecnología.El Pi ahora también incluyeFunciones de búsqueda web en tiempo real de primera clase:: Garantizar que los usuarios tengan acceso a actualizaciones de alta calidad e información actualizada.

Hemos desplegado Inflection-2.5 entre nuestros usuarios y están encantados con Pi. Hemos observado un enorme aumento del sentimiento de los usuarios, de su compromiso y de su retención, lo que ha acelerado el crecimiento orgánico de usuarios.

Tenemos un millón de usuarios activos al día, seis millones al mes, que han intercambiado más de cuatro mil millones de mensajes con el Pi.

La duración media del diálogo con Pi es de33 minutos.Una de cada 10 conversaciones dura más de una hora al día. De las personas que hablan con Pi en una semana, aproximadamente60%La semana que viene volveremos a hablar, y estamos viendo una mayor adherencia mensual que nuestros principales competidores.

Con la potencia de Inflection-2.5, los usuarios pueden hablar de una gama de temas con Pi más amplia que nunca: comentar la actualidad, obtener recomendaciones de restaurantes locales, estudiar para un examen de biología, redactar un plan de negocio, codificar, prepararse para una conversación importante o simplemente divertirse hablando de un hobby. Estamos impacientes por mostrarte lo que Pi puede hacer.

Resultados técnicos

A continuación, mostramos los resultados de una serie de pruebas comparativas clave del sector. Para simplificar, comparamos Inflection-2.5 con GPT-4. Estos resultados demuestran que Pi dispone ahora de capacidades de CI comparables a las de líderes reconocidos del sector. Debido a los diferentes formatos de los informes, prestamos atención al formato utilizado para la evaluación.

Inflection-1 utilizó unos 41 TP3T de operaciones en coma flotante (FLOPs) de entrenamiento para la GPT-4, y obtuvo una media de 721 TP3T de rendimiento de la GPT-4 en una serie de tareas orientadas al CI. Inflection-2.5, que ahora controla la Pi, logra un rendimiento medio de más de 941 TP3T para la GPT-4, a pesar de utilizar sólo 401 TP3T de FLOPs de entrenamiento. Hemos observado un aumento significativo del rendimiento en una amplia gama de dominios, y las mayores mejoras se han producido en el dominio STEM.

En comparación con Inflection-1, Inflection-2.5 ha logrado avances significativos en el punto de referencia MMLU, un punto de referencia diverso que mide el rendimiento en una amplia gama de tareas, desde la dificultad de la escuela secundaria hasta la profesional. También hemos evaluado el extremadamente difícil benchmark GPQA Diamond, un benchmark de nivel experto.

También incluimos los resultados de dos exámenes STEM diferentes: el examen húngaro de Matemáticas y los resultados del GRE de Física - Physics Graduate Entrance Exam.

Para las matemáticas húngaras, utilizamos [aquí estánPara facilitar la repetición, se proporciona un pequeño número de ejemplos de pistas y formatos. Inflection-2.5 sólo utiliza el primer ejemplo de las pistas.

También estamos...Publicado.] publicaron versiones procesadas de los exámenes GRE físicos (GR8677, GR9277, GR9677, GR0177) y compararon el rendimiento de Inflection 2.5 en el primer examen con el GPT-4. Hemos comprobado que Inflection-2.5 alcanza el percentil 85 de los examinandos humanos en MAJ@8, y logra casi la puntuación más alta en MAJ@32. Algunas preguntas con imágenes se han excluido de los resultados que figuran a continuación para facilitar las comparaciones generales. En cualquier caso, hemos publicado todas las preguntas.

En BIG-Bench-Hard, un subconjunto de problemas de BIG-Bench difíciles para los grandes modelos lingüísticos, Inflection-2.5 mejora en más de 101 TP3T a Inflection-1, y es tan bueno como los modelos más potentes.

Seguimos aquí.MT-BenchEvaluamos nuestro modelo en MT-Bench, una tabla de clasificación muy conocida en la comunidad para comparar modelos. Sin embargo, después de evaluar MT-Bench, nos dimos cuenta de que casi una cuarta parte de los ejemplos de las categorías Razonamiento, Matemáticas y Codificación tenían soluciones de referencia incorrectas o premisas de problemas defectuosas. Por ello, hemos corregido estos ejemplos y los hemos publicado en [...aquí están] publicó una versión corregida del conjunto de datos.

Al evaluar estos dos subconjuntos, observamos que, en la versión correctamente corregida, nuestro modelo funciona de forma más coherente con las expectativas basadas en otras pruebas de referencia.

Inflection-2.5 ofrece mejoras particulares con respecto a Inflection-1 en términos de rendimiento matemático y de codificación, como se muestra en la tabla siguiente.

En las pruebas de codificación MBPP+ y HumanEval+, observamos una mejora significativa con respecto a Inflection-1.

Para el MBPP, presentamos los resultados de [Codificador de DeepSeek] para los valores de GPT-4. Para HumanEval, utilizamos el valor [EvalPlus] resultados en la tabla de clasificación (GPT-4 en mayo de 2023).

También evaluamos el rendimiento de Inflection-2.5 en HellaSwag y ARC-C, dos pruebas de referencia científicas y de sentido común sobre las que informan muchos modelos. En ambos casos, vimos un rendimiento excelente en estos puntos de referencia casi saturados.

Todas las evaluaciones anteriores corresponden al modelo que ahora maneja Pi, pero hay que tener en cuenta que la experiencia del usuario puede variar ligeramente debido a los efectos de la recuperación web (en ninguna de las pruebas anteriores se utilizó la recuperación web), la estructura del reducido número de avisos de ejemplo y otras diferencias de producción.

En resumen, el Inflection-2.5 conserva la personalidad única y cercana del Pi y sus excepcionales estándares de seguridad, al tiempo que se convierte en un modelo más íntimo en todos los sentidos.

Agradecemos a nuestros socios de Azure y CoreWeave su apoyo para llevar el modelo lingüístico de vanguardia que hay detrás de Pi a millones de usuarios de todo el mundo.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

DeepSeek R2 en el horizonte: un nuevo modelo podría reescribir de nuevo el panorama de la industria de la IA

Noticias AI

hace 1 año

042.5K

Flying Paddles Los modelos de la serie PP son nuevos La nueva "abeja" para la comprensión de imágenes de documentos PP-DocBee

Noticias AI

hace 1 año

050K

El CEO de OpenAI mira hacia la Economía de la AGI: tres observaciones que revelan un cambio disruptivo en la próxima década

Noticias AI

hace 1 año

042.1K

端脑云 DeepSeek 大语言模型免费试用，私域大模型服务器预装满血版 DeepSeek R1！

Prueba gratuita de Endbrain Cloud DeepSeek Big Language Models, servidor Big Model de dominio privado precargado con la versión completa de DeepSeek R1.

Noticias AI

hace 1 año

050.5K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Inflection-2.5: Conozca a las mejores IA personales del mundo

Pregunte a Conch vs. Beanbag: ¿cuál es la mejor opción para usted?

Software gratuito de ampliación de imágenes - ¡Upscayl latest v2.10.0 Chinese version recommended!

Artículos relacionados

DeepSeek R2 en el horizonte: un nuevo modelo podría reescribir de nuevo el panorama de la industria de la IA

Flying Paddles Los modelos de la serie PP son nuevos La nueva "abeja" para la comprensión de imágenes de documentos PP-DocBee

El CEO de OpenAI mira hacia la Economía de la AGI: tres observaciones que revelan un cambio disruptivo en la próxima década

Prueba gratuita de Endbrain Cloud DeepSeek Big Language Models, servidor Big Model de dominio privado precargado con la versión completa de DeepSeek R1.

Sin comentarios

Últimas colecciones

Últimos artículos

Inflection-2.5: Conozca a las mejores IA personales del mundo

Pregunte a Conch vs. Beanbag: ¿cuál es la mejor opción para usted?

Software gratuito de ampliación de imágenes - ¡Upscayl latest v2.10.0 Chinese version recommended!

Artículos relacionados

DeepSeek R2 en el horizonte: un nuevo modelo podría reescribir de nuevo el panorama de la industria de la IA

Flying Paddles Los modelos de la serie PP son nuevos La nueva "abeja" para la comprensión de imágenes de documentos PP-DocBee

El CEO de OpenAI mira hacia la Economía de la AGI: tres observaciones que revelan un cambio disruptivo en la próxima década

Prueba gratuita de Endbrain Cloud DeepSeek Big Language Models, servidor Big Model de dominio privado precargado con la versión completa de DeepSeek R1.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos