Baidu lanza Wenxin Big Model 4.5 y X1: doble evolución de las capacidades multimodales y el pensamiento profundo
El 16 de marzo, Baidu lanzó oficialmente dos nuevos modelos de gran tamaño: Wenshin Big Model 4.5 y Wenshin Big Model X1. Estos dos modelos ya se han lanzado en elen una palabraEl sitio web oficial está en línea y los usuarios pueden experimentarlo de forma gratuita. Al mismo tiempo, Wenshin Big Model 4.5 ha aterrizado en Baidu Intelligent Cloud Qianfan Big Model Platform, a la que pueden acceder usuarios empresariales y desarrolladores a través de API. Wenshin Big Model X1 también estará disponible próximamente en la plataforma Chifan. Además, Baidu Search, Wenshin Yiyin APP y otros productos también estarán conectados a estos dos nuevos modelos, aportando experiencias más diversificadas a los usuarios.

Wenshin Big Model 4.5: Multimodalidad nativa, funciones más completas
Wenshin Big Model 4.5 es una nueva generación de big model nativo de base multimodal desarrollado por Baidu. Consigue una optimización colaborativa mediante el modelado multimodal conjunto y destaca por sus capacidades de comprensión multimodal. En comparación con la versión anterior, Wenshin Big Model 4.5 ha introducido mejoras significativas en la capacidad lingüística, la comprensión, la generación, la lógica y la memoria, así como en la reducción de mensajes de error, el razonamiento lógico y la capacidad de codificación.

capacidad multimodal

Competencia textual
Wenxin Big Model 4.5 es capaz de comprender exhaustivamente texto, imágenes, audio, vídeo y otras formas de contenido. Por ejemplo, cuando se trata de problemas complejos que contienen diagramas, es capaz de extraer con precisión la información clave de los diagramas y dar pasos y análisis detallados para resolver los problemas y, finalmente, llegar a la respuesta correcta.
Además de su "alto coeficiente intelectual", Wenshin Big Model 4.5 también demuestra un "alto coeficiente intelectual" cuando se trata de entender imágenes escuetas de Internet y viñetas satíricas. Puede captar con precisión los mensajes ocultos y los elementos humorísticos de estos contenidos y explicarlos con detalle. Por ejemplo, puede explicar con claridad los conceptos matemáticos y la lógica de algunas "imágenes terribles", que contienen el concepto matemático de "la continuidad no conduce necesariamente a la continuidad, y la conductibilidad conduce necesariamente a la continuidad".
Las capacidades mejoradas de Wenshin Big Model 4.5 se deben a varias tecnologías clave:
- FlashMask Máscara de atención dinámica: Esta técnica acelera el cálculo de las máscaras de atención para modelos de gran tamaño, mejora la capacidad de modelado de secuencias largas y la eficacia del entrenamiento y, por tanto, optimiza el rendimiento del modelo para procesar textos largos y conversaciones de varias rondas.
- Técnicas de ampliación de expertos heterogéneos multimodales: Al construir expertos heterogéneos para diferentes características modales y combinar la función de pérdida de percepción modal adaptativa, resolvemos el problema del desequilibrio de los diferentes gradientes modales y mejoramos la capacidad de fusión multimodal.
- Técnicas de compresión de la representación dimensional espaciotemporal: Esta técnica puede comprimir eficazmente las representaciones semánticas de imágenes y vídeos en la dimensión espacio-temporal, mejorar drásticamente la eficiencia del entrenamiento de datos multimodales y potenciar la capacidad de los modelos para aprender conocimientos a partir de vídeos largos.
- Técnicas de construcción de datos a gran escala basadas en puntos de conocimiento: Mediante técnicas de muestreo jerárquico del conocimiento, compresión y fusión de datos, y síntesis selectiva de puntos de conocimiento escasos, se construyen datos de preentrenamiento de alta densidad de conocimiento para mejorar la eficacia del aprendizaje del modelo y reducir la probabilidad de que éste genere información errónea.
- Técnicas post-entrenamiento basadas en la auto-retroalimentación: Una técnica iterativa de post-entrenamiento con auto-retroalimentación que incorpora múltiples modalidades de evaluación mejora ampliamente la estabilidad y robustez del aprendizaje por refuerzo, permitiendo que los modelos pre-entrenados se alineen mejor con la intención humana.
Gran mente literaria Modelo X1: pensamiento más profundo, capacidades más completas
El Big Model X1 tiene capacidades mejoradas de comprensión, planificación, reflexión y evolución, y es compatible con la multimodalidad. Es el primer modelo de pensamiento profundo que puede utilizar herramientas por sí mismo. Wenshin Big Model X1 rinde especialmente bien en las pruebas de conocimientos de chino, la creación literaria, la redacción de manuscritos, el diálogo diario, el razonamiento lógico, el cálculo complejo y la invocación de herramientas.
Wenxin Big Model X1 ya es compatible con diversas herramientas, como la búsqueda avanzada, el cuestionario de documentos, la comprensión de imágenes, el dibujo AI, el intérprete de código, la lectura de enlaces de páginas web, el mapa de árbol TreeMind, la búsqueda académica Baidu, la consulta de información empresarial, la consulta de información de unión, etc.
Por ejemplo, al generar una versión reescrita de "La fuga del horno frío", Wenshin Big Model X1 muestra una clara cadena de pensamiento: en primer lugar, encuentra alusiones a personajes históricos similares al texto original, después presta atención al estilo de escritura y a la sintaxis, a continuación comprueba la adecuación de las alusiones y, por último, mantiene la estructura fluida del texto, generando un texto básicamente igual al original en cuanto a intención y estilo de escritura y sintaxis.

Las capacidades mejoradas del Wenshin Big Model X1 se deben a varias tecnologías clave:
- Métodos de aprendizaje y formación progresivos e intensivos: Este enfoque innovador mejora la aplicación integral de modelos en todos los ámbitos, como la creación, la búsqueda, la invocación de herramientas y el razonamiento.
- Formación integral basada en la cadena de pensamiento y acción: Para la búsqueda profunda, la invocación de herramientas y otros escenarios, el entrenamiento del modelo de extremo a extremo se realiza basándose en la retroalimentación de los resultados, lo que mejora significativamente el efecto del entrenamiento.
- Sistema de recompensas diverso y uniforme: Establecer un sistema de recompensa unificado que incorpore múltiples tipos de mecanismos de recompensa para proporcionar una retroalimentación más sólida para el entrenamiento de modelos.
Precios y perspectivas
Actualmente, los usuarios pueden experimentar Wuxin Big Model 4.5 y Wuxin Big Model X1 de forma gratuita en el sitio web oficial de WuxinYiYin, y en la plataforma Baidu Intelligent Cloud Qianfan Big Model, el precio de entrada de Wuxin Big Model 4.5 API es tan bajo como 0,004 yuanes/mil palabras, y el precio de salida es tan bajo como 0,016 yuanes/mil palabras. Wenshin Big Model X1 se lanzará pronto en la plataforma Chifan, con un precio de entrada tan bajo como 0,002 yuanes/mil palabras y un precio de salida tan bajo como 0,008 yuanes/mil palabras.

Baidu afirmó que 2024 es el año de la iteración completa de la tecnología de grandes modelos, y que realizará inversiones más audaces en IA, centros de datos e infraestructura en la nube para construir modelos de próxima generación mejores y más inteligentes.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...