Baidu lance Wenxin Big Model 4.5 et X1 : double évolution des capacités multimodales et de la pensée profonde

Nouvelles de l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

15.3K 00

Le 16 mars, Baidu a officiellement lancé deux nouveaux grands modèles : Wenshin Big Model 4.5 et Wenshin Big Model X1. Les deux modèles ont été lancés dans les pays suivantsen un motLe site officiel est en ligne et les utilisateurs peuvent en faire l'expérience gratuitement. Parallèlement, Wenshin Big Model 4.5 a atterri sur Baidu Intelligent Cloud Qianfan Big Model Platform, qui peut être appelée par les entreprises et les développeurs par le biais de l'API. Wenshin Big Model X1 sera également bientôt disponible sur la plateforme Chifan. En outre, Baidu Search, Wenshin Yiyin APP et d'autres produits seront également connectés à ces deux nouveaux modèles, offrant ainsi des expériences plus diversifiées aux utilisateurs.

Wenshin Big Model 4.5 : Multimodalité native, capacités plus complètes

Wenshin Big Model 4.5 est une nouvelle génération de grands modèles multimodaux natifs développés par Baidu. Il permet une optimisation collaborative grâce à une modélisation multimodale conjointe et excelle dans les capacités de compréhension multimodale. Par rapport à la version précédente, Wenshin Big Model 4.5 a apporté des améliorations significatives en matière de capacité linguistique, de compréhension, de génération, de logique et de mémoire, ainsi qu'en matière de réduction des messages d'erreur, de raisonnement logique et de capacité de codage.

capacité multimodale

Compétence textuelle

Wenxin Big Model 4.5 est capable de comprendre le texte, les images, le son, la vidéo et d'autres formes de contenu. Par exemple, lorsqu'il s'agit de problèmes complexes contenant des diagrammes, il est capable d'extraire avec précision les informations clés des diagrammes et de fournir des étapes et des analyses détaillées pour résoudre les problèmes, et enfin d'arriver à la bonne réponse.

Outre sa "haute intelligence", Wenshin Big Model 4.5 fait également preuve d'une "haute intelligence émotionnelle" lorsqu'il s'agit de comprendre les images laconiques et les dessins satiriques sur Internet. Il peut saisir avec précision les messages cachés et les éléments humoristiques de ces contenus et les expliquer en détail. Par exemple, il peut expliquer clairement les concepts mathématiques et la logique de certaines "images laconiques", qui contiennent le concept mathématique suivant : "la continuité ne mène pas nécessairement à la continuité, et la plombabilité mène nécessairement à la continuité".

Les capacités accrues du Wenshin Big Model 4.5 sont dues à plusieurs technologies clés :

FlashMask Masque d'attention dynamique : Cette technique accélère le calcul des masques d'attention pour les modèles de grande taille, améliore les capacités de modélisation des séquences longues et l'efficacité de l'entraînement, et optimise ainsi les performances du modèle pour le traitement des textes longs et des dialogues à plusieurs tours.
Techniques d'extension multimodale d'experts hétérogènes : En construisant des experts hétérogènes pour différentes caractéristiques modales et en combinant la fonction de perte de perception modale adaptative, nous résolvons le problème du déséquilibre des différents gradients modaux et améliorons la capacité de fusion multimodale.
Techniques de compression de la représentation dimensionnelle spatio-temporelle : Cette technique permet de comprimer efficacement les représentations sémantiques des images et des vidéos dans la dimension spatio-temporelle, d'améliorer considérablement l'efficacité de l'apprentissage des données multimodales et d'améliorer la capacité des modèles à apprendre des connaissances à partir de longues vidéos.
Techniques de construction de données à grande échelle basées sur des points de connaissance : Grâce aux techniques d'échantillonnage hiérarchique des connaissances, de compression et de fusion des données, et de synthèse ciblée des points de connaissance rares, des données de préformation à haute densité de connaissances sont construites pour améliorer l'efficacité de l'apprentissage du modèle et réduire la probabilité que le modèle génère des informations erronées.
Techniques de post-formation basées sur l'auto-rétroaction : Une technique itérative de post-entraînement à rétroaction automatique incorporant de multiples modalités d'évaluation améliore considérablement la stabilité et la robustesse de l'apprentissage par renforcement, ce qui permet aux modèles pré-entraînés de mieux s'aligner sur l'intention humaine.

Literary Mind Big Model X1 : une pensée plus profonde, des capacités plus complètes

Le Literary Mind Big Model X1 possède des capacités améliorées de compréhension, de planification, de réflexion et d'évolution, et prend en charge la multimodalité. Il s'agit du premier modèle de réflexion approfondie capable d'utiliser des outils de manière autonome. Wenshin Big Model X1 est particulièrement performant dans les domaines suivants : quiz sur les connaissances chinoises, création littéraire, rédaction de manuscrits, dialogue quotidien, raisonnement logique, calcul complexe et invocation d'outils.

Wenxin Big Model X1 prend déjà en charge une série d'outils, notamment la recherche avancée, le questionnaire sur les documents, la compréhension des images, le dessin d'IA, l'interprète de code, la lecture des liens des pages web, la carte arborescente TreeMind, la recherche académique Baidu, la recherche d'informations sur les entreprises, la recherche d'informations sur l'adhésion, etc.

Par exemple, lors de la création de la version réécrite de "The Cold Kiln Fugue", Wenshin Big Model X1 montre une chaîne de pensée claire : tout d'abord, il trouve des allusions à des personnages historiques similaires au texte original, puis il prête attention au style d'écriture et à la syntaxe, puis il vérifie l'adéquation des allusions, et enfin il maintient la structure fluide du texte pour générer un texte qui est fondamentalement le même que le texte original en termes d'intention et de style d'écriture et de syntaxe.

Les capacités accrues du Wenshin Big Model X1 sont dues à plusieurs technologies clés :

Méthodes d'apprentissage et de formation progressives et intensives : Cette approche innovante améliore l'application globale des modèles dans des scénarios tels que la création, la recherche, l'invocation d'outils et le raisonnement.
Formation de bout en bout basée sur la chaîne de pensée et d'action : Pour la recherche approfondie, l'invocation d'outils et d'autres scénarios, la formation du modèle de bout en bout est effectuée sur la base du retour d'information des résultats, ce qui améliore considérablement l'effet de la formation.
Système de récompense diversifié et uniforme : Mettre en place un système de récompense unifié qui intègre plusieurs types de mécanismes de récompense afin de fournir un retour d'information plus solide pour l'apprentissage des modèles.

Prix et perspectives

Actuellement, les utilisateurs peuvent découvrir Wuxin Big Model 4.5 et Wuxin Big Model X1 gratuitement sur le site officiel de WuxinYiYin, et sur la plateforme Baidu Intelligent Cloud Qianfan Big Model, le prix d'entrée de l'API Wuxin Big Model 4.5 est aussi bas que 0,004 yuan/mille mots, et le prix de sortie est aussi bas que 0,016 yuan/mille mots. Wenshin Big Model X1 sera bientôt lancé sur la plateforme Chifan, avec un prix d'entrée aussi bas que 0,002 yuan/millier de mots et un prix de sortie aussi bas que 0,008 yuan/millier de mots.

Baidu a déclaré que 2024 est l'année de l'itération complète de la technologie des grands modèles, et qu'elle fera des investissements plus audacieux dans l'IA, les centres de données et l'infrastructure en nuage pour construire des modèles de nouvelle génération meilleurs et plus intelligents.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

吴恩达论 AI 模型战略：从 DeepSeek、Gemini 看技术选型与价值观考量

Wu Enda sur la stratégie des modèles d'IA : sélection des technologies et prise en compte des valeurs de DeepSeek et Gemini

Nouvelles de l'IA

Il y a 6 mois

015.1K

Cursor 平台模型对比：DeepSeek V3/R1 对战 Claude 3.5 Sonnet 实测

Comparaison des modèles de plates-formes Cursor : DeepSeek V3/R1 vs Claude 3.5 Sonnet Tests

Nouvelles de l'IA

Il y a 7 mois

014.8K

Comment les robots d'OpenAI ont agi comme une attaque DDoS pour détruire le site web d'une entreprise de sept personnes

Nouvelles de l'IA

Il y a 8 mois

013.1K

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Nouvelles de l'IA

Il y a 8 mois

015.3K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Baidu lance Wenxin Big Model 4.5 et X1 : double évolution des capacités multimodales et de la pensée profonde

Wenshin Big Model 4.5 : Multimodalité native, capacités plus complètes

Literary Mind Big Model X1 : une pensée plus profonde, des capacités plus complètes

Prix et perspectives

Les "scientifiques" de l'IA remportent une première bataille : l'article passe l'examen par les pairs de l'ICLR, le statut de recherche humaine est remis en question ?

Google Gemini lance une fonction de recherche personnalisée avec intégration de l'historique des recherches approfondies

Articles connexes

Wu Enda sur la stratégie des modèles d'IA : sélection des technologies et prise en compte des valeurs de DeepSeek et Gemini

Comparaison des modèles de plates-formes Cursor : DeepSeek V3/R1 vs Claude 3.5 Sonnet Tests

Comment les robots d'OpenAI ont agi comme une attaque DDoS pour détruire le site web d'une entreprise de sept personnes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Pas de commentaires

Dernières collections

Derniers articles

Baidu lance Wenxin Big Model 4.5 et X1 : double évolution des capacités multimodales et de la pensée profonde

Wenshin Big Model 4.5 : Multimodalité native, capacités plus complètes

Literary Mind Big Model X1 : une pensée plus profonde, des capacités plus complètes

Prix et perspectives

Les "scientifiques" de l'IA remportent une première bataille : l'article passe l'examen par les pairs de l'ICLR, le statut de recherche humaine est remis en question ?

Google Gemini lance une fonction de recherche personnalisée avec intégration de l'historique des recherches approfondies

Articles connexes

Wu Enda sur la stratégie des modèles d'IA : sélection des technologies et prise en compte des valeurs de DeepSeek et Gemini

Comparaison des modèles de plates-formes Cursor : DeepSeek V3/R1 vs Claude 3.5 Sonnet Tests

Comment les robots d'OpenAI ont agi comme une attaque DDoS pour détruire le site web d'une entreprise de sept personnes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles