Un poids lourd ! Le premier modèle décentralisé de 10 milliards de dollars formé, open source en une semaine !

Nouvelles de l'IAPosté il y a 9 mois Cercle de partage de l'IA

8.4K 00

Le premier modèle paramétrique 10B à entraînement décentralisé au monde est né !
重磅！全球首个去中心化10B模型训练完成，一周内开源！ L'équipe de Prime Intellect a annoncé qu'elle avait achevé un travail historique : un réseau de formation décentralisé à travers les États-Unis, l'Europe et l'Asie qui a réussi à former un grand modèle avec 10 milliards de paramètres. Il s'agit d'une étape révolutionnaire dans le domaine de la formation à l'IA.
Comme vous pouvez le voir sur le panneau d'entraînement, le projet, appelé INTELLECT-1, a déjà terminé l'entraînement de 1 trillion (1T) de jetons.
Les courbes de perte et de perplexité affichent toutes deux une tendance à la baisse souhaitable, et le nombre de jetons générés par seconde reste stable, ce qui indique que le processus d'apprentissage a été couronné de succès.
重磅！全球首个去中心化10B模型训练完成，一周内开源！ La réussite de ce projet n'aurait pas été possible sans le soutien de nombreux partenaires.
Un certain nombre d'organisations, dont Hugging Face, SemiAnalysis, Arcee.ai, Hyperbolic Labs, Olas, Akash, Schelling AI et d'autres, ont apporté de précieuses ressources arithmétiques à la formation. Ce modèle de coopération sans précédent témoigne d'un nouveau type de collaboration dans le domaine de l'IA.
重磅！全球首个去中心化10B模型训练完成，一周内开源！ Comme le montre le tableau de classement du projet, des contributeurs du monde entier ont fourni une quantité stupéfiante de temps de calcul. Le plus grand contributeur a atteint 8 230 heures, avec des participants répartis entre San Mateo, Dallas, Helsinki et Stockholm. Ce modèle mondial de collaboration arithmétique permet de ne plus limiter l'entraînement à l'IA aux centres de données d'une poignée de géants de la technologie.
重磅！全球首个去中心化10B模型训练完成，一周内开源！

Sur le plan technique, l'innovation de ce projet est tout aussi impressionnante.
L'équipe a adopté la technique de formation distribuée DiLoCo pour relever les défis de la formation interrégionale. Afin de relever les différents défis dans un environnement distribué, l'équipe de recherche a également mis en œuvre un mécanisme de formation tolérant aux pannes et des techniques de points de contrôle distribués asynchrones.
En termes d'optimisation de la mémoire, l'équipe a choisi de passer au cadre FSDP2, qui a résolu avec succès les problèmes d'allocation de mémoire présents dans FSDP1.
Par ailleurs, l'efficacité de la formation est considérablement améliorée par l'application de la technologie de calcul parallèle en tenseur.
Derrière ces innovations technologiques se trouve une solide équipe de recherche qui travaille discrètement. Le chef de projet remercie tout particulièrement Tristan Rice et Junjie Wang pour leurs contributions à la formation tolérante aux pannes, ainsi que Chien-Chin Huang et Iris Zhang pour leurs travaux sur le point de contrôle distribué asynchrone. Il remercie également Yifu Wang pour ses conseils sur le calcul parallèle en tenseur.
Ce qui est encore plus excitant, c'est que l'équipe a annoncé qu'elle publierait la version open source complète dans une semaine, y compris le modèle de base, les fichiers de points de contrôle, le modèle post-entraînement et l'ensemble de données d'entraînement. Cela signifie que les chercheurs et les développeurs du monde entier pourront bientôt innover et développer sur la base de ce modèle.
Certains développeurs sont déjà impatients de commencer à expérimenter. L'un d'entre eux a fait la démonstration d'une tentative d'inférence de modèle sur deux cartes graphiques 4090 situées sur la côte ouest des États-Unis et en Europe. Bien que la connexion réseau entre les deux sites n'ait pas été idéale, cette expérience a prouvé la flexibilité et l'adaptabilité du modèle.
La réussite de ce projet n'est pas seulement une avancée technologique, mais une étape importante dans la démocratisation de l'IA pour tous.
Il prouve que, grâce à une collaboration mondiale, nous sommes bien placés pour dépasser les limites de la formation traditionnelle à l'IA et pour engager davantage d'organisations et de personnes dans la vague du développement de l'IA.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Nouvelles de l'IA

Il y a 7 mois

09.8K

Smart Spectrum GLM-PC Open Experience : Agent multimodal pour le fonctionnement autonome d'un ordinateur réaménagé

Nouvelles de l'IA

Il y a 7 mois

08K

DeepSeek : des questions ignorées par les médias

Nouvelles de l'IA

Il y a 7 mois

08.5K

Mistral 发布开源 Mistral Small 3：性能媲美 GPT-4o，速度超越 Llama 3

Mistral lance le logiciel libre Mistral Small 3 : ses performances rivalisent avec celles du GPT-4o et surpassent celles du Llama 3

Nouvelles de l'IA

Il y a 7 mois

08.7K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Un poids lourd ! Le premier modèle décentralisé de 10 milliards de dollars formé, open source en une semaine !

Lancement officiel des agents intelligents Copilot dans SharePoint

voyage-3 et voyage-3-lite : une nouvelle génération de modèles d'intégration polyvalents, petits mais puissants

Articles connexes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Smart Spectrum GLM-PC Open Experience : Agent multimodal pour le fonctionnement autonome d'un ordinateur réaménagé

DeepSeek : des questions ignorées par les médias

Mistral lance le logiciel libre Mistral Small 3 : ses performances rivalisent avec celles du GPT-4o et surpassent celles du Llama 3

Pas de commentaires

Dernières collections

Derniers articles

Un poids lourd ! Le premier modèle décentralisé de 10 milliards de dollars formé, open source en une semaine !

Lancement officiel des agents intelligents Copilot dans SharePoint

voyage-3 et voyage-3-lite : une nouvelle génération de modèles d'intégration polyvalents, petits mais puissants

Articles connexes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Smart Spectrum GLM-PC Open Experience : Agent multimodal pour le fonctionnement autonome d'un ordinateur réaménagé

DeepSeek : des questions ignorées par les médias

Mistral lance le logiciel libre Mistral Small 3 : ses performances rivalisent avec celles du GPT-4o et surpassent celles du Llama 3

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles