Claude 3.7 Sonnet : premier modèle de raisonnement hybride et lancement de l'outil de codage intelligent Claude Code
Hier soir, la nouvelle de la sortie prochaine d'un nouveau modèle d'Anthropic s'est rapidement répandue dans la communauté de l'IA, mais pas de la manière attendue. Claude 4.0, mais plutôt la version Claude 3.7 Sonnet.

Tôt ce matin, Anthropic a sorti son dernier modèle phare, leLe lancement officiel de Claude 3.7 Sonnet, présenté comme le plus intelligent à ce jour et le premier modèle d'inférence hybride sur le marché !.

Claude 3.7 Sonnet fournit à la fois une réponse rapide en temps quasi réel et une réflexion plus approfondie, étape par étape, basée sur les besoins de l'utilisateur.. Comme Anthropique La description "Un modèle, deux façons de penser..." fait référence au fait qu'il possède à la fois des modes de pensée standard et étendus. En outre, les utilisateurs de l'API peuvent contrôler plus finement la durée de la réflexion du modèle.

En plus de la sortie de Claude 3.7 Sonnet.Anthropic a également lancé un outil parallèle en ligne de commande appelé Claude Code, qui se concentre sur le codage intelligent. L'outil est actuellement disponible en avant-première dans le cadre d'une recherche limitée et est conçu pour permettre aux développeurs de laisser un grand nombre de tâches d'ingénierie à Claude directement dans l'environnement du terminal.

En termes de capacités de codage, Anthropic a encore optimisé l'expérience de codage sur la plateforme Claude.ai. L'intégration de GitHub est maintenant disponible dans tous les programmes Claude, permettant aux développeurs de connecter leurs dépôts de code directement à Claude. En fournissant une meilleure compréhension des projets personnels, professionnels et open source, Claude deviendra un assistant encore plus puissant pour les développeurs lorsqu'il s'agit de corriger des bogues, de développer des fonctionnalités et de créer de la documentation dans les projets GitHub.
Pour cette raison, et grâce à des améliorations significatives dans les capacités de codage et de développement de sites web de type "front-end".Claude 3.7 Sonnet est devenu le meilleur modèle d'encodage d'Anthropic à ce jour..
Les utilisateurs peuvent maintenant expérimenter le dernier modèle Claude 3.7 Sonnet à travers tous les plans Claude (y compris Free, Pro, Team, et Enterprise), ainsi que des plateformes telles que Anthropic API, Amazon Bedrock, et Google Cloud Vertex AI. En plus des utilisateurs gratuits, tous les abonnés payants peuvent expérimenter le modèle Extended Thinking.
Dans les modes de pensée standard et étendu, laLe prix de Claude 3.7 Sonnet reste le même que celui de la génération précédente de Claude 3.5 Sonnet, à savoir 3 dollars par million de jetons d'entrée et 15 dollars par million de jetons de sortie (y compris les jetons de réflexion)..
Comme l'a souligné un utilisateur, "chaque nouvelle version d'Anthropic est surprenante et excitante !".

Maximum Claude 3.7 Sonnet
Un raisonnement de pointe à portée de main
Anthropic souligne que Claude 3.7 Sonnet a été développé avec une philosophie différente de celle des autres modèles d'inférence sur le marché, arguant que tout comme le cerveau humain est capable de réagir rapidement et de réfléchir profondément en même temps, l'inférence de l'IA devrait également être capable d'intégrer les capacités des modèles de pointe plutôt que de les séparer les uns des autres. Cette approche unifiée de la conception vise à offrir une expérience plus fluide à l'utilisateur.
Conformément à cette philosophie, le Claude 3.7 Sonnet offre un certain nombre d'avantages uniques.
Premièrement.Claude 3.7 Sonnet est unique en ce sens qu'il peut être utilisé comme un LLM à usage général mais qu'il possède également de puissantes capacités de raisonnement. Selon vos besoins, vous pouvez choisir que le modèle vous donne une réponse rapide, ou qu'il réfléchisse plus profondément avant de répondre.En mode standard, le Claude 3.7 Sonnet peut être considéré comme une version améliorée du précédent Claude 3.5 Sonnet. En mode standard, Claude 3.7 Sonnet peut être considéré comme une version améliorée de son prédécesseur, Claude 3.5 Sonnet. En mode réflexion étendue, il réfléchit sur lui-même avant de donner une réponse, ce qui améliore considérablement ses performances dans un large éventail de tâches, y compris les mathématiques, la physique, le suivi d'instructions, le codage, etc. Les responsables anthropiques notent que dans les deux modes, le modèle comprend et traite les mots-clés de la même manière.
Deuxièmement.En appelant Claude 3.7 Sonnet à l'aide de l'API, l'utilisateur peut également personnaliser le "budget de réflexion" du modèle. Plus précisément, l'utilisateur peut demander à Claude de réfléchir en termes de nombre maximal de jeton Nombre (N). Quelle que soit la valeur de N, le modèle plafonne le nombre de jetons de sortie à 128K, ce qui permet à l'utilisateur de trouver l'équilibre optimal entre la rapidité (et le coût) de la réponse et la qualité de la réponse.
Troisièmement, lors de l'élaboration de son modèle d'inférence, laPlutôt que de se concentrer excessivement sur l'optimisation de la performance des modèles dans les questions de concours de mathématiques et d'informatique, comme l'ont fait d'autres organisations, Anthropic se concentre sur des tâches réelles qui sont plus pertinentes pour les scénarios d'application pratique des entreprises..
D'après les résultats du benchmark Claude 3.7 Sonnet, dans le benchmark SWE-bench Verified (qui est conçu pour évaluer la capacité de LLM à résoudre des problèmes logiciels réels sur GitHub), leClaude 3.7 Sonnet a atteint des performances de niveau SOTA, nettement supérieures à celles de modèles tels que Claude 3.5 Sonnet, o3-mini (high) et o1 d'OpenAI, et DeepSeek R1..

Dans le benchmark TAU-bench, qui est une plateforme de benchmarking utilisée pour évaluer la capacité de LLM à interagir avec l'outil dans des scénarios complexes et réalistes, Claude 3.7 Sonnet obtient également de bons résultats, atteignant une performance de niveau SOTA qui surpasse à la fois Claude 3.5 Sonnet et le modèle o1 d'OpenAI.

Claude 3.7 Sonnet démontre d'excellentes performances dans un certain nombre de domaines, y compris l'adhésion aux instructions, le raisonnement généralisé, les capacités multimodales et le codage intelligent, avec des améliorations significatives en mathématiques et en sciences, en particulier dans le mode de réflexion étendu. Cependant, dans certains domaines spécifiques, il reste légèrement en deçà des performances de l'OpenAI. o3-mini (élevé), Grok-3 Beta et d'autres modèles.

Il est facile de voir qu'Anthropic a mis l'accent sur les capacités de codage avec Claude 3.7 Sonnet, avec des améliorations relativement moins importantes dans d'autres domaines. Il est clair qu'Anthropic a l'intention de positionner la série Sonnet comme des modèles d'IA centrés sur le codage (et s'oriente d'ailleurs dans cette direction).

Il est intéressant de noter qu'en plus d'exceller dans les tests de référence traditionnels, le Claude 3.7 Sonnet a même surpassé tous les modèles précédents dans le test de jeu Pokémon.
Anthropic a déjà effectué de nombreux tests préliminaires avec ses partenaires, et les résultats ont largement démontré le leadership de la famille de modèles Claude en termes de capacité d'encodage.
Par exemple, l'équipe Cursor a noté que Claude était une fois de plus la solution de choix pour les tâches de codage dans le monde réel, et a montré des améliorations significatives dans la gestion de bases de code complexes et l'utilisation d'outils avancés, tandis que l'équipe Cognition a trouvé que Claude était plus performant que les autres modèles dans la planification des changements de code et la gestion des mises à jour de la pile complète. Vercel a souligné la précision de Claude dans les flux de travail complexes des agents, et Replit a utilisé Claude avec succès pour construire des applications web complexes et des tableaux de bord à partir de zéro, là où d'autres modèles avaient des difficultés, tandis que l'évaluation de Canva a montré que Claude produisait systématiquement un code bien conçu et prêt pour la production, et réduisait de manière significative les bogues. Des taux d'erreur considérablement réduits.
Code Claude
Le codage intelligent facilite le développement
Depuis juin 2024, la famille de modèles Sonnet est le choix privilégié des développeurs du monde entier. Aujourd'hui, lesAnthropic a officiellement lancé Claude Code, son premier outil de codage intelligent (actuellement en avant-première limitée), conçu pour améliorer la productivité et les capacités des développeurs..
Sur le plan fonctionnel, Claude Code se positionne comme un partenaire de collaboration proactif, capable d'effectuer des tâches telles que la recherche et la lecture de code, l'édition de fichiers, l'écriture et l'exécution de tests, l'envoi et le transfert de code sur GitHub, et l'utilisation de divers outils de ligne de commande.
Voyons quelques exemples Code Claude les scénarios d'application, comme l'explication de la structure du projet :

Tests d'écriture :

Créer l'application :

Bien qu'il soit encore en avant-première, Claude Code est devenu un outil indispensable pour l'équipe d'Anthropic, en particulier pour le développement piloté par les tests, le débogage de problèmes complexes et le remaniement de code à grande échelle.
Lors des premiers tests, Claude Code a été en mesure d'effectuer en une seule fois des tâches qui prendraient normalement plus de 45 minutes à réaliser manuellement, réduisant ainsi de manière significative le temps et les coûts de développement..
Dans les semaines à venir, Anthropic prévoit de continuer à optimiser Claude Code sur la base de ses propres retours d'utilisation, notamment en améliorant la fiabilité des appels d'outils, en améliorant la prise en charge des commandes longues, en améliorant le rendu dans l'application et en augmentant la profondeur de la compréhension par Claude de ses propres fonctionnalités.
Le lancement de Claude Code est conçu pour permettre une meilleure compréhension de la manière dont les développeurs travaillent avec Claude pour le codage, fournissant ainsi une référence précieuse pour les futures itérations des modèles d'Anthropic. Les participants à l'expérience Claude Code auront un accès anticipé aux outils puissants qu'Anthropic utilise en interne pour construire et optimiser les modèles Claude.
Construction responsable et perspectives d'avenir
Anthropic a testé et évalué Claude 3.7 Sonnet de manière approfondie et a travaillé avec des experts en sécurité externes pour s'assurer que le modèle répondait pleinement aux normes de sécurité et de fiabilité qu'il s'était fixées.
En même temps, Claude 3.7 Sonnet fait preuve d'un jugement plus fin pour distinguer les demandes nuisibles des demandes bénignes. Par rapport au modèle de la génération précédente, il a réduit le nombre de rejets inutiles de 45%.

Résultats de l'évaluation de la fidélité de la CoT.
Dans la Model Card for Claude 3.7 Sonnet, Anthropic détaille son cadre d'évaluation des politiques de mise à l'échelle de l'IA responsable et s'appuie sur l'expérience pratique d'autres laboratoires d'IA et de chercheurs dans des travaux connexes. En outre, la carte modèle décrit les nouveaux types de risques posés par l'application des technologies de l'IA, en particulier les attaques par injection rapide, et explique comment Anthropic évalue et répond à ces vulnérabilités potentielles en matière de sécurité, ainsi que la façon dont il forme le modèle Claude à se défendre contre ces risques et à les atténuer. En outre, la Model Card se penche sur les avantages potentiels des modèles d'inférence en matière de sécurité et examine des questions telles que "comment comprendre le processus de prise de décision du modèle" et "si les résultats de l'inférence du modèle sont vraiment dignes de confiance et fiables".

Anthropic estime que la sortie de Claude 3.7 Sonnet et Claude Code marque une étape cruciale vers une véritable autonomisation des humains avec les systèmes d'IA. Avec un raisonnement profond supérieur, un travail autonome et une collaboration efficace, Anthropic nous rapproche de la vision d'un avenir dans lequel la technologie de l'IA enrichit et élargit pleinement le potentiel humain.
Anthropic a également une vision passionnante de l'avenir : d'ici 2025, Claude devrait être devenue une intelligence experte capable de travailler de manière autonome pendant des heures, et d'ici 2027, Claude devrait être capable de résoudre des problèmes complexes qui prendraient des années à une équipe humaine.

© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...