本日、Anthropic社は、「Steelcase」のアップグレードバージョンのリリースを発表した。クロード 3.5 ソネットおよび新モデルクロード 3.5 俳句.今回のアップデートでは、コーディング機能が向上しただけでなく、画期的な機能であるコンピューター使用現在、公開テスト段階にある。
更新済み クロード 3.5ソネットは、すべての面で前モデルを改善し、特に、すでにリーダーであったエンコーディングの分野で大きな進歩を遂げました。クロード3.5ハイクは、多くの評価で前世代のハイクと同じコストと同様の速度を達成し、前最大モデルであるクロード3オーパスと同等のパフォーマンスを発揮します。
クロード3.5ソネットのメジャーアップグレード
アップグレードされたClaude 3.5 Sonnetは、多くの分野で優れており、特にエンコーディングにおいて、SWE-bench Verifiedベンチマークで33.4%から49.0%へと性能が向上し、一般に公開されているすべてのモデルを凌駕しています。さらに、TAU-benchのリテールおよび航空宇宙ドメ インでも、Sonnetの性能はそれぞれ62.61 TP3Tから69.21 TP3T、36.01 TP3Tから46.01 TP3Tへと大幅に向上しています。
初期のユーザーからのフィードバックによると、Claude 3.5 Sonnetはマルチステップのソフトウェア開発で優れたパフォーマンスを発揮し、GitLabなどの企業では、101 TP3Tで推論が向上し、待ち時間が増加しなかったとのことです。
クロード3.5 俳句:効率的かつ経済的
新しいクロード3.5ハイクは、現在入手可能な最速モデルであり、SWEベンチ検証で40.61 TP3Tを記録し、コーディングタスクで特に優れた性能を発揮します。ハイクは、同じコストとスピードで、その前身である最大モデルのクロード3オーパスを凌駕します。
革新的なコンピューター使用機能
クロード3.5ソネットは、公開テストでコンピュータの使用機能を提供する最初の最先端AIモデルです。開発者はAPIを通じて、画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりと、人間のようにコンピュータを使うようクロードに指示することができる。この機能はまだ実験段階だが、Asana、Canva、Cognitionなどが複雑なタスクを実行するために使用している。
OSWorldの評価では14.9%を記録し、他のAIシステムの7.8%を大きく上回った。Anthropicは今後もこの能力を向上させ、悪用される可能性を防ぐために安全な使用を保証する措置を講じると述べている。
首を長くして
テクノロジーが進化し続ける中、Anthropicはユーザーからのフィードバックを通じて、この新機能の可能性と影響についてより多くを学ぶことを楽しみにしています。同社は、開発者がこれらの新しいモデルを探求することを奨励し、生産性を促進するためにこれらの技術革新をどのように使用するかを見ることを楽しみにしています。
Anthropicは、これらの新しい開発が、ユーザーとクロードとの交流に新しい可能性を開くと信じている。