Skywork-SWE-32B - KunlunWanweiオープンソース自律コードインテリジェントボディベースモデル

スカイワーク-SWE-32Bとは?

Skywork-SWE-32Bは、Kunlun World Wideによって導入されたオープンソースの32Bスケールソフトウェアエンジニアリング(SWE)自律コードインテリジェンスベースモデルです。このモデルは、強力なリポジトリレベルのコード修復機能を持つソフトウェアエンジニアリングタスクに焦点を当てており、多ラウンドのやり取りや長いテキスト処理を含む複雑なシナリオに優れています。10,000以上の検証可能なGitHubリポジトリタスクインスタンスを構築することで、最大の検証可能なGitHubリポジトリレベルのコード修復データセットが作成され、SWE-bench Verifiedベンチマークテストで38.0%のpass@1精度を達成し、同じパラメータスケールでモデルの最高のパフォーマンスを更新しました。テスト時間スケーリング技術の導入により、精度はさらに向上し、47.0%となり、32Bまでの既存のオープンソースモデルを大幅に上回り、いくつかのクローズドソースモデルの性能に近づくか、あるいはそれを上回ります。

Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

スカイワーク-SWE-32Bの主な特長

  • 倉庫レベルのコード修正GitHubリポジトリからコード上の問題(バグなど)を特定し、修正コードを生成し、修正の効果を検証し、問題の把握から解決までの一連のプロセスを完了させることができる。
  • マルチホイール・インタラクション機能実際の開発シナリオにおける複数のデバッグおよび修正プロセスをシミュレートし、問題を段階的に解決します。
  • 長いテキストの処理32kトークンを超える長いテキストを扱うことができ、複雑なコードファイルや複数のファイルの依存関係を処理するニーズに対応します。
  • 自動検証専用の実行環境と単体テスト検証機構を構築し、生成された修復コードが実際の実行環境で有効であることを保証する。
  • データ主導のパフォーマンス改善大規模(10,000インスタンス以上)で高品質な検証可能なデータセットに基づくトレーニングにより、データ量が増加するにつれてモデルの性能は向上し続け、データスケーリングの法則がソフトウェアエンジニアリングのタスクに適用可能であることが検証されました。

スカイワーク-SWE-32Bのプロジェクトアドレス

  • HuggingFaceモデルライブラリ:: https://huggingface.co/Skywork/Skywork-SWE-32B
  • 技術論文:: https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

スカイワーク-SWE-32Bの技術的優位性

  • 大規模で高品質なデータセット
    • データサイズと多様性Skywork-SWE-32Bは、2,531の異なるGitHubリポジトリをカバーする10,000以上の検証可能なGitHubリポジトリタスクインスタンスで学習されており、検証可能なSWEデータセットとしては最大です。この大規模なデータセットは、モデルがより多様なコード修復パターンを学習するための豊富な学習サンプルを提供します。
    • 自動化されたデータ収集と検証3段階の自動化プロセス(データ収集と事前スクリーニング、実行ベースの検証、スマートボディの軌道生成)により、データの高品質と検証可能性を確保。各タスクインスタンスは、自動ユニットテスト検証をサポートする専用のDocker実行環境イメージを備えており、生成された修復コードが実際の実行環境で有効であることを保証します。
  • パワフルなモデル性能
    • 高精度SWE-bench Verifiedベンチマークテストにおいて、Skywork-SWE-32Bは38.0%のpass@1精度を達成しました。テスト・タイム・スケーリング(TTS)技術の導入により、精度はさらに向上し、47.0%となり、32B以下の既存のオープンソースモデルを大幅に上回り、いくつかのクローズドソースモデルの性能に近づくか、あるいはそれを上回ります。
    • データスケーリングの法則系統的な検証を通じて、学習データのサイズが大きくなるにつれてモデルの性能が向上し続けることが判明し、ソフトウェアエンジニアリングのタスクにおけるデータスケーリングの法則の適用可能性が検証された。モデルの性能は、データ量の増加とともにさらに向上する可能性があり、将来の拡張に対する理論的な裏付けとなる。

スカイワーク-SWE-32Bをお使いの方

  • ソフトウェア開発者開発者は、Skywork-SWE-32Bを使用することで、コード内の問題を素早く見つけて修正することができ、手作業によるデバッグの時間と労力を削減できます。
  • ソフトウェア・テスト・エンジニアテストエンジニアは、Skywork-SWE-32Bを使用することで、単体テストの自動実行、生成された修復コードの妥当性の検証、テスト効率の向上を実現できます。
  • プロジェクト管理コードの修正と最適化を自動化することで、プロジェクトの技術的負債を削減し、プロジェクトの納品スピードと品質を向上させます。
  • 学術研究者研究者は、Skywork-SWE-32Bを実験プラットフォームとして使用することで、大規模な言語モデルをソフトウェアエンジニアリングのタスクに適用したり、データスケーリングの法則などの理論を検証したりすることができます。
  • テクニカル・マネージャー兼アーキテクトスカイワーク-SWE-32Bの性能データと技術的な利点により、テクニカルマネージャーや設計者は、より多くの情報に基づいた技術的な決定を下すことができます。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません