パソコンに比べ、携帯電話は「手放せない」存在であり、私たちの生活に密着している。
コンピュータ利用」が人間とコンピュータのインタラクションの新しいパラダイムを切り開くとすれば、「電話利用」はそれをさらに一歩進め、より多くのアプリケーションの可能性を解き放ち、AIが真にすべての人に恩恵をもたらすことを可能にする。
GLM-PC(スマート・スペクトラム・ブル)が社内ダウンロードで正式リリース、コンピュータを本当にコントロールできるAI
今日、言語モデリング、マルチモーダルモデリング、ツール使用におけるGLM技術チームの努力と知見に基づき、GLM初の製品化されたインテリジェントボディ(エージェント)であるAutoGLMを発表します:
WeChatで「上司の友人サークルにいいね!やコメントを書き込む」......。
タオバオで「ある歴史的な注文商品を買う」......。
Ctripでホテルを予約する。
12306で列車の切符を買う。
Meituanで持ち帰りを注文する......。
理論的には、GUIを深く理解することで、AutoGLMは人間が視覚電子機器(コンピュータ、携帯電話、タブレット......)でできることは何でもできる。
単純なタスクシナリオやAPI呼び出しに限定されず、複雑で面倒なワークフローをユーザーが手作業で構築する必要もなく、操作ロジックは人間と同様で、人間の日常生活や仕事を真に支援する。
プロジェクトアドレス:https://xiao9905.github.io/AutoGLM
今回はまだ『先物』は掲載していませんので、パスしていただいて結構です:
ChromeまたはEdgeに「Wisdom Spectrum」プラグインをインストールして、AutoGLM-Webを体験してください。このプラグインは、ユーザーのウェブページへの訪問やクリックをシミュレートするブラウザ・アシスタントで、ユーザーのコマンドに基づいてウェブサイト上の高度な検索、要約、コンテンツ生成を自動化する大規模なモデルを備えています。
携帯電話側では、一部のQingyinユーザー(当面はAndroidシステムのみサポート)を対象に第一陣が公開されており、社内テストのための応募も歓迎されている。また、AutoGLMをベースにHonorなどの携帯電話メーカーと深い協力関係にあることも特筆に値する。
AutoGLMテクノロジー
AutoGLMはSmart Spectrumが独自に開発した "Decoupled Intermediate Interface for Basic Intelligents "と "Self-evolving Online Course Reinforcement Learning Framework "をベースにしており、大規模モデル知能のタスク計画と行動実行における容量拮抗、トレーニングタスクとデータの希少性、フィードバック信号の希少性、戦略分布のドリフトなどの知能研究と応用の課題を克服し、反復プロセスで継続的に改善できる自己適応学習戦略と結合しています、継続的かつ安定的にパフォーマンスを向上させる。ちょうど人が成長する過程で、絶えず新しいスキルを身につけるように。
AutoGLMは、大規模なモデルを知能として使用する際の2つの重要な課題に対処する:
課題1:「行動の実行」の精度が不十分
大規模なモデル知能を訓練する際の大きな課題の1つは、画面に表示された要素を正確に操作することをいかにモデルに学習させるかにある。行動実行」能力と「タスク計画」能力を共同で訓練するエンド・ツー・エンド訓練は、軌跡データの取得コストが高く、総データ量が著しく不足するため、高い精度が要求される行動実行能力の訓練が不十分であるという制約がある。
この問題を解決するために、AutoGLMは「基本知能の分離型中間インターフェース」の設計を導入し、自然言語中間インターフェースを通じて「タスク計画」と「行動実行」の2つのフェーズを分離し、知能能力の大幅な向上を実現している。例えば、携帯電話でテイクアウトを注文し、「注文を送信」ボタンをクリックする場合、従来の方式と「中間インターフェース」の方式を比較すると、次のようになる:
課題2:"ミッション・プランニング "における柔軟性の欠如
もう一つの大きな課題は、GUIインテリジェンスには極めて限られた、コストのかかる訓練軌道データがあるということだ。さらに、インテリジェンスは複雑なタスクや実世界の環境に直面したときに、その場で計画を立て修正する柔軟性を持つ必要がある。これは、模倣学習や教師あり微調整(SFT)のような従来の大規模モデル学習手法では容易に得られない。このため、我々は、Webブラウザを実験環境として、Webと電話の両方の実際のオンライン環境において、大規模モデルの知能をゼロから学習し、その能力を向上させる「自己進化型オンラインコース強化学習フレームワーク」を開発した。自己進化的な学習戦略を導入することで、モデルは継続的に自分自身を検証し、拍車をかけ、改善する。コース強化学習法を通じて、フレームワークは、モデルの潜在能力を最大化するために、現在の反復ラウンドにおける知能の能力レベルに応じて学習課題の難易度を動的に調整する。また、KL分散制御の方針更新と知能体の自信経験再生により、反復学習中にモデルが以前に学習した課題を忘れてしまう問題を緩和・回避する。この方法に基づいて学習されたオープンソース版GLM-4-9Bは、WebArena-Lite評価ベンチマークにおいてGPT-4oと比較して160%以上の改善が可能であり、43%の総合タスク成功率を達成した。
AutoGLMは、Wiseplan独自の戦略である「基本知能の中間インターフェースの切り離し」と「自己進化型オンラインコース強化学習フレームワーク」の複合的な適用により、電話使用とウェブブラウザ使用の両方で大幅な性能向上を達成しています。例えば、AutoGLMは、AndroidLabベンチマークでGPT-4oとClaude-3.5-Sonnetを大幅に上回っています。 WebArena-Liteベンチマークにおいて、AutoGLMはGPT-4oと比較して約200%の性能向上を達成し、GUI操作における人間と大規模モデル知能の成功率の差を大幅に縮めた。
AutoGLMは、Androidアプリケーションによって、実際のAndroid携帯電話で複数のアプリケーションの自動タスク実行をサポートするようになりました。AutoGLMは、単純なタスクの手動評価でも十分な性能を発揮します。