AIパーソナル・ラーニング
と実践的なガイダンス

Smart Spectrum GLM-PCオープン体験:コンピュータを自律的に操作するマルチモーダルエージェントがバージョンアップ

 


GLM-PCは、CogAgentのマルチモーダルモデルに基づいた世界初の一般向けターンキーコンピュータエージェントです。人間のようにコンピュータを「観察」し、「操作」することができ、ユーザが様々なコンピュータタスクを効率的に完了できるよう支援します。

 

2024年11月29日にGLM-PC v1.0がリリースされ、オープンベータ版が公開されて以来、私たちは「ディープシンキング」モードの導入、論理的推論とコード生成に特化した機能の追加など、最適化とアップグレードを続けてきました。さらにWindowsシステムのサポートも行っています。.

 

ダウンロード&体験:https://cogagent.aminer.cn

 

GLM-PCアーキテクチャ

近年、エージェントはモデルやアーキテクチャのレベルで議論されることが多くなっている。

 

ラージ・ランゲージ・モデル(LLM)のツール呼び出し機能は、LLMが人間の生産と有機的に統合されたエージェントとして、優れた汎化能力と小サンプル学習能力を持って使用できることを初めて示したが、その応用範囲は、テキスト形式で対話できる一般にアクセス可能なツールの種類によって制限されている。

 

CogAgentに代表される一連の視覚言語モデル(VLM)ベースのグラフィカル・インターフェイス・インテリジェント(GUIエージェント)は、マルチモーダル知覚を通して完全なGUI空間インタラクションを実現する新しい道を提案する。これらのGUIエージェントは、人間と同様にインタフェース要素やレイアウトを視覚的に認識し、人間をシミュレートしてクリックやキーボード入力などのメタ操作を行うことができ、仮想インタラクション空間におけるエージェントの応用範囲を大きく広げる。

 

同時に、SWE-agentのようなマルチエージェントシステムは、様々なモデルの長所を取り入れて、マルチモデルベースのプランニング、リフレクション、自己反復性を探求し、マルチエージェントコラボレーションの可能性を示している。

 

我々は、エージェントの発展は、モデル能力の向上とコラボレーション・アーキテクチャの最適化に起因すると考えている。

 

完全なエージェントは以下の条件を満たす必要がある:

  • 知覚レベルでは、テキスト、画像、ビデオ、音声など複数の信号を受信することができる;
  • 思考レベルでは、論理的思考力と作業計画力(左脳に近い)、効率的知覚力と柔軟な操作力(右脳に近い);
  • 実行レベルでは、完全なGUI宇宙操作を実行し、環境フィードバックを受け取り、自己修正する能力。

 

このような考えに基づき、2023年には、マルチモーダル知覚におけるGUIエージェントのギャップを埋めるCogAgentオープンソースモデルを発表し、2024年11月には、GLM-PC v1.0を発表し、知覚・計画・作成能力をさらに強化し、限定的な自己補正を実現しました。

 

新バージョンのGLM-PCは、人間の「左脳」と「右脳」の役割分担を利用し、コード生成とグラフィカル・インターフェース理解を通じて、論理的推論と知覚的認知の深い結合を実現し、論理性と創造性のバランスを取りながら、複雑なタスクをこなす人間を支援する能力を与える。

 

その背景には、スマートスペクトラムが独自に開発したマルチモーダルモデル「CogAgent」とコードモデル「CodeGeex」の深い統合がある。新バージョンのGLM-PCは、ワークフローやツールの起動をコード形式で命令し、深層思考モードでの計画・推論・考察能力を強化することで、複雑なシナリオやタスクにも安定的かつ効率的に対応できるようにした。実際の実行中、GLM-PCは多層的な環境フィードバックを感知し、効果的な自己修正と最適化のための内省を支援することができます。

 

訓練済みGUIエージェントの研究を促進するため、2024年12月に完全に強化されたモデルCogAgent-9B-20241220をオープンソース化したことは特筆に値する。

 

 

エージェント左脳:コード生成とロジック実行

GLM-PCの「左脳」は、厳密な論理的推論とタスク実行を担当する。その主な機能は以下の通り:

 

1.プランニング

GLM-PCは、ユーザーのタスク要求に基づき、詳細なタスク計画プログラムを迅速に作成することができます。目的と利用可能なリソースを総合的に分析し、実行ロードマップを作成し、大きなタスクを管理可能なサブタスクに自動的に分解し、明確な実行経路を構築します。

 

2、ループ実行(ルーピング実行)

計画段階が終了すると、GLM-PCはコード生成モジュールを起動し、タスクの完了に向けて一歩一歩進む論理ループを実行する。このループメカニズムにより、高度な自動化による正確なタスクの実行が保証され、その結果、人間の介入なしに入力から出力まで完全なクローズドループが実現します。

 

ケーススタディ:ワンストップ・ショッピング・プロセス

商品情報を例にとると、GLM-PCは自動的に写真から商品データを抽出し、エクセルに保存し、自動的にタオバオのショッピングカートに商品を入れることができ、ワンストップショッピングを実現する。

 

操作手順:写真の商品情報を取得し、デスクトップに新規エクセルを作成して情報を保存し、タオバオショッピングカートに商品情報を追加する。

 

(本文中ではビデオを一部加速している)。

 

3.長い思考力:ダイナミックな反省、エラー修正、最適化

GLM-PCの "左脳 "機能は、静的なプランを生成するだけでなく、実行プロセス中に新たな環境情報に基づいて、リアルタイム調整、反射的修正、自己修正を行うことにより、ソリューションを継続的に最適化します。具体的な性能は以下の通りである:

  • 中断への柔軟な対応:外的要因によってプロセスが中断された場合、GLM-PCはタスクがスムーズに実行されるように、論理パスを素早く再構成します。
  • プロアクティブな情報洗練:不足情報が発生した場合、GLM-PCは積極的にユーザーと対話し、質問することでタスク実行計画を洗練させる。

 

ケーススタディ:効率的な情報処理と社会的相互作用

例えば、ユーザーが小本集の「春節新年映画」の情報を処理する時、GLM-PCは素早く関連データを探して抽出し、同時にコンピューターに情報を保存するコードを書くことができる。生成されたコードにエラーがある場合、エラーメッセージに従って修正することができます。

 

やり方:小洪水で「春節年越し映画」を検索し、最初のグラフィック投稿から投稿画像を引用し、WeChatの{GGG}グループチャットに画像を送り、どの映画を観たいか尋ねる。

 

 

エージェント右脳:イメージとGUI認知

GLM-PCの「右脳」は、奥行き知覚とインタラクティブな体験に焦点を当てています。そのコア機能は以下の通りです:

  • GUIイメージの理解:グラフィカル・インターフェース要素(ボタン、アイコン、レイアウトなど)を正確に識別し、その機能とインタラクション・ロジックを理解する。
  • ユーザー行動認知:ユーザーインターフェースの学習と過去の操作情報の理解を組み合わせ、現在のインターフェースに対するインテリジェントな推奨操作をユーザーに提供します。
  • 画像セマンティック解析:複雑な画像を詳細にセマンティック解析し、テキスト、識別子、データ可視化チャートの傾向や指標などの重要な情報を抽出します。
  • マルチモーダル情報融合:画像情報とテキスト情報を融合し、総合的な知覚結果を形成する。例えば、ユーザーインターフェースのボタン位置とテキストラベルの両方を認識することで、「左脳」が正確な操作計画を立てるのを助ける。

 

デモンストレーション:効率的なデータ整理とアーカイブ

例えば、GLM-PCは小宏集の「AIランキング」に関連するグラフィックコンテンツを検索・抽出することができる。その後、自作コードを通じて、企業情報はデスクトップ上の新規作成されたExcelファイルに保存され、投稿のテキスト内容は指定されたWord文書に保存され、ユーザーデータの効率的な整理とアーカイブが保証され、情報管理の効率が向上します。

 

操作手順:小宏集の最初の画像と文章投稿で「新エネ車リスト」を検索し、最初の投稿の画像内容と文章内容を引用し、画像内の情報リストを取得して新しいデスクトップのエクセルに保存し、投稿の文章内容を新しいデスクトップのワード文書「new-energy」に入れる。そして、その投稿のテキストをデスクトップのnew-energyという新しいワード文書に入れる。

 

 

エージェント・オブ・エージェント:左脳と右脳のコラボレーション

左脳と右脳の協働を利用したこのモデルにより、GLM-PCは複雑な論理的タスクを処理できるだけでなく、オープンエンドな問題に対して、より高い適応性、創造性、一般化を示すことができます。動的最適化と文脈認識により、GLM-PCは、特に周期的タスク処理、多段階推論実行、長鎖タスク管理において、ユーザーがより効率的な解決策を探求する手助けをすることができます。

 

ケーススタディ:6年生の英単語学習教材

GLM-PCは、6級英単語学習アシスタントとして、指定されたウェブサイトから6級単語を自動的に抽出し、その単語をもとに文章を作成し、単語とその文章を「6級英単語学習」という新しいWord文書に自動的に保存することができます。

 

この「https://www.dxsbb.com/news/277.html」6年生の語彙の中から3つの語彙を見つけ、それぞれの語彙に対応する文を作り、語彙と対応する文を新しいWord文書に貼り付け、「6年生英単語学習」として保存します。

 

 

デモ:WeChatの祝福と新年のお祝いの画像グループ送信のパーソナライズ

GLM-PCは、WeChatのグループ友達向けに、パーソナライズされた旧正月のお祝いやお祝いの写真/ビデオを自動的にカスタマイズし、ワンクリックでグループとして送信することができ、効率的にお祝いの挨拶を完了することができます。

 

使用方法:WeChatで「GGG」グループのメンバーリストを引用し、各メンバーに2025年の旧正月を祝うメッセージと巳年をテーマにした写真を送る。

 

 

ケーススタディ:インテリジェントなフライト照会とスケジューリング

GLM-PCは、ユーザーに迅速なフライト情報を提供し、最も経済的な航空券をスクリーニングし、Flybookカレンダーのリマインダーの設定と同期させることで、フライトの問い合わせ、航空券のスクリーニングからスケジューリングまでのワンストップサービスを実現します。

 

指示: Ctripで1月21日に上海から北京へ行く一番安い航空券を探すのを手伝ってください; フライトの6時間前に、空港に出発するテーマで、30分間にフライブックのカレンダーを設定するのを手伝ってください。

 

ショーケース: PDF Maths Questions 抽出と整理のプロセス

GLM-PCは自動的にPDFファイルを開き、指定された内容を抽出し、情報を照合してWord文書に保存します。

 

操作手順:デスクトップ上の「順列と二項定理の練習.pdf」を開き、現在のインターフェイスを要約した数学の最初の数問を引用し、デスクトップ上の新しいワード文書に入れるのを手伝ってください。

 

 

コラボレーション

我々は、AIPC(AIパーソナルコンピュータ)の革新と開発を共同で推進するため、レノボやアスースなどの有名なPCメーカーとの綿密な協力関係を模索している。

 

AIPCは単なるコンピュータではなく、パーソナルコンピューティングにおけるAIエージェントの新たな応用であり、ユーザーにより効率的でスマートな仕事と生活を提供することができる。

無断転載を禁じます:チーフAIシェアリングサークル " Smart Spectrum GLM-PCオープン体験:コンピュータを自律的に操作するマルチモーダルエージェントがバージョンアップ

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語