人間と機械との関わり方にパラダイムシフトが起きている。これは、対話のみのチャットボットが、手、脳、目を持つ自律エージェントへと進化したことによる。
エージェントを探求する最初の大手モデル会社の1社として、スマート・スペクトラムは今日、いくつかの新展開をもたらした:
AutoGLMは、50以上のアクションからなる長いステップを自律的に実行することができ、アプリをまたいでタスクを実行することもできる。
AutoGLMが新たな「完全自動化」インターネット体験をオープン、数十のウェブサイトをサポート、無人化も進む
人間のようにコンピュータを操作するGLM-PC 視覚的マルチモーダルモデルに基づく汎用エージェント実装のための内部テストと技術探求を開始
Agent OpenDayでは、AutoGLMが数百人のゲストに「AIからWeChatの赤いパケット」を送り、携帯電話からコンピュータに遠隔操作でファイルを自動送信させた。
ウィズダムスペクトラムの張鵬CEOがすべきことは、その場で簡単な音声コマンドを出すことだけだ。これらは本来、機械にとって非常に複雑な操作であったが、今日では完全にスマート・スペクトラムの製品化エージェントがこなしている。
AutoGLMの新しいアップグレード:挑戦はより複雑になる
新たにアップグレードされたAutoGLMは、複雑なタスクにも挑戦できる:
より長い:特別に長い指示を理解し、特別に長いタスクを実行する。例えば、鍋の具材を購入する例では、AutoGLMは54ステップを途切れることなく自律的に実行します。さらに、AutoGLMは、この長い多段階の繰り返し作業において、人間の手作業を凌駕しています。
クロスアプリ:AutoGLMはタスクのクロスアプリ実行をサポートします。ユーザーは、複数のアプリを行ったり来たりする代わりに、AIが自動的に処理することに慣れるでしょう。現在のAutoGLMの形態は、ユーザーとアプリ間のAPP実行のスケジューリングレイヤーに近いため、クロスアプリ機能は非常に重要なステップです。
短いフレーズ:AutoGLMは長いタスクのためのカスタムフレーズをサポートすることができます。今日、AutoGLMに「コーヒーを買ってきて、生ココナッツラテ、五大湖店、ラージ、ホット、微糖」のような長いコマンドを与える代わりに、「コーヒーを注文してください」と言うことができます。
カジュアルモード: 私たちは皆、選択をすることを恐れています。カジュアルモードでは、AIがすべてのステップを決定し、ブラインドボックスという形でサプライズをもたらします。AIが注文したコーヒーのフレーバーを試してみませんか?
同時に、AutoGLMは大規模な内部テストを開始し、C-supportユーザー向けの製品としてできるだけ早く発売する予定である。 AutoGLMはまた、「10億APPs無料オートアップグレード」プログラムの開始を発表し、アプリパートナーに独自の新しいオートシナリオを共同で探求するよう呼びかけた。
コアシナリオとコアアプリケーションをサポートするAutoGLM標本APIは、2週間以内にSmart Spectrum maasオープンプラットフォーム(bigmodel.cn)で試用できるようになる。
ウェブ端末が「全自動」サーフィンの新体験を開く:今後、ウィズダム・スペクトラムのAutoGLMプラグインがオンラインになり、百度検索、微博(ウェイボー)、支付宝(Zhihu)、Githubなど数十のウェブサイトの無人運転をサポートする。現場デモでは、AutoGLMプラグインが「百度でマンゴーtvを検索し、小路家を開き、最新エピソードを再生し、エンディングに殴り込みをかけるポップアップを送信する」というプロセスを自動的に完了した。全プロセスを人間が介在することなく。
GLM-PCテストへの招待:"ドライバーレス "コンピューターの技術的探求
GLM-PCは、ウィズダムスペクトラムのマルチモーダルモデルであるCogAgentをベースとした、「ドライバーレス」PCのためのGLMチームによる技術探求である:
ミーティング・スタンドイン:ユーザーがミーティングを予約し、参加するのをサポートし、ミーティングのサマリーを送信します。
文書処理:文書のダウンロード、文書の送信、文書の理解と要約をサポート。
ウェブ検索と要約:指定されたプラットフォーム(WeChat、Zhihu、Xiaohongshuなど)で指定されたキーワードを検索し、読書と要約を完成させる。
遠隔操作と時間指定操作:遠隔の携帯電話からコマンドを送信し、GLM-PCは自律的にコンピュータの操作を完了することができます。
不可視スクリーン:ユーザーが作業している間、GLM-PCは不可視スクリーン上で自律的に作業を完了し、スクリーンの使用を解放します。
GLM-PCは、人間が使うのとほぼ同じように、目で図形や文字を見て、脳で計画を立て、手でクリック、ダブルクリック、タイピングなどの操作を行います。このため、GLM-PCは理論上、人間用に設計されたアプリケーションであれば、学習後に実行することができる。これは、HTMLやAPIに依存しないシステムレベルの、クロスプラットフォームの能力であり、能力の上限も高い。
しかし、PCは複雑であり、PCで行うことはほとんどすべて複雑な作業であるため、正直なところ、今日の大型モデルの能力は、オフィスのすべての人にとっての真の代替品となるにはまだ少し時間がかかる。GLM-PCは、現在のバージョンでは、ユーザーが非常に正確なコマンドを入力する必要がある。
GLM-PC「体験への招待」を開始しました。私たちは、この製品が完成した後、できるだけ早くすべてのユーザーに提供できるよう努力を続け、また、より多くのベンダーとのジョイントベンチャーを模索していきたいと考えています。
AutoGLMとGLM-PCは、AIインテリジェント・オペレーティング・システムに向けた私たちの重要な試みです。これらは、Wiseplanの大規模言語モデル、マルチモーダルモデル、論理推論、ツール利用などの技術の蓄積から生まれた。23年4月のAgentBenchから始まり、8月のCogAgentモデルまで、WiseplanのAutoGLM、GLM-PCのモデルであるCogAgentの開発は1年半に及ぶ。
OpenAIとは異なり、Smart Spectrumはビッグモデルの発達段階を5つに定義している:L1 言語能力、L2 論理能力(マルチモーダル能力)、L3 道具の使用能力、L4 自己学習能力、L5 科学的法則の探求。
これまでの開発で、ビッグモデルは、現実の物理世界と人間が相互作用する能力の一部を備えている。「エージェントは、L3の道具を使う能力を大幅に向上させ、同時にL4の自己学習能力の探求に道を開くだろう」。 とチャン・ペンは語った。
張鵬は、GLMチームは今後もエージェントモデル製品の開発を加速させ、コンピュータと携帯電話を一文で操作するパラダイムが一日も早く実現することを期待していると述べた。
チャットから演技までのビッグモデル
今日、ビッグ・モデル技術は、ニーズの理解、計画と意思決定、行動の実行、自己反省に基づいて、機械と人間の相互作用のあり方を変えつつある。エージェントは、直感的な人間とコンピューターの相互作用をもたらすだろう。
Apple Intelligence、Anthropic(Computer Use)、Google(Jarvis)、OpenAI(Operator)などの企業も、エージェント型AIを2025年の主要な焦点としている。ガートナーは最近、エージェント型AIを2025年のテクノロジー・トレンドのトップ10のひとつに挙げ、2024年にはゼロだった日常業務の意思決定が、2028年には少なくとも15%がエージェント型AIによって自律的に行われるようになると予測している。
GenAIとは異なり、エージェントはゴール駆動型であり、ワークフローを完全に実行し、適応し、学習し、反復し、他のシステムや人間と協力し、タスクをエンドツーエンドで完了することができる。張鵬の見解では、エージェントはLLM-OS(大規模モデル汎用オペレーティングシステム)のプロトタイプと見なすことができる。
「現段階では、AutoGLMは人間とアプリケーションの間に実行スケジューリングレイヤーを追加することに等しく、人間と機械のインタラクションの形を大きく変える。さらに重要なことは、LLM-OSの可能性を見ていることです。LLM-OSは、大規模なモデルインテリジェンス機能(L1からL4、そしてそれ以上)に基づくもので、将来的には人間とコンピュータのネイティブなインタラクションを可能にする可能性があります。HCIパラダイムを次のレベルへ"
AI時代のスマートデバイスの新たなパラダイム
ビッグモデルの能力が進化し続けるにつれ、AIが自らの脳、目、手を成長させていくのが徐々に見えてきている。知能が成長し続けているだけでなく、知覚能力とインタラクションの帯域幅も豊かになり、拡張されている。
Smart SpectrumのCOOであるZhang Fan氏は、スマートデバイスはビッグモデルのサポートによって新たなチャンスでリフレッシュされると述べた。携帯電話+AIはパーソナル・インテリジェント・アシスタントになり、パソコン+AIは新たな生産性ツールになり、自動車+AIは自動車をスマートな第3の生活空間にする。もちろん、ビッグモデルは携帯電話、PC、自動車にチャンスをもたらすだけでなく、あらゆるスマートデバイスにも恩恵をもたらすだろう。ビッグ・モデルの絶え間ない進化は、エージェントが人とクルマのインタラクション体験を変革するための強固な基盤を築いた。
エンドサイドのパフォーマンスとコンピューティングパワーの継続的な向上、AIネイティブデバイスに適応したモデル、エンドクラウドホモロジーによる協調アーキテクチャの出現により、AgentはオペレーティングシステムのOSやアプリケーション上のユーザーエクスペリエンスを変革するだけでなく、携帯電話からコンピュータ、自動車、メガネ、家庭、あらゆるエッジサイドのデバイスに至るまで、あらゆる種類のスマートデバイスに拡張され、あらゆる種類のAIネイティブデバイスが出現しようと躍起になっている。
GloryのAIテクニカルディレクター王祖堅氏、ASUS AIPCのインテリジェントエコロジー責任者中淮生氏、Xiaopeng Automobile Cockpitのインテリジェントボイス/インテリジェントビジネス責任者連磊氏、Qualcomm AI製品技術中国責任者万衛星氏、Intel中国技術部長高瑜氏は、Smart Spectrumの顧客およびパートナーとして、それぞれ異なるシナリオからインテリジェント端末の実践と展望を語った。
ビッグモデルとエージェントの発展は、AI時代のスマートデバイスの新しいパラダイムをユーザーにもたらすだけでなく、ビッグモデル技術のより広い着地点を意味する。スマートデバイスからスマートネットワークまで、近い将来、AIネイティブデバイスの相互接続性と無限の可能性が見えてくるでしょう。このプロセスにおいて、Smart Spectrumは、スマートデバイスがビッグモデルを受け入れ、AIネイティブデバイスの新時代に向けて加速するための一連の製品と機能も提供していきます。
AutoGLMアプリケーションアドレス