AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1
全39記事

Tags: デスクトップ・オートメーション・インテリジェンス

Agent S:像人类一样操作电脑的开源智能体框架-首席AI分享圈

エージェントS:人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介 エージェントSは、Simular AI社が開発したオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて、人間のようにコンピュータを操作することができる。マルチモーダル・マクロ言語モデルと経験的学習技術を使用し、ウェブ閲覧、文書編集、ソフトウェア使用などのタスクを実行する。プロジェクトはGitHubで公開されている。

Libra:用对话生成本地AI智能体的客户端(内测)-首席AI分享圈

Libra: ダイアログ付きローカルAIインテリジェンス生成クライアント(内部テスト中)

Libraは、Greenbit.aiが提供する革新的なツールで、その中核機能は、自然言語対話を通じてローカルで実行可能なAIインテリジェンスを生成することである。バイブ・エージェント」と呼ばれるこのツールは、ユーザーが自分のニーズを簡単な言葉で説明したり、独自のインテリジェンスを素早く作成したり、ウェブ検索やデータ...

Optexity:用人类演示训练AI执行网页操作的开源项目-首席AI分享圈

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの中核は、人間のデモデータを使用して、コンピュータタスク、特にウェブページ操作を完了するためにAIを訓練することです。このプロジェクトには、ComputerGYM、AgentAI、Playwrightの3つのコードライブラリが含まれており、ユーザは...

RunRabbit:使用语音和文字操作智能体完成电脑操作-首席AI分享圈

RunRabbit:音声とテキストを使ってインテリジェンシアを操作し、コンピューター操作を完了させる

概論 RunRabbitはAIベースのツールであり、ユーザーは簡単な音声やテキストコマンドによってブラウザを操作し、様々なタスクを実行することができる。その最大の特徴は、ユーザーのニーズを理解し、情報の検索、フォームへの入力、反復的なタスクの実行など、ウェブページを自動的に操作することである。ウェブサイト ...

LangGraph CUA:コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

LangGraph CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築できる。このツールの中核は "Computer Use Agent" (CUA)で、人間の知能をシミュレートすることができる。

Agent TARS:使用视觉和命令操作电脑的开源智能体-首席AI分享圈

エージェントTARS:視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス

総合紹介エージェントTARSは、ByteDance社がオープンソース化したマルチモーダルAIインテリジェンスで、ウェブコンテンツを視覚的に理解し、コマンドラインとファイルシステム操作を組み合わせることで、ユーザーが複雑なコンピュータタスクを完了するのを支援するコア機能を備えている。従来のツールのように手動操作を必要とせず、自動的にブラウザ...

Playwright MCP:微软推出的浏览器自动化MCP服务-首席AI分享圈

Playwright MCP:マイクロソフトのブラウザ自動化MCPサービス

一般的な紹介 Playwright MCPはMicrosoftによって開発され、GitHubでホストされているオープンソースツールです。モデルコンテキストプロトコル(MCP)プロトコルを介して、人工知能モデルがブラウザを直接制御し、ウェブページを開いたり、要素をクリックしたり、テキストを入力したりといったアクションを実行することができる。このツールはPl...

Airtop:使用自然语言控制的浏览器自动化工具-首席AI分享圈

Airtop:自然言語コントロールを用いたブラウザ自動化ツール

概論 AirtopはAIベースのブラウザ自動化ツールである。クラウドブラウザを制御し、ウェブサイトへのログイン、データのクロール、自動化タスクの実行など、複雑なウェブ操作を簡単な自然言語コマンドで実行することができます。従来のスクリプトを書くことの複雑さを解決し、...

BrowserAgent:在浏览器中创建和运行AI工作流的工具-首席AI分享圈

BrowserAgent: ブラウザ上でAIワークフローを作成・実行するツール

一般的な紹介 BrowserAgentは、ブラウザ上で直接AIワークフローを作成し、実行するツールです。使い方は簡単で、コードを記述する必要はありません。ユーザーが行うべきことは、希望するワークフローを記述することだけで、AIは自動的に生成されます。核となる特徴は、完全にプライベートであることで、すべてのデータはブラウザ上で処理され、...

Highlight AI:使用语音和屏幕分析完成桌面任务的AI助手-首席AI分享圈

Highlight AI: 音声と画面分析を使ってデスクトップタスクをこなすAIアシスタント

概要 Highlight AIは、WindowsとmacOS(モバイル版は開発中)向けのデスクトップAIアシスタントで、音声コマンドと画面コンテンツの分析を通じて、ユーザーがあらゆるアプリでタスクを素早く完了できるよう支援します。画面の内容をキャプチャし、コードを生成し、質問に答え、GitHubと連携します。

autoMate:结合AI与RPA实现电脑任务自动化的本地工具-首席AI分享圈

autoMate:AIとRPAを組み合わせてコンピュータ作業を自動化するネイティブツール

総合紹介 autoMateは、yuruotong1がGitHub上でオープンソース化し開発したローカル自動化ツールで、AI+RPA(Artificial Intelligence + Robotic Process Automation)を中核機能としています。大規模な言語モデルのインテリジェントな理解とRPAのプロセス実行機能を組み合わせることで、ユーザーは自然言語を使用するだけでよい...

Nanobrowser:浏览器中实现任务自动化的多智能插件-首席AI分享圈

ナノブラウザ:ブラウザのタスク自動化のためのマルチインテリジェンス・プラグイン

概論 Nanobrowserは、AI主導のマルチエージェントシステムによってウェブタスクを自動化するために設計されたオープンソースのChrome拡張機能です。LLM(大規模言語モデル)のAPIキーを提供するだけで使用でき、OpenAI Operatorに代わる無償の拡張機能です。

Proxy Lite:3B参数视觉模型驱动的网页自动化工具-首席AI分享圈

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

概要 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量ウェブ自動化ツールで、Proxyのミニバージョンとしてオープンウェイトデザインで開発されています。3BパラメータのVLM(Visual Language Model)をベースにしており、自律的なウェブナビゲーションとタスク実行が可能です。

Rabbit Android Agent:语音控制安卓应用的智能体(未开放)-首席AI分享圈

Rabbit Android Agent:Androidアプリケーションのための音声制御インテリジェンス(非公開)

一般的な紹介 Rabbit Android Agentは、Rabbitが開発した革新的なAIインテリジェンスで、音声やテキストコマンドを通じて、ユーザーがAndroidデバイス上で単一または複数のステップのタスクを完了できるように設計されています。この技術は、ラビット社のLAM(Large Action Model)をベースにしています。

Convergence:在代理浏览器中自动完成重复任务的AI助手-首席AI分享圈

コンバージェンス:エージェント・ブラウザで反復作業を自動化するAIアシスタント

はじめに コンバージェンスは、機械学習技術を駆使して、人々が自分の時間をコントロールできるように支援する会社です。大規模なメタ学習モデル(LMLM)を開発することで、コンバージェンスのAIエージェント(ブラウザ・エージェント)は、リアルタイムで新しいスキルを習得し、行動を起こし、継続的に改善することができます。そのコア ...

mac assistant:macOS设备自动执行桌面操作的AI智能体-首席AI分享圈

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 macアシスタントは、macOS専用に設計されたAIインテリジェンス・プロジェクトで、ネイティブ・ソフトウェアとウェブ機能を組み合わせることで、ユーザーの操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINI APIをサポートしており、将来的にはOllamaによって実行されるネイティブの大規模言語モデルをサポートする予定です。

Open Operator:通过AI智能体在云浏览器中执行自动化操作-首席AI分享圈

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概要 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトです。Browserbaseによって開発されたこのプロジェクトは、StagehandとBrowserbaseの技術を組み合わせ、ユーザーが自然言語コマンドによってブラウザの動作を制御できるようにします。

MobileAgent:多代理协作的移动设备操作助手-首席AI分享圈

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、AndroidとHarmony OSシステムをサポートし、複雑な...

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体-首席AI分享圈

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルフィードバックと操作を提供することを可能にします...

ja日本語