AIパーソナル・ラーニング
と実践的なガイダンス
アリが描いたカエル
全26記事

Tags: デスクトップ・オートメーション・インテリジェンス

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型Web自動化ツール - Chief AI Sharing Circle

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

概要 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量ウェブ自動化ツールで、Proxyのミニバージョンとしてオープンウェイトデザインで開発されています。3BパラメータのVLM(Visual Language Model)をベースにしており、自律的なウェブナビゲーションとタスク実行が可能です。

Rabbit Android Agent:Androidアプリのための音声制御インテリジェンス(非公開) - Chief AI Sharing Circle

Rabbit Android Agent:Androidアプリケーションのための音声制御インテリジェンス(非公開)

一般的な紹介 Rabbit Android Agentは、Rabbitが開発した革新的なAIインテリジェンスで、音声やテキストコマンドを通じて、ユーザーがAndroidデバイス上で単一または複数のステップのタスクを完了できるように設計されています。この技術は、ラビット社のLAM(Large Action Model)をベースにしています。

Convergence:エージェントブラウザで繰り返し作業を自動化するAIアシスタント - Chief AI Sharing Circle

コンバージェンス:エージェント・ブラウザで反復作業を自動化するAIアシスタント

はじめに コンバージェンスは、機械学習技術を駆使して、人々が自分の時間をコントロールできるように支援する会社です。大規模なメタ学習モデル(LMLM)を開発することで、コンバージェンスのAIエージェント(ブラウザ・エージェント)は、リアルタイムで新しいスキルを習得し、行動を起こし、継続的に改善することができます。そのコア ...

mac assistant:デスクトップ操作を自動化するmacOSデバイス向けAIインテリジェンス - Chief AI Sharing Circle

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 macアシスタントは、macOS専用に設計されたAIインテリジェンス・プロジェクトで、ネイティブ・ソフトウェアとウェブ機能を組み合わせることで、ユーザーの操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINI APIをサポートしており、将来的にはOllamaによって実行されるネイティブの大規模言語モデルをサポートする予定です。

Open Operator:AIインテリジェンシアによるクラウドブラウザでの自動操作 - Chief AI Sharing Circle

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概要 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトです。Browserbaseによって開発されたこのプロジェクトは、StagehandとBrowserbaseの技術を組み合わせ、ユーザーが自然言語コマンドによってブラウザの動作を制御できるようにします。

MobileAgent:マルチエージェント協調型モバイル端末操作アシスタント - Chief AI Sharing Circle

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、AndroidとHarmony OSシステムをサポートし、複雑な...

TankWork:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的身体 - Chief AI Sharing Circle

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルフィードバックと操作を提供することを可能にします...

UI-TARSデスクトップ:自然言語でコンピュータを操作するデスクトップ知的身体アプリケーション - 主任AI共有サークル

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。

最短:エンドツーエンドのテストに自然言語を使用するAI自動テストツール - Chief AI Sharing Circle

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発された、AIを利用した自然言語によるエンドツーエンドのテストフレームワークである。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は、自然言語でテストケースを記述し、Anthropic Cl...を利用することです。

Midscene.js:AIでブラウザ自動テストを推進するオープンソースプラグイン - Chief AI Sharing Circle

Midscene.js:AIでブラウザ自動テストを推進するオープンソース・プラグイン

Midscene.jsの概要 Midscene.jsは、ウェブページの制御、アサーションの実行、自然言語コマンドによるデータの抽出を行う、AIを搭載したブラウザ自動化ツールです。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UIテストの記述と保守のプロセスを簡素化します。マルチモーダルな大...

Eko:デスクトップとブラウザの自動化のためのインテリジェントなボディワークフローを構築する自然言語 - Chief AI Sharing Circle

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェント・エージェントのワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。Eko は、カウントにおける AI の使用をサポートする統一インターフェースを提供します。

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、堅牢でメンテナンス可能なPython Seleniumスクリプトに変換します。

Browser Use Web UI:AI知能がウェブ閲覧するためのオープンソースフレームワーク、AIがウェブページを自動操作可能に - Chief AI Sharing Circle

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

一般的な紹介 ブラウザユースWeb UIは、ブラウザインタラクション機能のためのグラフィカルインターフェースツールをAIエージェントに提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築され、Gradioを通じて、ユーザーフレンドリーなウェブインターフェースを構築し、AIエージェントが簡単にブラウザと対話できるようにします。

E2Bオープンコンピュータ利用:E2BサンドボックスでAIオペレーティングシステムを安全に稼働させる - チーフAIシェアリングサークル

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意のLarge Language Model (LLM)に接続してコンピュータを制御できるデスクトップグラフィカル環境を提供し、...

NeoAI:コンピュータの遠隔操作をAIに委ね、自然言語で制御するオープンソースプロジェクト - Chief AI Sharing Circle

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話を通じて、ファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。

CogAgent: Smart Spectrumのオープンソース知的視覚言語モデルによるグラフィカル・インターフェース操作の自動化 - Chief AI Sharing Circle

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、クロスプラットフォームのグラフィカルユーザインタフェース(GUI)の操作を自動化することを目的としている。このモデルはCogVLM(GLM-4V-9B)をベースとしており、英語と中国語のバイリンガルインタラクションをサポートし、自然...

ClickClickClick:どんなLLMでもAndroidとPCの操作を自動化できるようにする - Chief AI Sharing Circle

ClickClickClick:任意のLLMを有効にし、AndroidとPCの操作を自動化する

一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル(LLM)を使用してAndroidとPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、Ollama、Gemini、GPT 4oなどの様々なモデルをサポートしています。

ブラウザ活用:AI知能がブラウザを簡単に操作できるインテリジェントなWeb自動化ツールを構築 - Chief AI Sharing Circle

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。GPT-4、Claudeなど、主流の言語モデルを幅広くサポートする、強力で柔軟なフレームワークを提供します。このツールの最大の特徴は...

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語