
Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール
概要 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量ウェブ自動化ツールで、Proxyのミニバージョンとしてオープンウェイトデザインで開発されています。3BパラメータのVLM(Visual Language Model)をベースにしており、自律的なウェブナビゲーションとタスク実行が可能です。
概要 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量ウェブ自動化ツールで、Proxyのミニバージョンとしてオープンウェイトデザインで開発されています。3BパラメータのVLM(Visual Language Model)をベースにしており、自律的なウェブナビゲーションとタスク実行が可能です。
一般的な紹介 Rabbit Android Agentは、Rabbitが開発した革新的なAIインテリジェンスで、音声やテキストコマンドを通じて、ユーザーがAndroidデバイス上で単一または複数のステップのタスクを完了できるように設計されています。この技術は、ラビット社のLAM(Large Action Model)をベースにしています。
ビルダーインテリジェントプログラミングモード、DeepSeek-R1とDeepSeek-V3の無制限の使用、海外版よりも滑らかな経験を有効にします。ただ、中国語のコマンドを入力し、プログラミングの知識はまた、独自のアプリケーションを書くためにゼロしきい値をすることはできません。
はじめに コンバージェンスは、機械学習技術を駆使して、人々が自分の時間をコントロールできるように支援する会社です。大規模なメタ学習モデル(LMLM)を開発することで、コンバージェンスのAIエージェント(ブラウザ・エージェント)は、リアルタイムで新しいスキルを習得し、行動を起こし、継続的に改善することができます。そのコア ...
概論 macアシスタントは、macOS専用に設計されたAIインテリジェンス・プロジェクトで、ネイティブ・ソフトウェアとウェブ機能を組み合わせることで、ユーザーの操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINI APIをサポートしており、将来的にはOllamaによって実行されるネイティブの大規模言語モデルをサポートする予定です。
概要 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトです。Browserbaseによって開発されたこのプロジェクトは、StagehandとBrowserbaseの技術を組み合わせ、ユーザーが自然言語コマンドによってブラウザの動作を制御できるようにします。
一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、AndroidとHarmony OSシステムをサポートし、複雑な...
概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルフィードバックと操作を提供することを可能にします...
概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。
一般的な紹介 Shortestは、Anti-Workチームによって開発された、AIを利用した自然言語によるエンドツーエンドのテストフレームワークである。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は、自然言語でテストケースを記述し、Anthropic Cl...を利用することです。
Midscene.jsの概要 Midscene.jsは、ウェブページの制御、アサーションの実行、自然言語コマンドによるデータの抽出を行う、AIを搭載したブラウザ自動化ツールです。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UIテストの記述と保守のプロセスを簡素化します。マルチモーダルな大...
一般的な紹介 Stagehand はシンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API(act、extract、observe)を提供する。
概論 Eko は、自然言語記述によって効率的なインテリジェント・エージェントのワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。Eko は、カウントにおける AI の使用をサポートする統一インターフェースを提供します。
概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、堅牢でメンテナンス可能なPython Seleniumスクリプトに変換します。
一般的な紹介 ブラウザユースWeb UIは、ブラウザインタラクション機能のためのグラフィカルインターフェースツールをAIエージェントに提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築され、Gradioを通じて、ユーザーフレンドリーなウェブインターフェースを構築し、AIエージェントが簡単にブラウザと対話できるようにします。
概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意のLarge Language Model (LLM)に接続してコンピュータを制御できるデスクトップグラフィカル環境を提供し、...
一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話を通じて、ファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。
包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、クロスプラットフォームのグラフィカルユーザインタフェース(GUI)の操作を自動化することを目的としている。このモデルはCogVLM(GLM-4V-9B)をベースとしており、英語と中国語のバイリンガルインタラクションをサポートし、自然...
一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル(LLM)を使用してAndroidとPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、Ollama、Gemini、GPT 4oなどの様々なモデルをサポートしています。
包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。GPT-4、Claudeなど、主流の言語モデルを幅広くサポートする、強力で柔軟なフレームワークを提供します。このツールの最大の特徴は...