デスクトップ・オートメーション・インテリジェンス

全44記事

順番に並べる

Suna: ブラウザ操作とデータ分析を統合するインテリジェント・エージェント

一般的な紹介 SunaはKortix AIによって開発されたオープンソースの汎用AIエージェントで、Apache 2.0ライセンスに基づいてGitHubでホストされており、ユーザーは無料でダウンロード、変更、セルフホストすることができます。自然言語対話を使用して、ユーザーを支援します。

12ヶ月前

0104.3K

ストロベリー：自動タスクのためのAIスマートブラウザ

概要 Strawberryは、AIアシスタントを内蔵したスマートブラウザで、ユーザーの日々の作業を自動化し、効率を向上させるために設計されている。ウェブコンテンツをリアルタイムで理解し、迅速なリサーチやコンテンツ作成などの複雑なタスクを実行するAI技術を統合することで、従来のブラウザとは一線を画しています。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

12ヶ月前

071.1K

Fellou：タスクを自動化するネイティブAIブラウザ

Fellouは、Fellou AIが提供する世界初のAI対応アクション型ブラウザです。Fellouは世界初のAI対応ウェブブラウザで、従来のブラウザのウェブ閲覧機能を提供するだけでなく、AI技術によってタスクを自動化し、深い情報検索を可能にする。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

12ヶ月前

0115.6K

AiPy：データ分析のためのPythonコード実行タスクの自動化

概要 AiPyはKnownsecチームによって開発されたオープンソースのPythonコマンドラインツールです。大規模言語モデル(LLM)とPython実行環境を組み合わせ、Pytho...

1年前

069.2K

DroidRun：アンドロイド携帯を自動化するAI用オープンソースツール

概論 DroidRunは、AIに人間のようにAndroid携帯を操作させるオープンソースツールである。DroidRunは、画面上のボタンや入力ボックスなどのインタラクティブ要素を抽出することで、AIがアプリを開いたり、メッセージを送信したり、ウェブを閲覧したりするタスクを自動化するのを支援します。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

077.4K

エージェントS：人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介エージェントSは、Simular AI社によって開発されたオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース（GUI）を通じて人間のようにコンピュータを操作することができる。マルチモーダル大規模言語モデルと経験的学習技術を使用して、ウェブの閲覧、文書の編集、ソフトウェアの使用などのタスクを実行する。

1年前

096.1K

Libra: ダイアログ付きローカルAIインテリジェンス生成クライアント（内部テスト中）

概論 LibraはGreenbit.aiの革新的なツールで、その中核機能は自然言語対話を通じてローカルに動作するAIインテリジェンスを生成することである。バイブエージェント "と呼ばれるこのツールは、ユーザーが自分のニーズを簡単な言葉で説明し、素早く...

1年前

077.9K

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。

1年前

063.3K

RunRabbit：音声とテキストを使ってインテリジェンシアを操作し、コンピューター操作を完了させる

一般的な紹介 RunRabbitは人工知能をベースとしたツールで、ユーザーは簡単な音声やテキストコマンドでブラウザを操作し、様々なタスクを実行することができる。RunRabbitの最大の特徴は、ユーザーのニーズを理解し、情報の検索、フォームへの入力、反復的なタスクの実行など、ウェブページを自動的に操作することである。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

056K

LangGraph CUA：コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

LangGraph CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築することができる。このツールのコアは...

1年前

055.3K

エージェントTARS：視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス

総合紹介エージェントTARSは、ByteDance社がオープンソース化したマルチモーダルAIインテリジェンスで、ウェブコンテンツを視覚的に理解し、コマンドラインとファイルシステム操作を組み合わせることで、ユーザーが複雑なコンピュータタスクを完了するのを支援するコア機能を備えています。従来のツールのような手動操作を必要とせず、自己...

1年前

074.8K

Playwright MCP：マイクロソフトのブラウザ自動化MCPサービス

一般的な紹介 Playwright MCPはMicrosoftによって開発され、GitHubでホストされているオープンソースツールである。モデルコンテキストプロトコル（MCP）プロトコルを介して、人工知能モデルがブラウザを直接制御できるようにする。

1年前

0105.3K

Airtop：自然言語コントロールを用いたブラウザ自動化ツール

概要 AirtopはAIベースのブラウザ自動化ツールです。クラウドブラウザを制御し、ウェブサイトへのログイン、データのクロール、自動化タスクの実行など、複雑なウェブ操作を簡単な自然言語コマンドで実行することができます。Airtopは、複雑で容量の大きい従来のスクリプトを書く問題を解決します。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

068.3K

BrowserAgent: ブラウザ上でAIワークフローを作成・実行するツール

一般的な紹介 BrowserAgentは、ブラウザ上で直接AIワークフローを作成し、実行するツールです。使い方は簡単で、コードを書く必要はありません。ユーザーは、希望のワークフローを記述するだけで、AIが自動的に生成されます。核となる機能は完全にプライベートであり、すべてのデータはブラウザにあります...

1年前

052.3K

Highlight AI: 音声と画面分析を使ってデスクトップタスクをこなすAIアシスタント

概要 Highlight AIはWindowsおよびmacOS向けのデスクトップAIアシスタントで（モバイル版は開発中）、音声コマンドと画面コンテンツの分析を通じて、ユーザーがあらゆるアプリケーションでタスクを素早く完了できるよう支援する。画面のコンテンツをキャプチャし、生成します。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

10ヶ月前

077.8K

autoMate：AIとRPAを組み合わせてコンピュータ作業を自動化するネイティブツール

総合紹介 autoMateは、yuruotong1がGitHubでオープンソース開発したローカル自動化ツールで、AI+RPA（Artificial Intelligence+Robotic Process Automation）を中核機能としている。大規模言語モデルのインテリジェントな理解とRPAを組み合わせ...

1年前

061.7K

ナノブラウザ：ブラウザのタスク自動化のためのマルチインテリジェンス・プラグイン

概要 NanobrowserはオープンソースのChrome拡張機能で、AI主導のマルチエージェントシステムによってウェブタスクを自動化するように設計されています。OpenAI Operatorに代わる無償の拡張機能で、ユーザーはLLMを提供するだけです。

1年前

091.7K

Proxy Lite：3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

包括的な紹介 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量なWeb自動化ツールで、Proxyのミニバージョンとしてオープンウェイト設計になっています。3BパラメータのVisual Language Model (VLM)をベースにしており、自己...

1年前

065.3K

Rabbit Android Agent：Androidアプリケーションのための音声制御インテリジェンス（非公開）

一般的な紹介 Rabbit Android Agentは、Rabbitが開発した革新的なAIインテリジェンスで、音声やテキストコマンドを通じて、ユーザーがAndroidデバイス上で単一または複数のステップのタスクを完了できるように設計されています。このテクノロジーは、ラビット社が開発した...

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

055.4K

コンバージェンス：エージェント・ブラウザで反復作業を自動化するAIアシスタント

はじめにコンバージェンスは、機械学習技術を駆使して、人々が自分の時間をコントロールできるようになることを支援する会社です。大規模なメタ学習モデル（LMLM）を開発することで、コンバージェンスのAIエージェント（ブラウザ・エージェント）は、リアルタイムで新しいスキルを習得することができます。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

10ヶ月前

057.6K

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 mac assistantはmacOSのために設計されたAI知能体プロジェクトであり、ネイティブソフトウェアとウェブ機能を組み合わせることでユーザー操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINIのAPIをサポートしており、将来的には...

1年前

057.4K

オープン・オペレーター：AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概論 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトである。このプロジェクトはBrowserbaseによって開発され、StagehandとBrowserbaseの技術を組み合わせています...

1年前

058.5K

MobileAgent：モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、Androidと...

1年前

079.3K

タンクワーク：音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。

1年前

058.9K

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。

1年前

093.7K

最短：エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発されたAIを搭載した自然言語エンドツーエンドテストフレームワークです。Playwrightをベースに構築されており、GitHubとの統合や二要素認証（2FA）をサポートしています。Shortestの主な特徴は...

1年前

062K

Midscene.js：AIでブラウザ自動テストを推進するオープンソース・プラグイン

概論 Midscene.jsはAIを搭載したブラウザ自動化ツールで、自然言語コマンドによってウェブページを制御し、アサーションを実行し、データを抽出します。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UI測定を簡素化します。

1年前

093.5K

Stagehand: ブラウザオートメーション操作の自然言語実装フレームワーク

一般的な紹介 Stagehand は、シンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API（act、extract、observe）を提供する。

1年前

081.4K

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。

1年前

066K

AutoMouser：生成浏览器自动化代码，将鼠标操作通过AI转为Selenium Python脚本

AutoMouser：マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。

1年前

060.2K

Browser Use Web UI：运行AI智能体浏览网页，让AI能够自动操作网页的开源框架

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

概要ブラウザユースWeb UIは、AIエージェントにグラフィカルインターフェースツールとしてブラウザインタラクション機能を提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築されており、Gradio ...

10ヶ月前

086K

E2Bオープンコンピュータの使用：E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。

1年前

067.6K

NeoAI：AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話だけでファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。

1年前

088.7K

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。

1年前

067.2K

ClickClickClick：任意のLLMを有効にし、AndroidとPCの操作を自動化する

一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル（LLM）を使用してAndroidやPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、以下のような様々なモデルをサポートしています。

1年前

051.2K

Browser-Use：AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル（LLM）がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。強力で柔軟なフレームワークを提供し、GPT-4、Claud...などの主流の言語モデルを幅広くサポートします。

1年前

076.7K

Project Mariner：浏览器自动化，探索未来人机交互的研究原型（未发布）

プロジェクト・マリナー：ブラウザ・オートメーション、ヒューマン・コンピュータ・インタラクションの未来を探る研究プロトタイプ（未発表）

概論 Project Marinerは、人間とコンピュータのインタラクションの未来を探るためにGoogle DeepMindが立ち上げた研究プロトタイプである。このプロジェクトは、Gemini 2.0の強力なマルチモーダル理解および推論機能を活用し、ブラウザの自己...

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

056.1K

Dia Browser：提供智能浏览体验，集成AI工具，在浏览器中自动化处理任务（未上线）

Dia Browser: ブラウザのタスクを自動化する統合AIツールにより、インテリジェントなブラウジング体験を提供（未公開）

概要 Dia Browserは、The Browser Companyが開発した新しいスマートブラウザで、高度なAIツールを統合することで、より効率的なブラウジング体験をユーザーに提供することを目的としている。このブラウザは2025年初頭に正式リリースされる予定で、主な機能は...

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

061.7K

Clevrr Computer：使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: PyAutoGUIライブラリでデスクトップ操作のインテリジェンスを自動化する

一般的な紹介 Clevrr Computerは、PyAutoGUIライブラリを使用してシステム操作を自動化することを目的としたオープンソースプロジェクトです。このプロジェクトはAnthropicにインスパイアされ、PyAutoGUIライブラリを使用して正確かつ効率的に操作を実行できる自動化エージェントを設計しました。

1年前

063.9K

GLM-PC（スマート・スペクトラム・ブル）が社内ダウンロードで正式リリース、コンピュータを本当にコントロールできるAI

GLM-PC（ブル）の紹介 GLM-PCはCogAgentモデルに基づいたデスクトップアプリケーションであり、自然言語コマンドによって複雑なタスクを迅速に実行することができる。タスクプランニングとインターフェイス理解能力を持ち、ユーザの指示に従って自律的にコンピュータの様々な操作を行うことができる。使用上の注意...

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

060.5K

ランナーH：自然言語コマンドによるウェブページ実行タスクの自動化（社内テスト用アプリケーション）

はじめにランナーHは、高度なAI機能によって作業者の生産性を向上させることを目的とした、最先端のアクションモデルの開発に専念する企業である。同社の主力製品であるRunner Hは、複雑な複数ステップのタスクを自動化し、再作業を削減するために設計された高度なAIエージェントである。

最新のAIリソース # デスクトップ・オートメーション・インテリジェンス

1年前

053.7K

AppAgent：マルチモーダルインテリジェンスによるスマートフォンの自動操作

包括的な紹介 AppAgentは、スマートフォンのアプリケーションを操作するために設計されたLarge Language Model（LLM）ベースのマルチモーダルエージェントフレームワークです。このフレームワークは、簡素化された操作空間を通じて、タップやスワイプといった人間のインタラクションを模倣する。そのため、システムのバックエンドにアクセスする必要がなく、さまざまなアプリケーションでの利用が可能である。

1年前

062.9K

スカイバーン：LLMとコンピュータビジョンによるブラウザベースのワークフローの自動化

概論 Skyvernは、Large Language Modelling (LLM)とコンピュータビジョン技術を使用したブラウザワークフロー自動化ツールです。壊れやすかったり信頼できなかったりする自動化ソリューションを置き換えることができるシンプルなAPIエンドポイントを提供することで、多数のウェブサイトを効率的に自動化します。

1年前

0117K

Agent.exe：AIにあなたのコンピュータを直接制御させる、クロードの制御コンピュータのオープンソース実装

概要 Agent.exeはオープンソースのElectronアプリケーションで、AnthropicのClaude 3.5 Sonnet APIを利用し、ユーザーがAIを通してローカルコンピューターを直接コントロールできるようにするものです。このプロジェクトは、K...

1年前

090K

そうではない。