デスクトップ・オートメーション・インテリジェンス

全44記事
Suna:集成浏览器操作与数据分析的智能代理

Suna: ブラウザ操作とデータ分析を統合するインテリジェント・エージェント

一般的な紹介 SunaはKortix AIによって開発されたオープンソースの汎用AIエージェントで、Apache 2.0ライセンスに基づいてGitHubでホストされており、ユーザーは無料でダウンロード、変更、セルフホストすることができます。自然言語対話を使用して、ユーザーを支援します。
4ヶ月前
01.2K
Strawberry:自动化任务的AI智能浏览器

ストロベリー:自動タスクのためのAIスマートブラウザ

概要 Strawberryは、AIアシスタントを内蔵したスマートブラウザで、ユーザーの日々の作業を自動化し、効率を向上させるために設計されている。ウェブコンテンツをリアルタイムで理解し、迅速なリサーチやコンテンツ作成などの複雑なタスクを実行するAI技術を統合することで、従来のブラウザとは一線を画しています。
4ヶ月前
0980
DroidRun:AI自动操作安卓手机的开源工具

DroidRun:アンドロイド携帯を自動化するAI用オープンソースツール

概論 DroidRunは、AIに人間のようにAndroid携帯を操作させるオープンソースツールである。DroidRunは、画面上のボタンや入力ボックスなどのインタラクティブ要素を抽出することで、AIがアプリを開いたり、メッセージを送信したり、ウェブを閲覧したりするタスクを自動化するのを支援します。
4ヶ月前
01.1K
Agent S:像人类一样操作电脑的开源智能体框架

エージェントS:人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介 エージェントSは、Simular AI社によって開発されたオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて人間のようにコンピュータを操作することができる。マルチモーダル大規模言語モデルと経験的学習技術を使用して、ウェブの閲覧、文書の編集、ソフトウェアの使用などのタスクを実行する。
4ヶ月前
01.1K
Libra:用对话生成本地AI智能体的客户端(内测)

Libra: ダイアログ付きローカルAIインテリジェンス生成クライアント(内部テスト中)

概論 LibraはGreenbit.aiの革新的なツールで、その中核機能は自然言語対話を通じてローカルに動作するAIインテリジェンスを生成することである。バイブエージェント "と呼ばれるこのツールは、ユーザーが自分のニーズを簡単な言葉で説明し、素早く...
4ヶ月前
01K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。
4ヶ月前
01.2K
RunRabbit:使用语音和文字操作智能体完成电脑操作

RunRabbit:音声とテキストを使ってインテリジェンシアを操作し、コンピューター操作を完了させる

一般的な紹介 RunRabbitは人工知能をベースとしたツールで、ユーザーは簡単な音声やテキストコマンドでブラウザを操作し、様々なタスクを実行することができる。RunRabbitの最大の特徴は、ユーザーのニーズを理解し、情報の検索、フォームへの入力、反復的なタスクの実行など、ウェブページを自動的に操作することである。
4ヶ月前
0966
LangGraph CUA:基于 LangGraph 控制电脑操作的AI智能体

LangGraph CUA:コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

LangGraph CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築することができる。このツールのコアは...
4ヶ月前
01.4K
Agent TARS:使用视觉和命令操作电脑的开源智能体

エージェントTARS:視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス

総合紹介エージェントTARSは、ByteDance社がオープンソース化したマルチモーダルAIインテリジェンスで、ウェブコンテンツを視覚的に理解し、コマンドラインとファイルシステム操作を組み合わせることで、ユーザーが複雑なコンピュータタスクを完了するのを支援するコア機能を備えています。従来のツールのような手動操作を必要とせず、自己...
5ヶ月前
01.3K
Playwright MCP:微软推出的浏览器自动化MCP服务

Playwright MCP:マイクロソフトのブラウザ自動化MCPサービス

一般的な紹介 Playwright MCPはMicrosoftによって開発され、GitHubでホストされているオープンソースツールである。モデルコンテキストプロトコル(MCP)プロトコルを介して、人工知能モデルがブラウザを直接制御できるようにする。
5ヶ月前
01.6K
Airtop:使用自然语言控制的浏览器自动化工具

Airtop:自然言語コントロールを用いたブラウザ自動化ツール

概要 AirtopはAIベースのブラウザ自動化ツールです。クラウドブラウザを制御し、ウェブサイトへのログイン、データのクロール、自動化タスクの実行など、複雑なウェブ操作を簡単な自然言語コマンドで実行することができます。Airtopは、複雑で容量の大きい従来のスクリプトを書く問題を解決します。
5ヶ月前
01.2K
BrowserAgent:在浏览器中创建和运行AI工作流的工具

BrowserAgent: ブラウザ上でAIワークフローを作成・実行するツール

一般的な紹介 BrowserAgentは、ブラウザ上で直接AIワークフローを作成し、実行するツールです。使い方は簡単で、コードを書く必要はありません。ユーザーは、希望のワークフローを記述するだけで、AIが自動的に生成されます。核となる機能は完全にプライベートであり、すべてのデータはブラウザにあります...
5ヶ月前
01.2K
Highlight AI:使用语音和屏幕分析完成桌面任务的AI助手

Highlight AI: 音声と画面分析を使ってデスクトップタスクをこなすAIアシスタント

概要 Highlight AIはWindowsおよびmacOS向けのデスクトップAIアシスタントで(モバイル版は開発中)、音声コマンドと画面コンテンツの分析を通じて、ユーザーがあらゆるアプリケーションでタスクを素早く完了できるよう支援する。画面のコンテンツをキャプチャし、生成します。
2ヶ月前
01.1K
autoMate:结合AI与RPA实现电脑任务自动化的本地工具

autoMate:AIとRPAを組み合わせてコンピュータ作業を自動化するネイティブツール

総合紹介 autoMateは、yuruotong1がGitHubでオープンソース開発したローカル自動化ツールで、AI+RPA(Artificial Intelligence+Robotic Process Automation)を中核機能としている。大規模言語モデルのインテリジェントな理解とRPAを組み合わせ...
5ヶ月前
01.4K
Nanobrowser:浏览器中实现任务自动化的多智能插件

ナノブラウザ:ブラウザのタスク自動化のためのマルチインテリジェンス・プラグイン

概要 NanobrowserはオープンソースのChrome拡張機能で、AI主導のマルチエージェントシステムによってウェブタスクを自動化するように設計されています。OpenAI Operatorに代わる無償の拡張機能で、ユーザーはLLMを提供するだけです。
5ヶ月前
02.5K
Proxy Lite:3B参数视觉模型驱动的网页自动化工具

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

包括的な紹介 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量なWeb自動化ツールで、Proxyのミニバージョンとしてオープンウェイト設計になっています。3BパラメータのVisual Language Model (VLM)をベースにしており、自己...
5ヶ月前
01.2K
Rabbit Android Agent:语音控制安卓应用的智能体(未开放)

Rabbit Android Agent:Androidアプリケーションのための音声制御インテリジェンス(非公開)

一般的な紹介 Rabbit Android Agentは、Rabbitが開発した革新的なAIインテリジェンスで、音声やテキストコマンドを通じて、ユーザーがAndroidデバイス上で単一または複数のステップのタスクを完了できるように設計されています。このテクノロジーは、ラビット社が開発した...
6ヶ月前
01.1K
Convergence:在代理浏览器中自动完成重复任务的AI助手

コンバージェンス:エージェント・ブラウザで反復作業を自動化するAIアシスタント

はじめに コンバージェンスは、機械学習技術を駆使して、人々が自分の時間をコントロールできるようになることを支援する会社です。大規模なメタ学習モデル(LMLM)を開発することで、コンバージェンスのAIエージェント(ブラウザ・エージェント)は、リアルタイムで新しいスキルを習得することができます。
2ヶ月前
01.4K
mac assistant:macOS设备自动执行桌面操作的AI智能体

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 mac assistantはmacOSのために設計されたAI知能体プロジェクトであり、ネイティブソフトウェアとウェブ機能を組み合わせることでユーザー操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINIのAPIをサポートしており、将来的には...
6ヶ月前
01.6K
Open Operator:通过AI智能体在云浏览器中执行自动化操作

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概論 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトである。このプロジェクトはBrowserbaseによって開発され、StagehandとBrowserbaseの技術を組み合わせています...
6ヶ月前
02.1K
MobileAgent:多代理协作的移动设备操作助手

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、Androidと...
7ヶ月前
01.7K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。
7ヶ月前
01.4K
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。
7ヶ月前
01.9K
Shortest:AI自动化测试工具,使用自然语言进行端到端测试

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発されたAIを搭載した自然言語エンドツーエンドテストフレームワークです。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は...
7ヶ月前
01.8K
Midscene.js:用AI驱动浏览器自动化测试的开源插件

Midscene.js:AIでブラウザ自動テストを推進するオープンソース・プラグイン

概論 Midscene.jsはAIを搭載したブラウザ自動化ツールで、自然言語コマンドによってウェブページを制御し、アサーションを実行し、データを抽出します。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UI測定を簡素化します。
7ヶ月前
01.9K
Stagehand:自然语言实现浏览器自动化操作框架

Stagehand: ブラウザオートメーション操作の自然言語実装フレームワーク

一般的な紹介 Stagehand は、シンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API(act、extract、observe)を提供する。
7ヶ月前
01.6K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。
5ヶ月前
01.7K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。
7ヶ月前
01.4K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

概要 ブラウザユースWeb UIは、AIエージェントにグラフィカルインターフェースツールとしてブラウザインタラクション機能を提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築されており、Gradio ...
2ヶ月前
02.6K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。
7ヶ月前
01.4K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話だけでファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。
7ヶ月前
02.5K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
8ヶ月前
01.7K
ClickClickClick:启用任何LLM实现自动化安卓和电脑操作

ClickClickClick:任意のLLMを有効にし、AndroidとPCの操作を自動化する

一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル(LLM)を使用してAndroidやPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、以下のような様々なモデルをサポートしています。
8ヶ月前
01.5K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。強力で柔軟なフレームワークを提供し、GPT-4、Claud...などの主流の言語モデルを幅広くサポートします。
8ヶ月前
02.6K
Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)

プロジェクト・マリナー:ブラウザ・オートメーション、ヒューマン・コンピュータ・インタラクションの未来を探る研究プロトタイプ(未発表)

概論 Project Marinerは、人間とコンピュータのインタラクションの未来を探るためにGoogle DeepMindが立ち上げた研究プロトタイプである。このプロジェクトは、Gemini 2.0の強力なマルチモーダル理解および推論機能を活用し、ブラウザの自己...
7ヶ月前
01.6K
Dia Browser:提供智能浏览体验,集成AI工具,在浏览器中自动化处理任务(未上线)

Dia Browser: ブラウザのタスクを自動化する統合AIツールにより、インテリジェントなブラウジング体験を提供(未公開)

概要 Dia Browserは、The Browser Companyが開発した新しいスマートブラウザで、高度なAIツールを統合することで、より効率的なブラウジング体験をユーザーに提供することを目的としている。このブラウザは2025年初頭に正式リリースされる予定で、主な機能は...
8ヶ月前
01.9K
Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: PyAutoGUIライブラリでデスクトップ操作のインテリジェンスを自動化する

一般的な紹介 Clevrr Computerは、PyAutoGUIライブラリを使用してシステム操作を自動化することを目的としたオープンソースプロジェクトです。このプロジェクトはAnthropicにインスパイアされ、PyAutoGUIライブラリを使用して正確かつ効率的に操作を実行できる自動化エージェントを設計しました。
8ヶ月前
01.5K
GLM-PC(智谱牛牛)正式发布内测下载,真正可以控制电脑的AI

GLM-PC(スマート・スペクトラム・ブル)が社内ダウンロードで正式リリース、コンピュータを本当にコントロールできるAI

GLM-PC(ブル)の紹介 GLM-PCはCogAgentモデルに基づいたデスクトップアプリケーションであり、自然言語コマンドによって複雑なタスクを迅速に実行することができる。タスクプランニングとインターフェイス理解能力を持ち、ユーザの指示に従って自律的にコンピュータの様々な操作を行うことができる。 使用上の注意...
8ヶ月前
02.3K
Runner H:通过自然语言命令实现网页自动化执行任务(申请内测)

ランナーH:自然言語コマンドによるウェブページ実行タスクの自動化(社内テスト用アプリケーション)

はじめに ランナーHは、高度なAI機能によって作業者の生産性を向上させることを目的とした、最先端のアクションモデルの開発に専念する企業である。同社の主力製品であるRunner Hは、複雑な複数ステップのタスクを自動化し、再作業を削減するために設計された高度なAIエージェントである。
8ヶ月前
01.7K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent:マルチモーダルインテリジェンスによるスマートフォンの自動操作

包括的な紹介 AppAgentは、スマートフォンのアプリケーションを操作するために設計されたLarge Language Model(LLM)ベースのマルチモーダルエージェントフレームワークです。このフレームワークは、簡素化された操作空間を通じて、タップやスワイプといった人間のインタラクションを模倣する。そのため、システムのバックエンドにアクセスする必要がなく、さまざまなアプリケーションでの利用が可能である。
8ヶ月前
01.9K
Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

スカイバーン:LLMとコンピュータビジョンによるブラウザベースのワークフローの自動化

概論 Skyvernは、Large Language Modelling (LLM)とコンピュータビジョン技術を使用したブラウザワークフロー自動化ツールです。壊れやすかったり信頼できなかったりする自動化ソリューションを置き換えることができるシンプルなAPIエンドポイントを提供することで、多数のウェブサイトを効率的に自動化します。
5ヶ月前
02.3K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe:AIにあなたのコンピュータを直接制御させる、クロードの制御コンピュータのオープンソース実装

概要 Agent.exeはオープンソースのElectronアプリケーションで、AnthropicのClaude 3.5 Sonnet APIを利用し、ユーザーがAIを通してローカルコンピューターを直接コントロールできるようにするものです。このプロジェクトは、K...
8ヶ月前
02.1K