AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1
全39記事

Tags: デスクトップ・オートメーション・インテリジェンス 2ページ目

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用-首席AI分享圈

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。

Shortest:AI自动化测试工具,使用自然语言进行端到端测试-首席AI分享圈

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発された、AIを利用した自然言語によるエンドツーエンドのテストフレームワークである。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は、自然言語でテストケースを記述し、Anthropic Cl...を利用することです。

Midscene.js:用AI驱动浏览器自动化测试的开源插件-首席AI分享圈

Midscene.js:AIでブラウザ自動テストを推進するオープンソース・プラグイン

Midscene.jsの概要 Midscene.jsは、ウェブページの制御、アサーションの実行、自然言語コマンドによるデータの抽出を行う、AIを搭載したブラウザ自動化ツールです。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UIテストの記述と保守のプロセスを簡素化します。マルチモーダルな大...

Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化-首席AI分享圈

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェント・エージェントのワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。Eko は、カウントにおける AI の使用をサポートする統一インターフェースを提供します。

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、堅牢でメンテナンス可能なPython Seleniumスクリプトに変換します。

Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架-首席AI分享圈

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

一般的な紹介 ブラウザユースWeb UIは、ブラウザインタラクション機能のためのグラフィカルインターフェースツールをAIエージェントに提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築され、Gradioを通じて、ユーザーフレンドリーなウェブインターフェースを構築し、AIエージェントが簡単にブラウザと対話できるようにします。

E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统-首席AI分享圈

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意のLarge Language Model (LLM)に接続してコンピュータを制御できるデスクトップグラフィカル環境を提供し、...

NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目-首席AI分享圈

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話を通じて、ファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作-首席AI分享圈

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、クロスプラットフォームのグラフィカルユーザインタフェース(GUI)の操作を自動化することを目的としている。このモデルはCogVLM(GLM-4V-9B)をベースとしており、英語と中国語のバイリンガルインタラクションをサポートし、自然...

ClickClickClick:启用任何LLM实现自动化安卓和电脑操作-首席AI分享圈

ClickClickClick:任意のLLMを有効にし、AndroidとPCの操作を自動化する

一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル(LLM)を使用してAndroidとPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、Ollama、Gemini、GPT 4oなどの様々なモデルをサポートしています。

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器-首席AI分享圈

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。GPT-4、Claudeなど、主流の言語モデルを幅広くサポートする、強力で柔軟なフレームワークを提供します。このツールの最大の特徴は...

Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)-首席AI分享圈

プロジェクト・マリナー:ブラウザ・オートメーション、ヒューマン・コンピュータ・インタラクションの未来を探る研究プロトタイプ(未発表)

一般的な紹介 Project Marinerは、人間とコンピュータのインタラクションの未来を探るためにGoogle DeepMindが立ち上げた研究プロトタイプである。このプロジェクトは、Gemini 2.0の強力なマルチモーダル理解および推論機能を活用し、ブラウザの自動化を通じて様々なタスクを実行する。

Dia Browser:提供智能浏览体验,集成AI工具,在浏览器中自动化处理任务(未上线)-首席AI分享圈

Dia Browser: ブラウザのタスクを自動化する統合AIツールにより、インテリジェントなブラウジング体験を提供(未公開)

概要 Dia Browserは、The Browser Companyが開発した新しいスマートブラウザで、高度なAIツールを統合することで、より効率的なブラウジング体験をユーザーに提供することを目的としている。このブラウザは2025年初頭に正式リリースされる予定で、主な機能として、インテリジェントな文章作成支援、自動タスク処理、...

Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体-首席AI分享圈

Clevrr Computer: PyAutoGUIライブラリでデスクトップ操作のインテリジェンスを自動化する

概論 Clevrr Computer は PyAutoGUI ライブラリを利用してシステム操作を自動化することを目的としたオープンソースプロジェクトです。このプロジェクトはAnthropicにインスパイアされ、ユーザのシステム操作タスクを正確かつ効率的に実行する自動化エージェントを設計しました。

GLM-PC(智谱牛牛)正式发布内测下载,真正可以控制电脑的AI-首席AI分享圈

GLM-PC(スマート・スペクトラム・ブル)が社内ダウンロードで正式リリース、コンピュータを本当にコントロールできるAI

GLM-PC(ブル)の紹介 GLM-PCはCogAgentモデルに基づいたデスクトップアプリケーションであり、自然言語コマンドによって複雑なタスクを迅速に実行することができる。タスクの計画やインタフェースの理解などの能力を持ち,ユーザの指示に従って自律的にコンピュータの様々な操作を行うことができる. 使用上の注意 専用仮想マシンを使...

Runner H:通过自然语言命令实现网页自动化执行任务(申请内测)-首席AI分享圈

ランナーH:自然言語コマンドによるウェブページ実行タスクの自動化(社内テスト用アプリケーション)

概 要 ランナーH社は、高度なAI機能によって作業者の生産性を向上させることを目的とした、最先端のアクションモデルの開発に専念している企業である。同社の主力製品であるRunner Hは、複雑な複数ステップの作業を自動化し、反復作業や手作業による入力を減らすために設計された高度なAIエージェントである。を通じて...

AppAgent:利用多模态智能体自动操作智能手机-首席AI分享圈

AppAgent:マルチモーダルインテリジェンスによるスマートフォンの自動操作

包括的な紹介 AppAgentは、スマートフォンのアプリケーションを操作するために設計されたLarge Language Model(LLM)ベースのマルチモーダルエージェントフレームワークです。このフレームワークは、簡素化された操作空間を通じて、タップやスワイプといった人間のインタラクションを模倣する。そのため、システムのバックエンドへのアクセスが不要であり、アプリケーションを横断して使用できる。

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流-首席AI分享圈

スカイバーン:LLMとコンピュータビジョンによるブラウザベースのワークフローの自動化

概要 Skyvernは、Large Language Modelling (LLM)とコンピュータビジョン技術を使用したブラウザワークフロー自動化ツールです。壊れやすかったり信頼できなかったりする自動化ソリューションを置き換えることができるシンプルなAPIエンドポイントを提供することで、多数のウェブサイト上の手動アクションを効率的に自動化します。

ja日本語