AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー
全44記事

Tags: デスクトップ・オートメーション・インテリジェンス 2ページ目

Convergence:在代理浏览器中自动完成重复任务的AI助手-首席AI分享圈

コンバージェンス:エージェント・ブラウザで反復作業を自動化するAIアシスタント

はじめに コンバージェンスは、機械学習技術を駆使して、人々が自分の時間をコントロールできるように支援する会社です。大規模なメタ学習モデル(LMLM)を開発することで、コンバージェンスのAIエージェント(ブラウザ・エージェント)は、リアルタイムで新しいスキルを習得し、行動を起こし、継続的に改善することができます。そのコア ...

mac assistant:macOS设备自动执行桌面操作的AI智能体-首席AI分享圈

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 macアシスタントは、macOS専用に設計されたAIインテリジェンス・プロジェクトで、ネイティブ・ソフトウェアとウェブ機能を組み合わせることで、ユーザーの操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINI APIをサポートしており、将来的にはOllamaによって実行されるネイティブの大規模言語モデルをサポートする予定です。

Open Operator:通过AI智能体在云浏览器中执行自动化操作-首席AI分享圈

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概要 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトです。Browserbaseによって開発されたこのプロジェクトは、StagehandとBrowserbaseの技術を組み合わせ、ユーザーが自然言語コマンドによってブラウザの動作を制御できるようにします。

MobileAgent:多代理协作的移动设备操作助手-首席AI分享圈

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、AndroidとHarmony OSシステムをサポートし、複雑な...

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体-首席AI分享圈

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルフィードバックと操作を提供することを可能にします...

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用-首席AI分享圈

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。

Shortest:AI自动化测试工具,使用自然语言进行端到端测试-首席AI分享圈

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発された、AIを利用した自然言語によるエンドツーエンドのテストフレームワークである。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は、自然言語でテストケースを記述し、Anthropic Cl...を利用することです。

Midscene.js:用AI驱动浏览器自动化测试的开源插件-首席AI分享圈

Midscene.js:AIでブラウザ自動テストを推進するオープンソース・プラグイン

Midscene.jsの概要 Midscene.jsは、ウェブページの制御、アサーションの実行、自然言語コマンドによるデータの抽出を行う、AIを搭載したブラウザ自動化ツールです。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UIテストの記述と保守のプロセスを簡素化します。マルチモーダルな大...

Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化-首席AI分享圈

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェント・エージェントのワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。Eko は、カウントにおける AI の使用をサポートする統一インターフェースを提供します。

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、堅牢でメンテナンス可能なPython Seleniumスクリプトに変換します。

Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架-首席AI分享圈

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

一般的な紹介 ブラウザユースWeb UIは、ブラウザインタラクション機能のためのグラフィカルインターフェースツールをAIエージェントに提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築され、Gradioを通じて、ユーザーフレンドリーなウェブインターフェースを構築し、AIエージェントが簡単にブラウザと対話できるようにします。

E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统-首席AI分享圈

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意のLarge Language Model (LLM)に接続してコンピュータを制御できるデスクトップグラフィカル環境を提供し、...

NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目-首席AI分享圈

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話を通じて、ファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作-首席AI分享圈

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、クロスプラットフォームのグラフィカルユーザインタフェース(GUI)の操作を自動化することを目的としている。このモデルはCogVLM(GLM-4V-9B)をベースとしており、英語と中国語のバイリンガルインタラクションをサポートし、自然...

ClickClickClick:启用任何LLM实现自动化安卓和电脑操作-首席AI分享圈

ClickClickClick:任意のLLMを有効にし、AndroidとPCの操作を自動化する

一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル(LLM)を使用してAndroidとPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、Ollama、Gemini、GPT 4oなどの様々なモデルをサポートしています。

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器-首席AI分享圈

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。GPT-4、Claudeなど、主流の言語モデルを幅広くサポートする、強力で柔軟なフレームワークを提供します。このツールの最大の特徴は...

Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)-首席AI分享圈

プロジェクト・マリナー:ブラウザ・オートメーション、ヒューマン・コンピュータ・インタラクションの未来を探る研究プロトタイプ(未発表)

一般的な紹介 Project Marinerは、人間とコンピュータのインタラクションの未来を探るためにGoogle DeepMindが立ち上げた研究プロトタイプである。このプロジェクトは、Gemini 2.0の強力なマルチモーダル理解および推論機能を活用し、ブラウザの自動化を通じて様々なタスクを実行する。

Dia Browser:提供智能浏览体验,集成AI工具,在浏览器中自动化处理任务(未上线)-首席AI分享圈

Dia Browser: ブラウザのタスクを自動化する統合AIツールにより、インテリジェントなブラウジング体験を提供(未公開)

概要 Dia Browserは、The Browser Companyが開発した新しいスマートブラウザで、高度なAIツールを統合することで、より効率的なブラウジング体験をユーザーに提供することを目的としている。このブラウザは2025年初頭に正式リリースされる予定で、主な機能として、インテリジェントな文章作成支援、自動タスク処理、...

ja日本語