AI Personal Learning
und praktische Anleitung
TRAE
Insgesamt 44 Artikel

Tags: Desktop-Automatisierung Intelligenz Seite 2

Convergence:在代理浏览器中自动完成重复任务的AI助手-首席AI分享圈

Convergence: ein KI-Assistent, der sich wiederholende Aufgaben in einem Agentenbrowser automatisiert

Allgemeine Einführung Convergence ist ein Unternehmen, das sich der Aufgabe verschrieben hat, Menschen mit Hilfe von Technologien des maschinellen Lernens zu helfen, die Kontrolle über ihre Zeit zurückzugewinnen. Durch die Entwicklung von groß angelegten Meta-Lernmodellen (LMLMs) sind die KI-Agenten (Browser-Agenten) von Convergence in der Lage, sich neue Fähigkeiten anzueignen, Maßnahmen zu ergreifen und sich im Echtzeitbetrieb kontinuierlich zu verbessern. Sein Kern ...

mac assistant:macOS设备自动执行桌面操作的AI智能体-首席AI分享圈

mac assistant: die KI-Intelligenz, die Desktop-Aktionen auf macOS-Geräten automatisiert

Allgemeine Einführung mac assistant ist ein KI-Intelligenz-Projekt, das speziell für macOS entwickelt wurde und darauf abzielt, die Arbeit des Benutzers durch die Kombination von nativer Software und Webfunktionen zu vereinfachen. Das Projekt unterstützt derzeit die OpenAI- und GEMINI-APIs und plant für die Zukunft die Unterstützung eines nativen großen Sprachmodells, das von Ollama ausgeführt wird. mac_assista...

Open Operator:通过AI智能体在云浏览器中执行自动化操作-首席AI分享圈

Open Operator: Automatisierung in Cloud Browsern mit KI-Intelligenz

Allgemeine Einführung Open Operator ist ein Open-Source-Projekt, das darauf abzielt, Operationen im Browser durch KI-Intelligenzen zu automatisieren. Das von Browserbase entwickelte Projekt kombiniert die Technologien von Stagehand und Browserbase, um es den Benutzern zu ermöglichen, das Verhalten des Browsers durch natürlichsprachliche Befehle zu...

MobileAgent:多代理协作的移动设备操作助手-首席AI分享圈

MobileAgent: Multi-Agenten-Kollaboration für mobile Gerätebedienungsassistenten

Allgemeine Einführung MobileAgent ist ein leistungsstarker Assistent für die Bedienung von Mobilgeräten, der die Effizienz und Automatisierung der Bedienung von Mobilgeräten durch Multi-Agenten-Kollaboration und erweiterte visuelle Wahrnehmungsmodule verbessern soll. Er wurde vom X-PLUG-Team entwickelt, unterstützt Android- und Harmony-OS-Systeme und ist in der Lage, auf komplexen...

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体-首席AI分享圈

TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert

Allgemeine Einführung TankWork ist ein Open-Source-Desktop-Agent-Framework, das entwickelt wurde, um KI in die Lage zu versetzen, Ihren Computer durch Computer Vision und Interaktion auf Systemebene wahrzunehmen und zu steuern. Das Framework ermöglicht Agenten die direkte Steuerung von Computern durch Sprach- und Textbefehle, die Verarbeitung von Live-Bildschirminhalten und die Bereitstellung von kontinuierlichem audiovisuellem Feedback und Manipulation...

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用-首席AI分享圈

UI-TARS Desktop: Desktop Intelligentsia Anwendung zur Steuerung von Computern mit natürlicher Sprache

Allgemeine Einführung UI-TARS Desktop ist eine grafische Interface-Agent-Anwendung, die auf dem von ByteDance entwickelten UI-TARS (Visual Language Model) basiert. Die Anwendung ermöglicht es Benutzern, Computer durch natürliche Sprache für eine intuitivere und effizientere Mensch-Computer-Interaktion zu steuern.UI-TARS Desktop unterstützt plattformübergreifende...

Shortest:AI自动化测试工具,使用自然语言进行端到端测试-首席AI分享圈

Shortest: ein KI-Tool für automatisierte Tests, das natürliche Sprache für End-to-End-Tests verwendet

Allgemeine Einführung Shortest ist ein KI-gestütztes End-to-End-Testframework in natürlicher Sprache, das vom Anti-Work-Team entwickelt wurde. Es basiert auf Playwright und unterstützt die GitHub-Integration und die Zwei-Faktor-Authentifizierung (2FA). Shortests Hauptmerkmal ist das Schreiben von Testfällen in natürlicher Sprache und die Verwendung von Anthropic Cl...

Midscene.js:用AI驱动浏览器自动化测试的开源插件-首席AI分享圈

Midscene.js: ein Open-Source-Plugin, das Browser-Automatisierungstests mit KI unterstützt

Allgemeine Einführung Midscene.js ist ein KI-gesteuertes Browser-Automatisierungstool, das in der Lage ist, Webseiten zu steuern, Assertions auszuführen und Daten durch natürlichsprachliche Befehle zu extrahieren. Es unterstützt Chrome-Erweiterungen, JavaScript-SDKs und YAML-Skripte und vereinfacht so das Schreiben und Warten von UI-Tests. Durch die Nutzung multimodaler großer ...

Stagehand:自然语言实现浏览器自动化操作框架-首席AI分享圈

Stagehand: Ein Framework für die Implementierung von Browser-Automatisierungsvorgängen in natürlicher Sprache

Allgemeine Einführung Stagehand ist eine AI Web-Browsing-Framework auf Einfachheit und Erweiterbarkeit konzentriert. Es ist vollständig Playwright-kompatibel und bietet drei einfache KI-APIs (Act, Extract und Observe), die auf den zugrundeliegenden Playwright Page-Klassen für das Web durch natürliche Sprache aufgebaut sind...

Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化-首席AI分享圈

Eko: Intelligente Körper-Workflows in natürlicher Sprache für Desktop- und Browser-Automatisierung

Allgemeine Einführung Eko ist ein produktionsreifes JavaScript-Framework zur Erstellung effizienter intelligenter Agenten-Workflows durch Beschreibungen in natürlicher Sprache. Es wurde entwickelt, um Entwicklern die Möglichkeit zu geben, alltägliche Aufgaben mit Hilfe von KI-Technologien ohne tiefgreifende Programmierung zu automatisieren....

AutoMouser: Generierung von Browser-Automatisierungscode zur Umwandlung von Mausaktionen in Selenium-Python-Skripte über KI

Allgemeine Beschreibung AutoMouser ist eine Chrome-Erweiterung, die auf intelligente Weise Benutzerinteraktionen verfolgt und automatisch Selenium-Testcode unter Verwendung der GPT-Modelle von OpenAI generiert. Dies geschieht durch Aufzeichnung von Benutzer-Browser-Aktionen und deren Umwandlung in robuste, wartbare Python-Selenium-Skripte,...

Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架-首席AI分享圈

Browser Use Web UI: ein Open-Source-Framework für den Einsatz von KI-Intelligenzen beim Browsen im Internet, das es KI ermöglicht, Webseiten automatisch zu bearbeiten

Allgemeine Einführung Browser Use Web UI ist ein innovatives Open-Source-Projekt, das sich auf die Bereitstellung von KI-Agenten mit einer grafischen Schnittstelle Werkzeug für Browser-Interaktion Fähigkeiten konzentriert. Das Projekt baut auf dem Browser-Use-Core-Framework auf, um mit Gradio eine benutzerfreundliche Web-Oberfläche zu erstellen, die es KI-Agenten leicht macht, ...

NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目-首席AI分享圈

NeoAI: Open-Source-Projekt, mit dem KI den Fernbetrieb von Computern übernehmen und sie mit natürlicher Sprache steuern kann

Allgemeine Einführung NeoAI ist ein innovatives Open-Source-KI-Assistententool, mit dem Benutzer ihre Computer durch Dialoge in natürlicher Sprache einfach steuern und verwalten können. Ohne irgendeinen Code zu schreiben, können Benutzer einfach den täglichen Dialog nutzen, um Dateien zu finden, Aufgaben zu automatisieren, Geräte zu verwalten, usw. NeoAI unterstützt...

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作-首席AI分享圈

CogAgent: Smart Spectrums quelloffenes intelligentes visuelles Sprachmodell für die Automatisierung grafischer Oberflächen

Umfassende Einführung CogAgent ist ein quelloffenes visuelles Sprachmodell, das von der Tsinghua University Data Mining Research Group (THUDM) entwickelt wurde und darauf abzielt, die Bedienung von plattformübergreifenden grafischen Benutzeroberflächen (GUIs) zu automatisieren. Das Modell basiert auf CogVLM (GLM-4V-9B), unterstützt zweisprachige Interaktionen in Englisch und Chinesisch und ist in der Lage, natürliche ...

ClickClickClick:启用任何LLM实现自动化安卓和电脑操作-首席AI分享圈

ClickClickClickClick: Aktivieren Sie jedes LLM zur Automatisierung von Android- und PC-Vorgängen

Allgemeine Einführung ClickClickClick ist ein von BandarLabs entwickeltes Framework, das darauf abzielt, Android- und PC-Operationen zu automatisieren, indem jedes lokale oder entfernte Large Language Model (LLM) verwendet wird. Das Projekt befindet sich derzeit in einer sehr experimentellen Phase und unterstützt eine Vielzahl von Modellen wie Ollama, Gemini und GPT 4o....

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器-首席AI分享圈

Browser-Use: Entwicklung intelligenter Web-Automatisierungs-Tools für KI-Intelligenz zur einfachen Bedienung von Browsern

Umfassende Einführung Browser-Use ist ein innovatives Open-Source-Web-Automatisierungstool, das speziell entwickelt wurde, um Sprachmodelle (LLMs) in die Lage zu versetzen, auf natürliche Weise mit Websites zu interagieren. Es bietet ein leistungsfähiges und flexibles Framework, das eine breite Palette von Mainstream-Sprachmodellen unterstützt, darunter GPT-4, Claude und andere. Das bemerkenswerteste Merkmal des Tools ist...

Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)-首席AI分享圈

Projekt Mariner: Browser-Automatisierung, ein Forschungsprototyp zur Erforschung der Zukunft der Mensch-Computer-Interaktion (unveröffentlicht)

Allgemeine Einführung Project Mariner ist ein Forschungsprototyp, der von Google DeepMind gestartet wurde, um die Zukunft der Mensch-Computer-Interaktion zu erforschen. Das Projekt nutzt die leistungsstarken multimodalen Verstehens- und Schlussfolgerungsfähigkeiten von Gemini 2.0, um eine Vielzahl von Aufgaben durch Browser-Automatisierung durchzuführen....

Dia Browser:提供智能浏览体验,集成AI工具,在浏览器中自动化处理任务(未上线)-首席AI分享圈

Dia Browser: bietet ein intelligentes Browsing-Erlebnis mit integrierten KI-Tools zur Automatisierung von Aufgaben im Browser (noch nicht live)

Allgemeine Beschreibung Dia Browser ist ein neuer intelligenter Browser, der von The Browser Company entwickelt wurde und den Nutzern durch die Integration fortschrittlicher KI-Tools ein effizienteres Browsing-Erlebnis bieten soll. Es wird erwartet, dass der Browser Anfang 2025 offiziell veröffentlicht wird. Zu den wichtigsten Funktionen gehören intelligente Schreibhilfe, automatisierte Aufgabenverarbeitung und...

de_DEDeutsch