Intelligente Desktop-Automatisierung

Insgesamt 44 Artikel
Suna:集成浏览器操作与数据分析的智能代理

Suna: Intelligente Agenten, die Browserbetrieb und Datenanalyse integrieren

Allgemeine Einführung Suna ist ein von Kortix AI entwickelter Open-Source-Allzweck-KI-Agent, der auf GitHub gehostet wird und auf der Apache 2.0-Lizenz basiert, so dass Benutzer ihn kostenlos herunterladen, verändern und selbst hosten können. Er verwendet natürlichsprachliche Dialoge, um den Benutzern bei...
vor 4 Monaten
01.5K
Strawberry:自动化任务的AI智能浏览器

Strawberry: ein intelligenter KI-Browser für automatisierte Aufgaben

Allgemeine Beschreibung Strawberry ist ein intelligenter Browser mit einem eingebauten KI-Assistenten, der Benutzern helfen soll, ihre täglichen Aufgaben zu automatisieren und die Effizienz zu verbessern. Er unterscheidet sich von herkömmlichen Browsern durch die Integration von KI-Technologie, die Webinhalte in Echtzeit versteht und komplexe Aufgaben wie schnelle Recherchen, Schreiben von Inhalten...
vor 4 Monaten
01K
Agent S:像人类一样操作电脑的开源智能体框架

Agent S: Ein Open Source Framework für intelligente Körper, die Computer wie Menschen bedienen können

Allgemeine Einführung Agent S ist ein von Simular AI entwickeltes Open-Source-Framework, mit dem Intelligenzen Computer über eine grafische Benutzeroberfläche (GUI) wie Menschen bedienen können. Er verwendet ein multimodales großes Sprachmodell und empirische Lerntechniken, um Aufgaben wie das Surfen im Internet, das Bearbeiten von Dokumenten, die Verwendung von Software...
vor 4 Monaten
01.1K
Libra:用对话生成本地AI智能体的客户端(内测)

Libra: ein Client zur Erzeugung lokaler KI-Intelligenzen mit Dialog (interner Test)

Allgemeine Einführung Libra ist ein innovatives Tool von Greenbit.ai, dessen Kernfunktion darin besteht, KI-Intelligenzen zu generieren, die lokal über natürlichsprachliche Dialoge laufen. Der so genannte "Vibe Agent" ermöglicht es Nutzern, ihre Bedürfnisse in einfachen Worten zu beschreiben und schnell...
vor 4 Monaten
01K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity: ein Open-Source-Projekt zum Trainieren von KI für die Durchführung von Webaktionen mit menschlichen Demonstrationen

Allgemeine Einführung Optexity ist ein Open-Source-Projekt auf GitHub, das vom Optexity-Team entwickelt wurde. Sein Kern ist es, menschliche Demonstrationsdaten zu verwenden, um KI zu trainieren, um Computeraufgaben zu erledigen, insbesondere Webseitenoperationen. Das Projekt enthält drei Code-Bibliotheken: Compute...
vor 4 Monaten
01.3K
RunRabbit:使用语音和文字操作智能体完成电脑操作

RunRabbit: Mit Sprache und Text Intelligentsia bedienen, um Computeroperationen zu erledigen

Allgemeine Einführung RunRabbit ist ein auf künstlicher Intelligenz basierendes Tool, mit dem Benutzer ihren Browser steuern können, um verschiedene Aufgaben durch einfache Sprach- oder Textbefehle auszuführen. Seine beste Eigenschaft ist, dass es die Bedürfnisse des Benutzers versteht und dann automatisch Webseiten manipuliert, wie z.B. die Suche nach Informationen, das Ausfüllen von Formularen oder das Ausführen sich wiederholender Aufgaben...
vor 4 Monaten
0996
Agent TARS:使用视觉和命令操作电脑的开源智能体

Agent TARS: eine Open-Source-Intelligenz, die mit Hilfe von Vision und Befehlen Computer steuert

Comprehensive Introduction Agent TARS ist eine multimodale KI-Intelligenz, die von ByteDance als Open-Source zur Verfügung gestellt wird. Sie verfügt über Kernfunktionen, die Benutzern helfen, komplexe Computeraufgaben zu erledigen, indem sie Webinhalte visuell versteht und Befehlszeilen- und Dateisystemoperationen kombiniert. Anstatt wie herkömmliche Tools manuelle Eingriffe zu erfordern, kann es selbst...
vor 5 Monaten
01.3K
Airtop:使用自然语言控制的浏览器自动化工具

Airtop: ein Browser-Automatisierungstool mit natürlicher Sprachsteuerung

Allgemeine Einführung Airtop ist ein KI-basiertes Browser-Automatisierungstool. Es ermöglicht Benutzern die Steuerung von Cloud-Browsern zur Durchführung komplexer Weboperationen, wie z. B. die Anmeldung bei einer Website, das Crawlen von Daten oder die Durchführung von Automatisierungsaufgaben durch einfache Befehle in natürlicher Sprache. Es löst das Problem des Schreibens traditioneller Skripte, die komplex sind und...
vor 5 Monaten
01.2K
BrowserAgent:在浏览器中创建和运行AI工作流的工具

BrowserAgent: ein Werkzeug zur Erstellung und Ausführung von KI-Workflows im Browser

Allgemeine Einführung BrowserAgent ist ein Tool, das KI-Workflows direkt im Browser erstellt und ausführt. Es ist einfach zu bedienen und erfordert keinen Code, der geschrieben werden muss. Der Benutzer beschreibt einfach den gewünschten Workflow und die KI wird automatisch generiert. Seine Kernfunktion ist völlig privat, alle Daten befinden sich in Ihrem Browser...
vor 5 Monaten
01.2K
autoMate:结合AI与RPA实现电脑任务自动化的本地工具

autoMate: ein natives Tool, das KI und RPA zur Automatisierung von Computeraufgaben kombiniert

Umfassende Einführung autoMate ist ein lokales Automatisierungswerkzeug, das von yuruotong1 als Open Source auf GitHub entwickelt wurde, mit AI+RPA (Artificial Intelligence+Robotic Process Automation) als Kernfunktion. Es kombiniert das intelligente Verständnis von umfangreichen Sprachmodellen mit RPA...
vor 5 Monaten
01.4K
Convergence:在代理浏览器中自动完成重复任务的AI助手

Convergence: ein KI-Assistent, der sich wiederholende Aufgaben in einem Agentenbrowser automatisiert

Allgemeine Einführung Convergence ist ein Unternehmen, das sich zum Ziel gesetzt hat, Menschen mit Hilfe von Technologien des maschinellen Lernens zu helfen, die Kontrolle über ihre Zeit zurückzugewinnen. Durch die Entwicklung von groß angelegten Meta-Lernmodellen (LMLMs) sind die KI-Agenten (Browser-Agenten) von Convergence in der Lage, neue Fähigkeiten in Echtzeit zu...
vor 2 Monaten
01.7K
MobileAgent:多代理协作的移动设备操作助手

MobileAgent: Multi-Agenten-Kollaboration für mobile Gerätebedienungsassistenten

Allgemeine Einführung MobileAgent ist ein leistungsstarker Assistent für die Bedienung von Mobilgeräten, der die Effizienz und Automatisierung der Bedienung von Mobilgeräten durch Multi-Agenten-Kollaboration und erweiterte visuelle Wahrnehmungsmodule verbessern soll. Er wurde vom X-PLUG-Team entwickelt und unterstützt Android und ...
vor 7 Monaten
02K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert

Allgemeine Einführung TankWork ist ein Open-Source-Desktop-Agent-Framework, das entwickelt wurde, um KI in die Lage zu versetzen, Ihren Computer durch Computer Vision und Interaktion auf Systemebene wahrzunehmen und zu steuern. Das Framework ermöglicht Agenten die direkte Steuerung von Computern durch Sprach- und Textbefehle, die Verarbeitung von Bildschirminhalten in Echtzeit und die Bereitstellung kontinuierlicher audiovisueller...
vor 7 Monaten
01.4K
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: Desktop Intelligentsia Anwendung zur Steuerung von Computern mit natürlicher Sprache

Allgemeine Einführung UI-TARS Desktop ist eine grafische Interface-Agent-Anwendung, die auf dem von ByteDance entwickelten UI-TARS (Visual Language Model) basiert. Die Anwendung ermöglicht es Benutzern, Computer durch natürliche Sprache für eine intuitivere und effizientere Mensch-Computer-Interaktion zu steuern...
vor 7 Monaten
02.1K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: Intelligente Körper-Workflows in natürlicher Sprache für Desktop- und Browser-Automatisierung

Allgemeine Einführung Eko ist ein produktionsreifes JavaScript-Framework zur Erstellung effizienter intelligenter Agenten-Workflows durch Beschreibungen in natürlicher Sprache. Es wurde entwickelt, um Entwicklern die Möglichkeit zu geben, alltägliche Aufgaben mit Hilfe von KI-Technologien zu automatisieren, ohne...
vor 5 Monaten
01.8K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: Generierung von Browser-Automatisierungscode zur Umwandlung von Mausaktionen in Selenium-Python-Skripte über KI

Allgemeine Einführung AutoMouser ist eine Chrome-Erweiterung, die Benutzerinteraktionen intelligent verfolgt und automatisch Selenium-Testcode unter Verwendung der GPT-Modelle von OpenAI generiert. Dies geschieht durch die Aufzeichnung von Benutzer-Browser-Aktionen und deren Konvertierung...
vor 7 Monaten
01.4K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: ein Open-Source-Framework für den Einsatz von KI-Intelligenzen beim Browsen im Internet, das es KI ermöglicht, Webseiten automatisch zu bearbeiten

Allgemeine Einführung Browser Use Web UI ist ein innovatives Open-Source-Projekt, das sich auf die Bereitstellung von KI-Agenten mit Browser-Interaktionsfähigkeiten als grafisches Schnittstellenwerkzeug konzentriert. Das Projekt baut auf dem Kern-Framework von Browser Use auf, das mit Gradio ...
vor 2 Monaten
02.7K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: Open-Source-Projekt, mit dem KI den Fernbetrieb von Computern übernehmen und sie mit natürlicher Sprache steuern kann

Allgemeine Einführung NeoAI ist ein innovatives Open-Source-KI-Assistententool, mit dem Benutzer ihre Computer durch Dialoge in natürlicher Sprache einfach steuern und verwalten können. Ohne irgendeinen Code zu schreiben, können Benutzer Dateisuche, Aufgabenautomatisierung, Gerätemanagement und vieles mehr mit nur einem täglichen Dialog durchführen.NeoAI...
vor 7 Monaten
02.5K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrums quelloffenes intelligentes visuelles Sprachmodell für die Automatisierung grafischer Oberflächen

Umfassende Einführung CogAgent ist ein quelloffenes visuelles Sprachmodell, das von der Tsinghua University Data Mining Research Group (THUDM) entwickelt wurde und darauf abzielt, die Bedienung der grafischen Benutzeroberfläche (GUI) plattformübergreifend zu automatisieren. Das Modell basiert auf CogVLM (GLM-4V-9B) und unterstützt zweisprachiges Chinesisch und Englisch...
vor 8 Monaten
01.8K
ClickClickClick:启用任何LLM实现自动化安卓和电脑操作

ClickClickClickClick: Aktivieren Sie jedes LLM zur Automatisierung von Android- und PC-Vorgängen

Allgemeine Einführung ClickClickClick ist ein von BandarLabs entwickeltes Framework, das darauf abzielt, Android- und PC-Operationen unter Verwendung eines beliebigen lokalen oder entfernten Large Language Model (LLM) zu automatisieren. Das Projekt befindet sich derzeit in einer sehr experimentellen Phase und unterstützt eine Vielzahl von Modellen wie z.B....
vor 8 Monaten
01.6K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: Entwicklung intelligenter Web-Automatisierungs-Tools für KI-Intelligenz zur einfachen Bedienung von Browsern

Umfassende Einführung Browser-Use ist ein innovatives Open-Source-Web-Automatisierungstool, das speziell entwickelt wurde, um Sprachmodelle (LLMs) in die Lage zu versetzen, auf natürliche Weise mit Websites zu interagieren. Es bietet ein leistungsfähiges und flexibles Framework, das eine breite Palette von Mainstream-Sprachmodellen unterstützt, darunter GPT-4, Claud...
vor 8 Monaten
02.7K
Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)

Projekt Mariner: Browser-Automatisierung, ein Forschungsprototyp zur Erforschung der Zukunft der Mensch-Computer-Interaktion (unveröffentlicht)

Allgemeine Einführung Project Mariner ist ein Forschungsprototyp, der von Google DeepMind gestartet wurde, um die Zukunft der Mensch-Computer-Interaktion zu erforschen. Das Projekt nutzt die leistungsstarken multimodalen Verstehens- und Schlussfolgerungsfähigkeiten von Gemini 2.0 durch ein Browser-Selfie...
vor 7 Monaten
01.6K
Dia Browser:提供智能浏览体验,集成AI工具,在浏览器中自动化处理任务(未上线)

Dia Browser: bietet ein intelligentes Browsing-Erlebnis mit integrierten KI-Tools zur Automatisierung von Aufgaben im Browser (noch nicht live)

Allgemeine Beschreibung Dia Browser ist ein neuer intelligenter Browser, der von The Browser Company entwickelt wurde und den Nutzern durch die Integration fortschrittlicher KI-Tools ein effizienteres Browsing-Erlebnis bieten soll. Es wird erwartet, dass der Browser Anfang 2025 offiziell veröffentlicht wird...
vor 8 Monaten
01.9K
Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: Automatisierung der Desktop-Manipulationsintelligenz mit der PyAutoGUI-Bibliothek

Allgemeine Einführung Clevrr Computer ist ein Open-Source-Projekt, das darauf abzielt, Systemoperationen durch die Verwendung der PyAutoGUI-Bibliothek zu automatisieren. Das Projekt wurde von Anthropic inspiriert, um einen Automatisierungsagenten zu entwerfen, der akkurat und effizient Operationen durchführen kann, indem er ...
vor 8 Monaten
01.5K
GLM-PC(智谱牛牛)正式发布内测下载,真正可以控制电脑的AI

GLM-PC (Smart Spectrum Bull) ist offiziell zum internen Download freigegeben, die KI, die wirklich den Computer steuern kann

GLM-PC (Bull) Einleitung GLM-PC ist eine Desktop-Anwendung auf der Grundlage des CogAgent-Modells, die in der Lage ist, komplexe Aufgaben durch natürlichsprachliche Befehle schnell auszuführen. Sie hat die Fähigkeit, Aufgaben zu planen und Schnittstellen zu verstehen, und kann verschiedene Computeroperationen entsprechend den Anweisungen des Benutzers selbständig ausführen. Hinweise zur Verwendung...
vor 8 Monaten
02.3K
Runner H:通过自然语言命令实现网页自动化执行任务(申请内测)

Runner H: Automatisierung von Aufgaben zur Ausführung von Webseiten durch natürlichsprachliche Befehle (Anwendung für interne Tests)

Allgemeine Einführung Runner H ist ein Unternehmen, das sich der Entwicklung von innovativen Aktionsmodellen verschrieben hat, um die Produktivität der Mitarbeiter durch fortschrittliche KI-Funktionen zu steigern. Sein Hauptprodukt, Runner H, ist ein fortschrittlicher KI-Agent, der Benutzern dabei helfen soll, komplexe, mehrstufige Aufgaben zu automatisieren und die...
vor 8 Monaten
01.7K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent: automatisierte Smartphone-Bedienung durch multimodale Intelligenz

Umfassende Einführung AppAgent ist ein Large Language Model (LLM)-basiertes multimodales Agenten-Framework, das für die Handhabung von Smartphone-Anwendungen entwickelt wurde. Das Framework ahmt menschliche Interaktionen wie Taps und Swipes durch einen vereinfachten Manipulationsraum nach, wodurch die Notwendigkeit eines System-Backend-Zugriffs entfällt und die Nutzung über verschiedene Anwendungen hinweg...
vor 8 Monaten
02K
Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

Skyvern: Automatisierung von browserbasierten Arbeitsabläufen mit LLM und Computer Vision

Allgemeine Einführung Skyvern ist ein Tool zur Automatisierung von Browser-Workflows unter Verwendung von Large Language Modelling (LLM) und Computer Vision Techniken. Es automatisiert effizient eine große Anzahl von Websites, indem es einen einfachen API-Endpunkt bereitstellt, der Automatisierungslösungen ersetzen kann, die anfällig oder unzuverlässig sind...
vor 5 Monaten
02.3K