CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作
综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语交互,能够通过屏幕截图和自然...
综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语交互,能够通过屏幕截图和自然...
综合介绍 ClickClickClick是一个由BandarLabs开发的框架,旨在通过使用任何本地或远程的大型语言模型(LLM)实现安卓和电脑的自动化操作。该项目目前处于高度实验阶段,支持多种模型如Ollama、Gemini和GPT 4o。用...
GizAI 是一个集成了AI生成、笔记和云存储功能的一站式平台。用户可以通过GizAI生成图像、视频、音频、文本、角色、故事和游戏,并且可以在平台上进行协作笔记和云存储。GizAI 提供了多种AI工具,帮助用户提高生产力和创造力,同时保护用户隐私,不会在未经同意的情况下使用用户数据进行AI训练。 GizAI 由 Giz Inc. 运营,成立于 Stripe Atlas,并获得 Google for Startups Cloud、Microsoft for Startups Founders Hub、AWS Activate 和 Paddle AI LaunchPad 等项目的支持。GizAI 坚信 使用先进的 生成式AI技术 是每个人的权力,提供免费的广告支持计划,允许用户生成、协作和分享内容。
综合介绍 Browser-Use是一个创新的开源网页自动化工具,专门设计用于让语言模型(LLM)能够自然地与网站进行交互。它提供了一个强大而灵活的框架,支持多种主流语言模型,包括GPT-4、Claude等。该工具最显著的特点...
综合介绍 Dia Browser是由The Browser Company开发的一款全新智能浏览器,旨在通过集成先进的AI工具,为用户提供更高效的浏览体验。该浏览器预计于2025年初正式发布,主要特点包括智能写作辅助、自动化任务处理和...
综合介绍 Clevrr Computer 是一个开源项目,旨在通过使用 PyAutoGUI 库来实现系统操作的自动化。该项目受到 Anthropic 的启发,设计了一个自动化代理,可以精确高效地执行用户的系统操作任务。Clevrr Computer 能...
GLM-PC(牛牛)简介 GLM-PC 是基于 CogAgent 模型的桌面应用,能通过自然语言指令快速执行复杂任务。它具备任务规划和界面理解能力,可根据用户指令自主完成各种计算机操作。 使用注意事项 使用专用虚拟机...
综合介绍 Runner H是一家致力于开发前沿行动模型的公司,旨在通过先进的AI能力提升工人的生产力。其旗舰产品Runner H是一款先进的人工智能代理,旨在帮助用户自动化复杂的、多步骤的任务,减少重复和手动输入。通...
综合介绍 AppAgent 是一个基于大语言模型(LLM)的多模态代理框架,旨在操作智能手机应用程序。该框架通过简化的操作空间,模仿人类的交互方式,如点击和滑动,从而无需系统后端访问,扩大了其在不同应用程序中的...
综合介绍 Agent.exe 是一个开源的 Electron 应用程序,利用 Anthropic 的 Claude 3.5 Sonnet API,让用户可以通过 AI 直接控制本地计算机。该项目由 Kyle Corbitt 开发,旨在提供一个轻量级的解决方案,让用户体...