일반 소개 Suna는 Kortix AI에서 개발한 오픈 소스 범용 AI 에이전트로, Apache 2.0 라이선스를 기반으로 GitHub에서 호스팅되며 사용자가 무료로 다운로드, 수정 및 자체 호스팅할 수 있습니다. 자연어 대화를 사용하여 사용자에게 다음과 같은 도움을 줍니다.
일반 설명 Strawberry는 사용자가 일상적인 작업을 자동화하고 효율성을 향상시킬 수 있도록 설계된 AI 비서가 내장된 스마트 브라우저입니다. AI 기술을 통합하여 웹 콘텐츠를 실시간으로 이해하고 빠른 검색, 콘텐츠 작성과 같은 복잡한 작업을 수행한다는 점에서 기존 브라우저와 차별화됩니다.
일반 소개 DroidRun은 인공지능이 사람처럼 안드로이드 폰을 조작할 수 있게 해주는 오픈 소스 도구입니다. 화면 버튼, 입력 상자 등과 같은 대화형 요소를 추출하여 앱 열기, 메시지 보내기, 웹 검색과 같은 작업을 AI가 자동화할 수 있도록 도와줍니다. DroidRun은 ...
일반 소개 에이전트 S는 Simular AI에서 개발한 오픈 소스 프레임워크로, 그래픽 사용자 인터페이스(GUI)를 통해 인간처럼 컴퓨터를 조작할 수 있는 인공지능입니다. 멀티모달 대규모 언어 모델과 경험적 학습 기법을 사용하여 웹 검색, 문서 편집, 소프트웨어 사용 등의 작업을 수행합니다.
일반 소개 옵텍스티는 옵텍스티 팀이 개발한 GitHub의 오픈 소스 프로젝트입니다. 이 프로젝트의 핵심은 인간의 데모 데이터를 사용하여 컴퓨터 작업, 특히 웹 페이지 작업을 완료하도록 AI를 훈련시키는 것입니다. 이 프로젝트에는 다음과 같은 세 가지 코드 라이브러리가 포함되어 있습니다.
일반 소개 런래빗은 사용자가 간단한 음성 또는 텍스트 명령을 통해 브라우저를 제어하여 다양한 작업을 수행할 수 있는 인공지능 기반 도구입니다. 가장 큰 특징은 사용자의 요구를 이해한 다음 정보 검색, 양식 작성 또는 반복적인 작업 수행과 같은 웹 페이지를 자동으로 조작한다는 점입니다.
종합 소개 에이전트 TARS는 ByteDance에서 오픈소스화한 멀티모달 AI 인텔리전스로, 사용자가 웹 콘텐츠를 시각적으로 이해하고 명령줄과 파일 시스템 작업을 결합하여 복잡한 컴퓨터 작업을 완료할 수 있도록 도와주는 핵심 기능을 갖추고 있습니다. 기존 도구처럼 수동 조작이 필요하지 않고 스스로 ...
일반 소개 Airtop은 AI 기반 브라우저 자동화 도구입니다. 사용자는 간단한 자연어 명령을 통해 클라우드 브라우저를 제어하여 웹사이트 로그인, 데이터 크롤링 또는 자동화 작업 수행과 같은 복잡한 웹 작업을 수행할 수 있습니다. 복잡하고 용량이 큰 기존 스크립트 작성의 문제를 해결합니다.
일반 소개 브라우저에이전트는 브라우저에서 직접 AI 워크플로를 생성하고 실행하는 도구입니다. 사용하기 쉽고 코드를 작성할 필요가 없으며, 사용자가 원하는 워크플로우를 설명하기만 하면 AI가 자동으로 생성됩니다. 핵심 기능은 완전히 비공개이며, 모든 데이터는 브라우저에 있습니다.
일반 소개 Highlight AI는 음성 명령과 화면 콘텐츠 분석을 통해 사용자가 모든 애플리케이션에서 작업을 빠르게 완료할 수 있도록 도와주는 Windows 및 macOS용 데스크톱 AI 비서(모바일 버전 개발 중)입니다. 화면 콘텐츠를 캡처하고, 생성을 생성하고, ...
회사 소개 Convergence는 머신러닝 기술을 사용하여 사람들이 시간을 통제할 수 있도록 돕는 회사입니다. 대규모 메타 학습 모델(LMLM)을 개발함으로써 Convergence의 AI 에이전트(브라우저 에이전트)는 다음을 사용하여 실시간으로 새로운 기술을 습득할 수 있습니다.
일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.
일반 소개 UI-TARS 데스크톱은 바이트댄스에서 개발한 UI-TARS(시각 언어 모델)를 기반으로 한 그래픽 인터페이스 에이전트 애플리케이션입니다. 이 애플리케이션을 통해 사용자는 자연어를 통해 컴퓨터를 제어하여 보다 직관적이고 효율적인 인간-컴퓨터 상호 작용을 할 수 있습니다.UI-TAR...
일반 소개 Midscene.js는 자연어 명령을 통해 웹 페이지를 제어하고, 어설션을 수행하고, 데이터를 추출하는 AI 기반 브라우저 자동화 도구입니다. 이 도구는 Chrome 확장 프로그램, JavaScript SDK 및 YAML 스크립트를 지원하여 UI 측정을 간소화합니다.
종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.
일반 소개 프로젝트 마리너는 구글 딥마인드에서 인간과 컴퓨터의 상호작용의 미래를 탐구하기 위해 시작한 연구용 프로토타입입니다. 이 프로젝트는 브라우저 자체의 강력한 멀티모달 이해 및 추론 기능을 통해 Gemini 2.0의 강력한 멀티모달 이해 및 추론 기능을 활용합니다.
일반 소개 Clevrr Computer는 PyAutoGUI 라이브러리를 사용하여 시스템 운영을 자동화하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 다음을 사용하여 정확하고 효율적으로 작업을 수행할 수 있는 자동화 에이전트를 설계하기 위해 Anthropic에서 영감을 받았습니다.
GLM-PC (Bull) 소개 GLM-PC는 자연어 명령을 통해 복잡한 작업을 빠르게 수행할 수 있는 코그에이전트 모델 기반의 데스크톱 애플리케이션입니다. 작업 계획 및 인터페이스 이해 능력이 있으며, 사용자 지시에 따라 다양한 컴퓨터 작업을 자율적으로 완료할 수 있습니다. 사용 시 주의사항...
포괄적인 소개 AppAgent는 스마트폰 애플리케이션을 조작하도록 설계된 LLM(대규모 언어 모델) 기반 멀티모달 에이전트 프레임워크입니다. 이 프레임워크는 단순화된 조작 공간을 통해 탭 및 스와이프와 같은 인간의 상호 작용을 모방하여 시스템 백엔드 액세스가 필요하지 않으므로 다양한 앱으로 범위를 확장할 수 있습니다.
일반 소개 Skyvern은 대규모 언어 모델링(LLM)과 컴퓨터 비전 기술을 사용하여 브라우저 워크플로우를 자동화하는 도구입니다. 취약하거나 신뢰할 수 없는 자동화 솔루션을 대체할 수 있는 간단한 API 엔드포인트를 제공하여 많은 수의 웹사이트를 효율적으로 자동화합니다.