에이전트 타스: 비전과 명령을 사용하여 컴퓨터를 작동하는 오픈소스 인텔리전스

최신 AI 리소스5개월 전 업데이트 AI 공유 서클
12.4K 00

일반 소개

에이전트 타스는 바이트댄스에서 오픈소스화한 멀티모달 AI 인텔리전스로, 웹 콘텐츠를 시각적으로 이해하고 명령줄과 파일 시스템 작업을 결합하여 사용자가 복잡한 컴퓨터 작업을 완료할 수 있도록 도와주는 핵심 기능을 갖추고 있습니다. 기존 도구처럼 수동으로 개입할 필요 없이 브라우저 작업을 자동화하고 파일을 편집하거나 명령을 실행할 수 있습니다. 이 웹사이트에서는 워크플로우를 자동화해야 하는 개발자나 사용자를 위해 데스크톱 애플리케이션 다운로드와 기술 문서를 제공합니다. 현재 기술 프리뷰 단계에 있으며 주로 macOS를 지원합니다. 에이전트 타스는 컴퓨터 작업을 보다 스마트하고 효율적으로 만드는 것을 목표로 합니다. 이 프로젝트는 다음을 기반으로 합니다. UI-TARS 데스크톱 브라우저 래핑, 벤치마킹 Manus .

Agent TARS:使用视觉和命令操作电脑的开源智能体

 

기능 목록

  • 브라우저 자동화웹 페이지 요소를 시각적으로 인식하여 검색, 클릭, 양식 작성 등을 자동화합니다.
  • 명령줄 통합스크립트를 실행하거나 백그라운드 작업을 관리하기 위해 시스템 명령을 직접 실행할 수 있도록 지원합니다.
  • 파일 시스템 작동파일 읽기, 편집 또는 생성, 데이터 처리 또는 결과 저장 기능.
  • 미션 계획 및 실행복잡한 작업을 세분화하고 단계별 완료를 자동화하여 심층적인 연구나 반복적인 작업을 지원하세요.
  • 멀티모달 상호 작용이미지, 텍스트, 코드 입력을 결합하여 다양한 유형의 작업에 맞게 조정할 수 있습니다.
  • 도구 확장검색, 문서 편집 및 MCP(모델 컨텍스트 프로토콜)를 통합하여 기능적 유연성을 향상합니다.
  • 데스크톱 애플리케이션 지원사용자가 실시간으로 보고 조정하기 편리한 작업 과정을 보여주는 인터페이스를 제공합니다.

 

도움말 사용

에이전트 타스 사용은 설치와 운영의 두 부분으로 나뉩니다. 다음은 빠르게 시작할 수 있는 자세한 단계입니다.

설치 프로세스

  1. 데스크톱 애플리케이션 다운로드
    공식 웹사이트(https://agent-tars.com/)를 열고 '다운로드' 버튼을 클릭하여 GitHub 릴리스 페이지(https://github.com/bytedance/UI-TARS-desktop/)로 이동합니다. 릴리스). 최신 버전을 선택합니다(예 AgentTARS-macOS-latest.dmg파일 크기는 약 수십 MB입니다. 파일 크기는 약 수십 MB이며 네트워크 속도에 따라 1~5분 정도 소요됩니다.
  2. MacOS에 설치
    다운로드가 완료되면 .dmg 파일을 클릭하면 설치 창이 나타납니다. 에이전트 타스 아이콘을 애플리케이션 폴더로 드래그합니다. 설치 과정은 몇 초 밖에 걸리지 않습니다. 완료되면 애플리케이션에서 에이전트 TARS를 찾아 열기를 클릭합니다.
  3. 권한 설정
    macOS를 처음 시작하면 접근성에 대한 액세스 권한을 허용할지 묻는 메시지가 표시됩니다. "시스템 설정 > 개인정보 및 보안 > 접근성"을 클릭하고 에이전트 TARS를 찾아서 켭니다. 이렇게 하면 화면과 키보드를 제어할 수 있습니다.
  4. 구성 모델 및 API
    앱을 연 후 왼쪽 하단에 있는 설정 버튼을 클릭하여 구성 페이지로 들어갑니다. 모델 공급자(예: Azure OpenAI)와 API 키를 설정해야 합니다. 구체적인 단계

    • 모델 구성에서 공급자를 선택합니다.
    • API 키(제공업체에서 받은 키)를 입력합니다.
    • Azure를 사용하는 경우, 다음 항목도 채워야 합니다. apiVersiondeploymentName 노래로 응답 endpoint.
      저장 후 앱이 자동으로 모델에 연결됩니다.
  5. 선택적 검색 구성
    웹 검색 기능이 필요한 경우 '검색 설정'으로 이동하여 검색 제공업체를 선택한 후 API 키를 입력합니다. 완료되면 저장합니다.

워크플로

설치가 완료되면 에이전트 타스에는 입력 상자와 작업 표시 영역이 있는 간단한 기본 인터페이스가 있습니다. 다음은 주요 기능의 사용 방법입니다.

브라우저 자동화

  • 이동입력 상자에 "최신 AI 뉴스 검색 및 헤드라인 저장"과 같은 작업을 입력합니다. 엔터를 누르면 에이전트 TARS가 내장 브라우저를 열어 자동으로 헤드라인을 검색하고 추출합니다.
  • 시연오른쪽 창에는 웹 페이지 열기, 페이지 스크롤과 같은 브라우저 동작이 실시간으로 표시됩니다.
  • 결국완료되면 인터페이스 하단에 경로가 표시된 텍스트 파일로 제목을 저장합니다.

명령줄 통합

  • 이동"현재 폴더에 파일 나열"과 같은 명령을 입력합니다(macOS의 경우 ls -l 에 해당하는 명령은 dir). Enter 키를 누르면 에이전트 TARS가 터미널을 호출하여 실행합니다.
  • 시연명령 출력은 인터페이스 하단에 표시되어 쉽게 확인할 수 있습니다.
  • 고급 사용법'시스템 메모리 확인 및 기록'과 같은 복잡한 스크립트를 입력하면 해당 명령어를 실행하고 결과를 저장합니다.

파일 시스템 작동

  • 이동: "새 파일 test.txt를 만들고 'hello'를 작성합니다."라고 입력합니다. Enter 키를 누르면 에이전트가 파일을 만들고 내용을 씁니다.
  • 시연: 작업 프로세스가 인터페이스에 표시되며, 완료 후 경로를 클릭하면 파일을 볼 수 있습니다.
  • 파일 편집"test.txt를 열고 'world'를 추가합니다."라고 입력하면 파일이 자동으로 수정됩니다.

미션 계획 및 실행

  • 이동"최신 버전의 Python 기능 조사 및 문서 정리"와 같은 복잡한 작업을 입력합니다. 에이전트 TARS가 데이터 검색, 정보 추출, 문서 생성 등 작업을 세분화하여 처리합니다.
  • 시연오른쪽 창에는 웹 페이지 열기, 텍스트 복사 등 작업의 각 단계가 표시됩니다.
  • 결국: 최종적으로 정리된 문서를 생성하고 지정된 경로에 저장합니다.

인간과 기계의 협업

  • 실시간 조정작업 실행 중에 입력 상자에 "다른 예제 단락 추가"와 같은 명령을 추가할 수 있습니다. 에이전트 TARS가 새 입력에 따라 작업을 조정합니다.
  • 결과 공유'공유' 버튼을 클릭하고 '로컬 HTML'을 선택하여 로그 파일을 생성하거나 업로드 및 공유를 위한 원격 서버 URL을 구성합니다.

주의

  • 환경 요구 사항현재 macOS만 지원되며, Windows 및 Linux 버전은 아직 출시되지 않았습니다.
  • 네트워크 연결모델과 검색 서비스를 연결하려면 안정적인 네트워크가 필요합니다.
  • 테스트 중 구성 요소 조정기능이 작동하지 않는 경우(예: 검색 실패) API 키가 올바른지 확인하거나 Discord 커뮤니티에 가입하여 도움을 요청하세요(공식 웹사이트에 링크).

이 단계를 통해 간단한 파일 조작부터 복잡한 연구 작업까지 모든 작업에 에이전트 타스를 쉽게 사용할 수 있습니다.

 

애플리케이션 시나리오

  1. 웹 자동화
    에이전트 타스를 사용하여 웹을 자동으로 검색하고 뉴스나 제품 정보를 추출하세요. 예를 들어 "최근 기술 뉴스 헤드라인 수집"이라고 입력하면 시장 조사나 정보 수집을 위해 결과를 검색하고 저장합니다.
  2. 작업 관리
    '여행 계획 세우기'와 같은 복잡한 프로젝트를 계획할 때 항공편, 호텔을 검색하고 문서로 정리합니다. 개인 비서나 프로젝트 관리에 이상적입니다.
  3. 코드 지원
    "파일 크기 확인을 위한 Python 스크립트 생성"을 입력하면 에이전트 TARS가 코드를 작성하고 저장하므로 개발자가 도구를 빠르게 생성할 수 있습니다.
  4. 데이터 분석
    "웹 페이지의 주식 데이터 분석 및 표 저장"과 같은 실시간 데이터를 처리합니다. 데이터를 추출하고 재무 또는 시장 분석에 적합한 파일을 생성합니다.

 

QA

  1. 에이전트 타스는 무료인가요?
    예, 오픈 소스 프로젝트이며 Apache 2.0 라이선스를 따릅니다. 코드와 애플리케이션은 GitHub에서 무료로 다운로드하여 사용할 수 있습니다.
  2. Windows를 지원하나요?
    현재 macOS만 지원되며, Windows 및 Linux 버전은 아직 개발 중이므로 업데이트가 있을 때마다 GitHub를 주시하세요.
  3. 프로그래밍 지식이 필요하신가요?
    필요 없습니다. 자연어로 작동하며 일반 사용자도 쉽게 접근할 수 있습니다. 하지만 프로그래밍 방법을 알고 있으면 명령줄 기능을 더 잘 활용할 수 있습니다.
  4. 검색 기능이 작동하지 않는 문제를 해결하려면 어떻게 해야 하나요?
    "검색 설정"의 API 키가 올바른지 또는 네트워크 연결이 제대로 작동하는지 확인하세요. Discord 커뮤니티에 가입하여 피드백을 제공할 수도 있습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...