TankWork: 음성과 텍스트를 통해 컴퓨터를 작동하고 실시간 음성 피드백을 제공하는 지능형 신체

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
42.8K 00
堆友AI

일반 소개

TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고 실시간 화면 콘텐츠를 처리하며 지속적인 시청각 피드백 및 작업 로그를 제공할 수 있으며, 특히 개발자와 연구원이 컴퓨터 인터페이스를 실제로 이해하고 분석하며 상호 작용할 수 있는 자율 데스크톱 에이전트를 만들 수 있도록 도와줍니다.

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

 

기능 목록

  • 컴퓨터 직접 제어음성 및 텍스트 명령을 통한 작업 실행
  • 컴퓨터 비전 분석실시간 화면 콘텐츠 처리
  • 음성 상호작용: 일레븐랩스를 이용한 자연어 처리
  • 사용자 지정 가능한 상담원: 성격 및 기술 구성
  • 실시간 피드백시청각 업데이트 및 로깅

 

도움말 사용

설치 프로세스

  1. 설치 전제 조건::
    • Anaconda 설치(종속성 관리에 권장)
    • 터미널/명령 프롬프트에 액세스하기
  2. 클론 창고::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. 종속성 설치::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. 구성 환경::
    • 프로젝트 루트 디렉터리에서.env문서화:
     cp .env.example .env
    
    • API 키와 설정을.env문서화:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. 애플리케이션 실행::
   python main.py

사용 프로세스

  1. PC 제어 모드::
    • 텍스트 입력 또는 음성 명령을 통한 명령 기반 컴퓨터 제어.
    • 예를 들어 "브라우저 열기"라고 말하거나 "브라우저 열기"를 입력하여 브라우저를 시작할 수 있습니다.
  2. 컴퓨터 비전 분석::
    • 화면 콘텐츠를 실시간으로 처리하여 화면의 변화를 인식하고 이에 대응합니다.
    • 예를 들어 특정 이미지가 화면에 나타나면 상담원이 미리 설정된 작업을 자동으로 수행할 수 있습니다.
  3. 음성 상호작용::
    • ElevenLabs의 자연어 처리 기능을 사용하여 음성으로 상담원과 상호작용할 수 있습니다.
    • 예를 들어 상담원에게 현재 날씨에 대해 질문하면 상담원이 음성으로 답변해 줍니다.
  4. 맞춤형 상담원::
    • 특정 요구 사항을 충족하도록 상담원의 성격과 스킬을 구성하세요.
    • 예를 들어 매일 오전 8시에 이메일 클라이언트를 여는 것과 같이 특정 시간에 특정 작업을 수행하도록 상담원을 설정할 수 있습니다.
  5. 실시간 피드백::
    • 상담원은 사용자가 현재 운영 상태를 파악할 수 있도록 실시간 업데이트와 운영 로그를 오디오 및 시각적으로 제공합니다.
    • 예를 들어 에이전트가 명령을 실행하면 사용자에게 작업 결과를 음성으로 알려줍니다.

이 단계를 통해 TankWork를 쉽게 설치하고 사용하여 컴퓨터를 제어하고 관리할 수 있는 강력한 기능을 최대한 활용할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...