TankWork: 음성과 텍스트를 통해 컴퓨터를 작동하고 실시간 음성 피드백을 제공하는 지능형 신체

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
2K 00

일반 소개

TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고 실시간 화면 콘텐츠를 처리하며 지속적인 시청각 피드백 및 작업 로그를 제공할 수 있으며, 특히 개발자와 연구원이 컴퓨터 인터페이스를 실제로 이해하고 분석하며 상호 작용할 수 있는 자율 데스크톱 에이전트를 만들 수 있도록 도와줍니다.

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

 

기능 목록

  • 컴퓨터 직접 제어음성 및 텍스트 명령을 통한 작업 실행
  • 컴퓨터 비전 분석실시간 화면 콘텐츠 처리
  • 음성 상호작용: 일레븐랩스를 이용한 자연어 처리
  • 사용자 지정 가능한 상담원: 성격 및 기술 구성
  • 실시간 피드백시청각 업데이트 및 로깅

 

도움말 사용

설치 프로세스

  1. 설치 전제 조건::
    • Anaconda 설치(종속성 관리에 권장)
    • 터미널/명령 프롬프트에 액세스하기
  2. 클론 창고::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. 종속성 설치::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. 구성 환경::
    • 프로젝트 루트 디렉터리에서.env문서화:
     cp .env.example .env
    
    • API 키와 설정을.env문서화:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. 애플리케이션 실행::
   python main.py

사용 프로세스

  1. PC 제어 모드::
    • 텍스트 입력 또는 음성 명령을 통한 명령 기반 컴퓨터 제어.
    • 예를 들어 "브라우저 열기"라고 말하거나 "브라우저 열기"를 입력하여 브라우저를 시작할 수 있습니다.
  2. 컴퓨터 비전 분석::
    • 화면 콘텐츠를 실시간으로 처리하여 화면의 변화를 인식하고 이에 대응합니다.
    • 예를 들어 특정 이미지가 화면에 나타나면 상담원이 미리 설정된 작업을 자동으로 수행할 수 있습니다.
  3. 음성 상호작용::
    • ElevenLabs의 자연어 처리 기능을 사용하여 음성으로 상담원과 상호작용할 수 있습니다.
    • 예를 들어 상담원에게 현재 날씨에 대해 질문하면 상담원이 음성으로 답변해 줍니다.
  4. 맞춤형 상담원::
    • 특정 요구 사항을 충족하도록 상담원의 성격과 스킬을 구성하세요.
    • 예를 들어 매일 오전 8시에 이메일 클라이언트를 여는 것과 같이 특정 시간에 특정 작업을 수행하도록 상담원을 설정할 수 있습니다.
  5. 실시간 피드백::
    • 상담원은 사용자가 현재 운영 상태를 파악할 수 있도록 실시간 업데이트와 운영 로그를 오디오 및 시각적으로 제공합니다.
    • 예를 들어 에이전트가 명령을 실행하면 사용자에게 작업 결과를 음성으로 알려줍니다.

이 단계를 통해 TankWork를 쉽게 설치하고 사용하여 컴퓨터를 제어하고 관리할 수 있는 강력한 기능을 최대한 활용할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...