일반 소개
TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고 실시간 화면 콘텐츠를 처리하며 지속적인 시청각 피드백 및 작업 로그를 제공할 수 있으며, 특히 개발자와 연구원이 컴퓨터 인터페이스를 실제로 이해하고 분석하며 상호 작용할 수 있는 자율 데스크톱 에이전트를 만들 수 있도록 도와줍니다.

기능 목록
- 컴퓨터 직접 제어음성 및 텍스트 명령을 통한 작업 실행
- 컴퓨터 비전 분석실시간 화면 콘텐츠 처리
- 음성 상호작용: 일레븐랩스를 이용한 자연어 처리
- 사용자 지정 가능한 상담원: 성격 및 기술 구성
- 실시간 피드백시청각 업데이트 및 로깅
도움말 사용
설치 프로세스
- 설치 전제 조건::
- Anaconda 설치(종속성 관리에 권장)
- 터미널/명령 프롬프트에 액세스하기
- 클론 창고::
git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
- 종속성 설치::
pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
- 구성 환경::
- 프로젝트 루트 디렉터리에서
.env
문서화:
cp .env.example .env
- API 키와 설정을
.env
문서화:
GEMINI_API_KEY=your_api_key OPENAI_API_KEY=your_api_key ELEVENLABS_API_KEY=your_api_key ANTHROPIC_API_KEY=your_api_key ELEVENLABS_MODEL=eleven_flash_v2_5 COMPUTER_USE_IMPLEMENTATION=tank COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022 COMPUTER_USE_MODEL_PROVIDER=anthropic NARRATIVE_LOGGER_NAME=ComputerUse.Tank NARRATIVE_MODEL=gpt-4o NARRATIVE_TEMPERATURE=0.6 NARRATIVE_MAX_TOKENS=250 LOG_LEVEL=INFO
- 프로젝트 루트 디렉터리에서
- 애플리케이션 실행::
python main.py
사용 프로세스
- PC 제어 모드::
- 텍스트 입력 또는 음성 명령을 통한 명령 기반 컴퓨터 제어.
- 예를 들어 "브라우저 열기"라고 말하거나 "브라우저 열기"를 입력하여 브라우저를 시작할 수 있습니다.
- 컴퓨터 비전 분석::
- 화면 콘텐츠를 실시간으로 처리하여 화면의 변화를 인식하고 이에 대응합니다.
- 예를 들어 특정 이미지가 화면에 나타나면 상담원이 미리 설정된 작업을 자동으로 수행할 수 있습니다.
- 음성 상호작용::
- ElevenLabs의 자연어 처리 기능을 사용하여 음성으로 상담원과 상호작용할 수 있습니다.
- 예를 들어 상담원에게 현재 날씨에 대해 질문하면 상담원이 음성으로 답변해 줍니다.
- 맞춤형 상담원::
- 특정 요구 사항을 충족하도록 상담원의 성격과 스킬을 구성하세요.
- 예를 들어 매일 오전 8시에 이메일 클라이언트를 여는 것과 같이 특정 시간에 특정 작업을 수행하도록 상담원을 설정할 수 있습니다.
- 실시간 피드백::
- 상담원은 사용자가 현재 운영 상태를 파악할 수 있도록 실시간 업데이트와 운영 로그를 오디오 및 시각적으로 제공합니다.
- 예를 들어 에이전트가 명령을 실행하면 사용자에게 작업 결과를 음성으로 알려줍니다.
이 단계를 통해 TankWork를 쉽게 설치하고 사용하여 컴퓨터를 제어하고 관리할 수 있는 강력한 기능을 최대한 활용할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...