DroidRun: 안드로이드 폰을 자동화하는 AI용 오픈 소스 도구

최신 AI 리소스4 개월 전에 게시 됨 AI 공유 서클
2.3K 00

일반 소개

DroidRun은 AI가 인간처럼 안드로이드 폰을 조작할 수 있도록 해주는 오픈 소스 도구입니다. 화면 버튼과 입력 상자 등의 대화형 요소를 추출하여 앱 열기, 메시지 보내기, 웹 검색 등의 작업을 AI가 자동화할 수 있도록 도와주며, 정확하고 안정적인 작동을 위해 시각적 파싱과 UI 구조 분석을 결합합니다. 시각적 구문 분석과 UI 구조 분석을 결합하여 정확하고 안정적으로 작동하며, 사용자가 자신의 언어 모델을 연결할 수 있도록 지원하며 다양한 안드로이드 시스템과 호환됩니다. AI 어시스턴트를 개발하는 개발자이든 휴대폰 조작을 단순화하는 일반 사용자이든, DroidRun은 빠르게 시작하고 바로 사용할 수 있습니다.

DroidRun:AI自动操作安卓手机的开源工具

 

기능 목록

  • AI는 화면 상호작용 요소를 추출하여 버튼, 텍스트 상자 등을 인식할 수 있습니다.
  • AI 자동 탭, 스와이프, 입력을 지원하여 사람의 조작을 시뮬레이션할 수 있습니다.
  • 시각적 구문 분석과 UI 추출을 결합하여 복잡한 인터페이스에 적응하세요.
  • 지능형 오류 처리 및 작업 중단 후 자동 복구.
  • 높은 유연성으로 사용자가 선택한 언어 모델에 대한 연결을 지원합니다.
  • 사용자 작업을 기록하여 동일한 작업의 반복 실행을 지원합니다.
  • Android 6.0 이상과 호환되며 다양한 디바이스에서 사용할 수 있습니다.
  • 개발자를 위한 사용자 지정 가능한 기능을 갖춘 오픈 소스 프레임워크를 제공합니다(곧 출시 예정).

 

도움말 사용

설치 프로세스

  1. 공식 웹사이트 방문하기브라우저를 열고 다음을 입력합니다. https://www.droidrun.ai/.
  2. 앱 다운로드공식 홈페이지에서 '안드로이드 포털 APK 다운로드'를 클릭하여 다운로드합니다. droidrun-portal.apk 파일 크기는 약 10MB입니다.
  3. 권한 사용 설정Android 휴대폰의 '설정 > 보안'에서 '알 수 없는 출처의 앱 설치 허용'을 활성화합니다. 휴대폰마다 경로가 약간 다를 수 있습니다.
  4. APK 설치파일 관리자를 열고 다운로드한 APK 파일을 찾아 설치를 클릭합니다. 설치 과정은 약 1분 정도 소요됩니다.
  5. 권한 부여DroidRun을 처음 열면 '접근성 서비스' 및 '화면 캡처'를 활성화하라는 메시지가 표시됩니다. 프롬프트를 클릭하여 설정 페이지로 들어가 관련 권한을 활성화하세요.
  6. 연결 모델앱 내에서 언어 모델 API 키를 입력합니다(Gemini, ChatGPT, Grok 등이 지원됨). "확인"을 클릭하여 연결이 성공했는지 확인합니다.

사용 방법

DroidRun의 핵심은 AI가 사용자 대신 휴대폰을 작동하는 것입니다. 화면 콘텐츠를 분석하고 자동으로 작업을 수행하여 이를 수행합니다. 다음은 주요 기능에 대한 자세한 단계별 가이드입니다:

기능 1: 휴대폰 작업 자동 실행

  • 작업 만들기DroidRun을 열고 "새 작업"을 클릭합니다. 입력 상자에 작업을 설명합니다(예: "캘린더를 열고 내일 오전 10시에 미팅 추가"). 설명이 구체적일수록 AI 실행이 더 정확해집니다.
  • 모델 선택설정 > 언어 모델로 이동하여 연결된 모델을 선택합니다. 빠른 모델(예 쌍둥이자리 플래시)를 사용하여 간단한 작업을 수행하고 복잡한 모델(예: GPT-4)을 사용하여 다단계 작업을 수행합니다.
  • 실행 중인 작업DroidRun은 실시간으로 화면을 캡처하고 인터페이스 요소를 식별합니다. 화면에 파란색 하이라이트가 나타나 AI가 현재 작동 중인 영역을 표시합니다. 예를 들어 캘린더 아이콘을 탭하거나 회의 제목을 입력합니다.
  • 검사 결과: 작업이 완료되면 '로그'를 클릭하여 실행 세부 정보를 확인합니다. 로그에는 "캘린더 아이콘을 성공적으로 클릭했습니다" 또는 "텍스트 입력 실패"와 같은 각 작업이 기록됩니다. 실패한 경우 설명을 조정하고 다시 시도할 수 있습니다.

기능 2: 시각적 및 UI 통합 분석

  • 기능 활성화설정 > 구문 분석 모드에서 시각 + UI 추출을 선택합니다. 이렇게 하면 DroidRun이 스크린샷과 시스템 UI 데이터를 모두 분석할 수 있습니다.
  • 운영상 복잡한 인터페이스예를 들어 쇼핑 앱에서 "징동 열어, 블루투스 헤드폰 검색"이라고 입력하면 AI가 자동으로 검색창을 찾아 텍스트를 입력하고 검색 버튼을 클릭합니다. 인터페이스에 광고가 있더라도 AI는 대상 요소를 인식할 수 있습니다.
  • 최적화된 인식AI가 놓치는 경우 설정 > 인식 감도로 이동하여 슬라이더를 조정하세요. 값이 높을수록 시각적 구문 분석에 유리하고, 값이 낮을수록 UI 데이터에 우선순위를 둡니다. 권장 기본값은 50입니다.
  • 템플릿 저장자주 사용하는 작업의 경우 '작업 저장'을 클릭합니다. 다음에 템플릿을 선택하기만 하면 입력을 반복할 필요 없이 AI가 직접 실행합니다.

기능 3: 지능형 오류 처리

  • 자발적 복구작업 중 팝업 창(예: 광고)이 나타나면 DroidRun은 해당 팝업 창을 닫고 계속 진행하려고 시도합니다. 예를 들어, "브라우저 열기"를 실행할 때 권한 프롬프트가 표시되면 AI가 자동으로 "허용"을 클릭합니다.
  • 수동 개입작업이 멈춘 경우 "일시 중지"를 클릭합니다. 휴대폰을 올바른 화면으로 수동으로 조정한 후 "다시 시작"을 클릭합니다. AI가 현재 상태에서 계속 진행됩니다.
  • 오류 로그실패할 때마다 '로그'를 확인하여 "검색 상자를 찾을 수 없음"과 같은 이유를 알아보세요. 메시지에 따라 작업 설명 또는 인터페이스 설정을 최적화합니다.

기능 4: 사용자 지정 언어 모델 연결

  • 모델 추가"설정 > 언어 모델"에서 API 키를 입력합니다. DroidRun은 여러 모델을 지원하므로 복잡한 설정이 필요 없이 키를 붙여넣기만 하면 됩니다.
  • 연결 테스트: "테스트"를 클릭하여 모델이 제대로 응답하는지 확인합니다. 테스트가 통과되면 모델이 작업 선택 목록에 나타납니다.
  • 모델 전환: 작업마다 다른 모델을 사용할 수 있습니다. 예를 들어 Grok 간단한 작업은 처리하고 복잡한 로직은 GPT-4를 사용하세요.

예정된 기능

공식 웹사이트에 따르면 다음과 같은 기능이 개발 중이며 곧 출시될 예정입니다:

  • 요소 추적사용자가 클릭한 요소를 기록하면 AI가 정확하게 동작을 반복할 수 있습니다. 대량 좋아요 또는 댓글과 같은 일괄 작업에 이상적입니다.
  • 바우처 관리계정 비밀번호 추가 또는 이중 인증(2FA)을 지원합니다. 예를 들어, AI가 소셜 앱에 자동으로 로그인하고 동적 인증 코드를 입력할 수 있습니다.
  • 멀티 시스템 관리엔터프라이즈급 자동화 또는 테스트 시나리오에 적합한 여러 Android 디바이스의 동시 제어를 지원합니다.

주의

  • 시스템 호환성DroidRun은 안드로이드 6.0 이상을 지원합니다. 일부 새로운 기능(예: 요소 추적)을 사용하려면 Android 10 이상이 필요할 수 있습니다.
  • 네트워크 요구 사항언어 모델에 연결하려면 안정적인 Wi-Fi 또는 4G 네트워크가 필요합니다. 오프라인 모드는 저장된 로컬 작업만 지원합니다.
  • 권한 유지 관리일부 휴대폰(예: Huawei)은 절전 모드에서 접근성 기능이 비활성화되어 있을 수 있습니다. '설정 > 접근성'이 활성화되어 있는지 정기적으로 확인하세요.
  • 전력 소비장시간 작업을 실행하면 전력 소비가 증가합니다. 배터리 잔량이 30%보다 높거나 충전기를 연결할 것을 권장합니다.

개발자 지원

DroidRun은 곧 오픈 소스 프레임워크(MIT 라이선스)로 제공될 예정이며, 개발자는 GitHub를 통해 전체 코드를 사용할 수 있습니다. 공식 문서(Docs) 및 클라우드 서비스(Cloud)도 파이프라인에 있으며, 현재 API 인터페이스와 배포 가이드가 제공되고 있습니다. 개발자는 특정 앱을 통합하거나 전용 어시스턴트를 개발하는 등 AI 동작을 사용자 지정할 수 있습니다.

이 단계를 따르면 사용자는 일상적인 작업과 복잡한 개발 모두에 유연한 자동화 지원을 제공하는 DroidRun을 빠르게 사용할 수 있습니다.

 

애플리케이션 시나리오

  1. 일상 업무 간소화
    사용자는 DroidRun으로 반복적인 작업을 자동화할 수 있습니다. 예를 들어, 매일 자동으로 뉴스 앱을 열어 헤드라인을 검색하거나 소셜 그룹에서 정기적으로 메시지를 보내면 AI가 인터페이스를 정확하게 식별하여 수동 탭을 줄여줍니다.
  2. 소셜 미디어 관리
    셀프 미디어 실무자는 일괄적으로 작업할 수 있습니다. 예를 들어, 샤오홍슈에 자동으로 로그인하여 이미지 10장을 업로드하고 메모를 게시하면 AI가 이를 순차적으로 수행하여 콘텐츠가 오류 없이 게시되도록 합니다.
  3. 애플리케이션 테스트 개발
    개발자는 DroidRun을 사용하여 애플리케이션 인터페이스를 테스트할 수 있습니다. 예를 들어, 전자상거래 앱에서 사용자의 검색 및 주문을 시뮬레이션하고 각 단계의 응답 시간을 기록하며 잠재적인 버그를 발견할 수 있습니다.
  4. 데이터 추출 및 분석
    연구원은 애플리케이션 데이터를 자동으로 캡처할 수 있습니다. 예를 들어 지도 앱을 열고 근처 레스토랑을 검색한 후 결과 스크린샷을 찍으면, AI가 후속 분석을 위해 데이터를 저장합니다.
  5. 복잡한 작업 스케줄링
    비즈니스 사용자는 다단계 프로세스를 설계할 수 있습니다. 예를 들어, AI가 메일 앱을 열고 첨부파일을 다운로드하여 클라우드 드라이브에 업로드한 다음 확인 메시지를 보내면 애플리케이션 간 협업에 적합합니다.

 

QA

  1. DroidRun은 어떤 안드로이드 기기를 지원하나요?
    Android 6.0 이상과 호환되며 대부분의 휴대폰과 태블릿에서 사용할 수 있습니다. 최상의 환경을 위해 안드로이드 10 이상을 권장합니다.
  2. 루트 권한이 필요한가요?
    아니요. DroidRun은 도우미 서비스를 사용하므로 루팅할 필요 없이 설치하고 사용하기만 하면 됩니다.
  3. 오프라인에서 작업을 실행할 수 있나요?
    로컬에 저장된 작업은 오프라인에서 실행할 수 있지만 언어 모델에 연결하려면 인터넷 연결이 필요합니다. 자주 사용하는 작업은 미리 저장해 두는 것이 좋습니다.
  4. 올바른 언어 모델을 선택하는 방법은 무엇인가요?
    간단한 작업에는 빠른 모델(예: Gemini Flash)을, 복잡한 작업에는 고급 모델(예: GPT-4)을 선택하세요. 공식 웹사이트에서 추천 목록을 업데이트할 예정입니다.
  5. 미션 실패는 어떻게 처리되나요?
    로그를 확인하여 실패 이유를 확인합니다(예: "버튼을 찾을 수 없음"). 설명 또는 감도를 조정하고 다시 시도하거나 수동으로 개입하여 계속합니다.
  6. 오픈 소스 버전은 언제 출시되나요?
    공식 웹사이트에 따르면 GitHub 리포지토리가 곧 공개될 예정이며, 정확한 날짜는 추후 발표될 예정입니다. Discord 커뮤니티에 가입하여 최신 업데이트를 받아보세요.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...