일반 소개
LangGraph CUA는 LangChain 팀이 개발한 오픈소스 프로젝트입니다. 개발자가 파이썬을 사용해 컴퓨터를 직접 조작할 수 있는 AI 지능을 구축할 수 있도록 하는 LangGraph 프레임워크를 기반으로 합니다. 이 도구의 핵심은 컴퓨터에서 클릭, 텍스트 입력, 웹 검색과 같은 인간의 행동을 시뮬레이션하는 컴퓨터 사용 에이전트(CUA)입니다. 메모리 기능, 인간과 컴퓨터의 협업 및 실시간 출력을 지원하므로 반복적인 작업을 자동화하거나 지능형 비서를 개발하는 데 적합합니다. 이 프로젝트의 코드는 개발자가 자유롭게 다운로드, 수정 및 사용할 수 있도록 공개되어 있어 특히 AI 자동화에 관심이 있는 기술 애호가에게 적합합니다.
기능 목록
- 소프트웨어 열기, 텍스트 입력, 버튼 클릭 등 텍스트와 음성을 통한 컴퓨터 작업의 AI 제어를 지원합니다.
- 이전 작업과 대화 내용을 기억하는 단기 및 장기 기억 기능을 제공합니다.
- 내장된 인간과 컴퓨터의 협업 모드를 통해 사용자는 언제든지 개입하여 AI의 행동을 조정할 수 있습니다.
- 실시간 스트리밍 출력을 지원하며, 작업 과정을 단계별로 표시할 수 있습니다.
- 가상 머신에서 AI 에이전트를 실행하고 웹 페이지에 액세스할 수 있도록 스크래피바라와 통합합니다.
- 개발자가 유연하고 확장된 기능을 위해 도구와 구성을 사용자 지정할 수 있습니다.
도움말 사용
LangGraph CUA는 설치와 사용이 복잡하지는 않지만 기본적인 Python 환경과 API 구성이 필요합니다. 다음은 시작하기 위한 자세한 단계입니다.
설치 프로세스
- 환경 준비하기
컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인하세요. 다음 명령으로 확인할 수 있습니다:
python --version
그렇지 않은 경우 https://www.python.org 에서 다운로드하여 설치하세요.
- 복제 프로젝트
터미널에 다음 명령을 입력하여 로컬로 코드를 다운로드합니다:
git clone https://github.com/langchain-ai/langgraph-cua-py.git
다운로드가 완료되면 프로젝트 폴더로 이동합니다:
cd langgraph-cua-py
- 종속성 설치
이 프로젝트에는 이 명령으로 설치되는 일부 Python 라이브러리가 필요합니다:
pip install -r requirements.txt
권한에 문제가 발생하면 다음과 같이 추가할 수 있습니다. --user
::
pip install -r requirements.txt --user
- API 키 구성
LangGraph CUA에는 OpenAI 및 Scrapybara용 API 키가 필요합니다. 먼저 계정을 등록하여 키를 받은 다음 터미널에서 환경 변수를 설정합니다:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>
상호 호환성 <你的OpenAI密钥>
노래로 응답 <你的Scrapybara密钥>
Windows 사용자는 다음을 사용할 수 있습니다. set
대신 export
.
- 설치 확인
간단한 테스트를 실행하여 환경이 정상인지 확인합니다. 프로젝트 디렉토리로 이동하여 실행합니다:
python -m langgraph_cua
오류가 보고되지 않으면 설치에 성공한 것입니다.
주요 기능 사용 방법
LangGraph CUA의 핵심은 컴퓨터를 작동하는 AI 에이전트를 만드는 것입니다. 작동 방식은 다음과 같습니다.
AI 에이전트 만들기
예를 들어 Python 파일로 에이전트를 가져와서 구성합니다:
from langgraph_cua import create_cua
cua_graph = create_cua()
이렇게 하면 기본 AI 에이전트가 생성됩니다. 특정 VM 인스턴스를 사용하려는 경우 매개 변수를 추가할 수 있습니다:
cua_graph = create_cua(auth_state_id="你的认证ID")
컴퓨터 작동
상담원은 명령어로 컴퓨터를 제어할 수 있습니다. 예를 들어 브라우저를 열라고 명령할 수 있습니다:
cua_graph.invoke({"command": "open browser"})
또는 텍스트를 입력합니다:
cua_graph.invoke({"command": "type", "text": "你好,世界"})
이러한 명령은 컴퓨터에서 직접 실행됩니다.
메모리 기능 사용
상담원은 이전 작업을 기억합니다. 예를 들어 먼저 메모장을 열도록 합니다:
cua_graph.invoke({"command": "open notepad"})
그런 다음 콘텐츠를 입력합니다:
cua_graph.invoke({"command": "type", "text": "这是测试"})
다음에 메모장을 호출하면 메모장이 열려 있음을 인식하고 바로 작업을 계속합니다.
인간과 기계의 협업
수동으로 조정하려면 HMI 모드를 활성화하면 됩니다. 런타임에 매개변수를 추가합니다:
cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)
실행 중 이 시점에서 프로그램은 일시 중지되고 사용자가 좌표를 확인하거나 수정할 때까지 기다립니다.
실시간 출력
작업의 모든 단계를 보고 싶다면 스트리밍 출력을 사용하면 됩니다:
for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)
검색 프로세스가 단계별로 표시됩니다.
주요 기능 작동
스크랩바라 통합
스크랩바라를 사용하면 에이전트를 가상 머신에서 실행할 수 있어 웹 작업을 처리하는 데 적합합니다. API 키가 올바른지 확인한 다음 실행하도록 구성하세요:
cua_graph.invoke({"command": "browse", "url": "https://example.com"})
에이전트가 웹 페이지를 열고 가상 머신에서 작동합니다.
사용자 지정 도구
나만의 도구를 추가할 수 있습니다. 예를 들어 계산기 도구를 정의할 수 있습니다:
def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])
그런 다음 전화하세요:
cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})
결과는 8을 반환합니다.
이 단계와 코드를 통해 간단한 작업과 복잡한 사용자 지정 모두에 대해 LangGraph CUA를 빠르게 사용할 수 있습니다.
애플리케이션 시나리오
- 자동화된 사무 업무
AI 에이전트를 사용하여 Excel 열기, 데이터 입력 및 저장과 같은 파일을 일괄 처리하여 반복적인 작업을 없앨 수 있습니다. - 웹 데이터 캡처
상담원이 웹사이트를 방문하여 뉴스 헤드라인이나 가격 데이터를 자동으로 수집하는 등의 정보를 추출할 수 있습니다. - 지능형 어시스턴트 개발
'이메일 열어' 또는 '문서 검색'과 같은 음성 명령을 듣고 직접 실행하는 어시스턴트를 만들 수 있습니다. - 교육 및 훈련
학생들이 자동화의 원리를 이해할 수 있도록 교육 중에 AI가 컴퓨터를 조작하는 사람을 시뮬레이션하는 방법을 시연합니다.
QA
- 프로그래밍 기초가 필요하신가요?
명령줄을 사용하고 간단한 코드를 작성할 수 있는 등 기본적인 Python 지식이 필요합니다. 방법을 모른다면 기본 구문을 먼저 배울 수 있습니다. - API 키가 없는 경우 어떻게 하나요?
공식 OpenAI(https://openai.com) 및 스크랩바라 웹사이트로 이동하여 계정을 등록하고 키를 요청하세요. 무료 크레딧이 제한되어 있을 수 있으므로 가격을 살펴보는 것이 좋습니다. - 가상 머신을 사용할 수 없나요?
예, 하지만 스크래피바라를 사용하는 가상 머신은 운영 환경을 격리하고 로컬 컴퓨터에 영향을 미치지 않으므로 더 안전합니다. - 중국어 명령을 지원하나요?
지원. AI 모델이 중국어를 이해하는 한 중국어 명령을 입력하는 것도 마찬가지로 효과적입니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...