일반 소개
OWL(최적화된 워크포스 학습)은 실제 작업 자동화를 위한 다중 지능형 신체 협업 최적화에 초점을 맞춰 CAMEL-AI 팀이 개발한 오픈 소스 프레임워크입니다. CAMEL-AI 아키텍처를 기반으로 하는 OWL은 동적 지능형 신체 상호 작용을 통해 작업 처리의 자연스러움, 효율성 및 견고성을 향상시킵니다. GAIA 벤치마크 테스트에서 OWL은 평균 58.18점을 획득하여 오픈 소스 프레임워크 부문에서 1위를 차지했습니다. 이 프로젝트는 2025년 3월 7일에 공식적으로 오픈소스화되었으며, 자세한 문서와 예제를 제공하는 깃허브(https://github.com/camel-ai/owl)에서 코드를 호스팅하여 학문적 탐구와 작업 자동화 시나리오를 위한 AI 연구와 실제 애플리케이션의 통합을 촉진하는 것을 목표로 하고 있습니다.
중국 커뮤니티에서 가장 슬픈 점은 정보 출처로서 CAMEL-AI를 소개하지 않는다는 것입니다. AGENTGPT 대신 다음과 같은 것에 관심이 있습니다. Manus 올빼미는 매우 흥미롭습니다. 어떤 제품의 상용화는 기술 발전을 촉진할 것이고, 어떤 제품은 그렇지 않을 것입니다.

기능 목록
- 실시간 정보 검색위키피디아, 구글 검색 등의 온라인 리소스를 통해 최신 정보에 액세스할 수 있도록 지원합니다.
- 멀티모달 처리네트워크 또는 로컬에서 비디오, 사진 및 오디오 데이터를 처리할 수 있습니다.
- 브라우저 자동화Playwright 프레임워크를 기반으로 스크롤, 클릭, 입력, 다운로드와 같은 브라우저 동작 시뮬레이션을 지원합니다.
- 문서 해상도워드, 엑셀, PDF, 파워포인트 파일 내용을 추출하고 텍스트 또는 마크다운 형식으로 변환합니다.
- 코드 실행인터프리터를 통해 작업을 수행하기 위한 Python 코드 작성 및 실행을 지원합니다.
- 다중 지능 협업여러 AI 지능이 동적으로 상호 작용하여 복잡한 작업에서 협업합니다.
도움말 사용
설치 프로세스
OWL은 오픈 소스 프로젝트이므로 사용자는 GitHub에서 소스 코드를 다운로드하고 런타임 환경을 구성해야 합니다. 자세한 설치 단계는 다음과 같습니다:
- 클론 창고
터미널에 다음 명령을 입력하여 OWL 소스 코드를 가져옵니다:
git clone https://github.com/camel-ai/owl.git
cd owl
- 환경 설정
- 추천 콘다::
conda create -n owl python=3.11 conda activate owl
- venv의 대체 사용::
python -m venv owl_env
- Windows 시스템 활성화:
owl_env\Scripts\activate
- Unix 또는 MacOS 시스템 활성화:
source owl_env/bin/activate
- Windows 시스템 활성화:
- 종속성 설치
환경을 활성화한 후 다음 명령을 실행하여 종속 요소를 설치합니다:
python -m pip install -r requirements.txt
playwright install
참고:playwright install
브라우저 자동화에 필요한 구성 요소를 설치하는 데 사용됩니다.
- 환경 변수 구성
OWL은 외부 서비스(예: OpenAI 모델)를 사용하려면 API 키를 구성해야 합니다. 단계는 다음과 같습니다:
- 템플릿 파일을 복사합니다:
cp .env_template .env
- 컴파일러
.env
파일에 API 키를 입력합니다:OPENAI_API_KEY=your_openai_key
- 키를 얻기 위한 가이드라인: 다음을 참조하세요.
owl/.env_template
서비스 등록 URL은 - 더 많은 모델 지원: CAMEL 모델 설명서(https://docs.camel-ai.org/key_modules/models.html)에서 확인할 수 있습니다.
다음 사항에 유의하십시오.최상의 성능을 위해 공식적으로 OpenAI 모델을 사용하는 것이 권장되며, 다른 모델은 복잡한 작업에서 성능이 저하될 수 있습니다.
- 설치 확인
다음 명령을 실행하여 환경을 테스트합니다:
python owl/run.py
콘솔에 정상 메시지가 출력되면 설치에 성공한 것입니다.
주요 기능
1. 운영 거점의 예
OWL은 미니멀한 예제 스크립트를 제공합니다.run.py
를 클릭하고 직접 실행하여 체험해 보세요:
- 터미널에 입력합니다:
python owl/run.py
- 출력: 콘솔에 기본 작업 실행 결과가 표시됩니다.
2. 권한 사용자 지정
사용자는 다음을 수정할 수 있습니다.run.py
사용자 지정 작업을 실행하는 스크립트:
- 스크립트 편집열기
run.py
를 클릭하고 작업 설명을 수정하는 등의 작업을 수행합니다:
question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")
- 스크립트 실행::
python owl/run.py
- 결과 보기콘솔에서 주가 정보를 출력합니다.
- 기타 샘플 작업::
- "기후 변화에 대한 최근 트윗의 감정 분석."
- "이 파이썬 코드를 디버그하도록 도와주세요:[코드 내용]"
- "이 연구 논문의 요점 요약:[논문 URL]."
3. 브라우저 자동화
OWL은 웹 페이지 크롤링과 같은 Playwright를 통한 브라우저 상호 작용을 지원합니다:
- 샘플 스크립트: 파일 만들기(예
web_task.py
):from owl.agents import BrowserAgent agent = BrowserAgent() agent.navigate("https://example.com") content = agent.get_content() print(content)
- 스크립트 실행::
python web_task.py
- 결국: 웹 페이지의 텍스트 콘텐츠를 출력합니다.
- 지원되는 작업스크롤, 클릭, 입력, 다운로드 등 특정 API에 대해서는 공식 문서를 참조하세요.
4. 문서 구문 분석 및 멀티모달 처리
- 문서 구문 분석: 로컬 파일(예
sample.pdf
(컴퓨팅) 넣다(에)owl
디렉터리에서 다음 코드를 실행합니다:from owl.utils import parse_document text = parse_document("sample.pdf") print(text)
- 비디오 처리예를 들어 로컬 또는 네트워크 비디오 분석 지원:
from owl.multimodal import process_video result = process_video("https://example.com/video.mp4") print(result)
주요 기능 작동
실시간 정보 검색
- 절차: 작업 설명에 정보 출처를 지정합니다(예: 작업 설명):
question = "从Wikipedia获取人工智能的最新定义。" society = construct_society(question) answer, chat_history, token_count = run_society(society) print(answer)
- 결국위키백과 최신 콘텐츠로 돌아가기.
GAIA 벤치마크 복제
- 운영 테스트제공된 스크립트를 사용하여 GAIA 결과를 재현합니다:
python run_gaia_roleplaying.py
- 결과 보기벤치마킹 테스트에서 OWL의 성능을 확인하기 위해 각 작업의 점수를 출력합니다(평균 점수 58.18점).
사용 시 주의사항
- 시스템에 Git 및 Python 3.11 이상이 설치되어 있어야 합니다.
- 대규모 작업을 실행할 때는 고성능 장비를 사용하고 네트워크 안정성을 확보하는 것이 좋습니다.
- Chrome 창이 비어 있지만 콘솔에 출력이 있는 경우 이는 정상이며 작업에 브라우저 상호 작용이 필요한 경우에만 창이 활성화됩니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...