OWL: автоматизированный инструмент для совместной работы нескольких интеллектов над реалистичными задачами

Общее введение

OWL (Optimized Workforce Learning) - это фреймворк с открытым исходным кодом, разработанный командой CAMEL-AI и направленный на оптимизацию совместной работы нескольких интеллектуальных тел для автоматизации реальных задач. Основанная на архитектуре CAMEL-AI, OWL повышает естественность, эффективность и надежность обработки задач благодаря динамическому взаимодействию интеллектуальных тел. В бенчмарк-тесте GAIA OWL получил средний балл 58,18, заняв первое место среди фреймворков с открытым исходным кодом. Проект был официально открыт 7 марта 2025 года, а код размещен на GitHub (https://github.com/camel-ai/owl), где представлена подробная документация и примеры, призванные способствовать интеграции исследований в области ИИ и реальных приложений как для академических исследований, так и для сценариев автоматизации задач.

Самое печальное, что китайскоязычное сообщество, как источник информации, никогда не представляет CAMEL-AI и AGENTGPT Вместо этого их интересует что-то вроде Манус OWL - это очень интересно. Коммерциализация некоторых продуктов будет способствовать технологическому прогрессу, а некоторых - нет.

OWL:多智能体协作完成现实任务的自动化工具

 

Список функций

  • Поиск информации в режиме реального времени: Поддерживает доступ к актуальной информации через онлайн-ресурсы, такие как Wikipedia, Google Search и т.д.
  • мультимодальная обработка: Возможность обработки видео-, фото- и аудиоданных по сети или локально.
  • Автоматизация браузера: Основан на фреймворке Playwright и поддерживает имитацию действий браузера, таких как прокрутка, нажатие, ввод текста и загрузка.
  • разрешение документа: Извлечение содержимого файлов Word, Excel, PDF и PowerPoint и преобразование в текст или формат Markdown.
  • выполнение кода: Поддержка написания и выполнения кода Python для выполнения задач через интерпретатор.
  • сотрудничество нескольких разведок: Несколько интеллектов ИИ динамически взаимодействуют между собой для совместной работы над сложными задачами.

 

Использование помощи

Процесс установки

OWL - это проект с открытым исходным кодом, пользователям необходимо загрузить исходный код с GitHub и настроить среду выполнения. Ниже приведены подробные шаги по установке:

  1. склад клонов
    Введите следующую команду в терминале, чтобы получить исходный код OWL:
git clone https://github.com/camel-ai/owl.git
cd owl
  1. Настройка среды
  • Рекомендуем Конда::
    conda create -n owl python=3.11
    conda activate owl
    
  • Альтернативное использование venv::
    python -m venv owl_env
    
    • Активация системы Windows:
      owl_env\Scripts\activate
      
    • Активация системы Unix или MacOS:
      source owl_env/bin/activate
      
  1. Установка зависимостей
    После активации среды выполните следующую команду для установки зависимостей:
python -m pip install -r requirements.txt
playwright install

Примечания:playwright installИспользуется для установки компонентов, необходимых для автоматизации браузера.

  1. Настройка переменных среды
    Для использования внешних сервисов (например, моделей OpenAI) в OWL необходимо настроить API-ключи. Это делается следующим образом:
  • Скопируйте файл шаблона:
    cp .env_template .env
    
  • компилятор.envфайла, заполните ключ API, например:
    OPENAI_API_KEY=your_openai_key
    
  • Указания по получению ключа: см.owl/.env_templateURL-адрес регистрации службы, указанный в
  • Дополнительная поддержка моделей: доступна в документации по моделям CAMEL (https://docs.camel-ai.org/key_modules/models.html).
    принимать к сведению: Официально рекомендуется использовать модели OpenAI для достижения наилучшей производительности, другие модели могут плохо справляться со сложными задачами.
  1. Проверка установки
    Выполните следующую команду, чтобы проверить среду:
python owl/run.py

Если консоль выдает нормальное сообщение, значит, установка прошла успешно.

Основные функции

1. Примеры операционных баз

OWL предоставляет минимальный пример сценарияrun.pyЗапустите его напрямую, чтобы испытать его:

  • Введите его в терминал:
python owl/run.py
  • Выход: В консоли отобразятся результаты выполнения задачи по умолчанию.

2. Индивидуальные мандаты

Пользователи могут изменятьrun.pyСценарии для выполнения пользовательских задач:

  • Редактирование сценариев: Открытьrun.pyИзмените описание задачи, например:
question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")
  • Выполнение сценариев::
    python owl/run.py
    
  • Просмотр результатов: Консоль выведет информацию о цене акций.
  • Другие примерные задания::
    • "Анализ настроений последних твитов об изменении климата".
    • "Помогите мне отладить этот код на Python:[содержание кода]".
    • "Резюмируйте основные положения этой научной работы:[URL документа]".

3. Автоматизация браузера

OWL поддерживает взаимодействие с браузером через Playwright, например, просмотр веб-страниц:

  • Образец сценария: Создайте файл (например.web_task.py):
    from owl.agents import BrowserAgent
    agent = BrowserAgent()
    agent.navigate("https://example.com")
    content = agent.get_content()
    print(content)
    
  • Выполнение сценариев::
    python web_task.py
    
  • в конце концов: Выводит текстовое содержимое веб-страницы.
  • Поддерживаемые операции: прокрутка, щелчки, ввод текста, загрузка и т.д. Обратитесь к официальной документации по конкретным API.

4. синтаксический анализ документов и мультимодальная обработка

  • разбор документа: Поместите локальный файл (например.sample.pdf(вычислять) вводить (в)owlзапустите следующий код:
    from owl.utils import parse_document
    text = parse_document("sample.pdf")
    print(text)
    
  • Обработка видео: Поддержка анализа локального или сетевого видео, например:
    from owl.multimodal import process_video
    result = process_video("https://example.com/video.mp4")
    print(result)
    

Функциональное управление

Поиск информации в режиме реального времени

  • процедура: Укажите источник информации в описании задания, например:
    question = "从Wikipedia获取人工智能的最新定义。"
    society = construct_society(question)
    answer, chat_history, token_count = run_society(society)
    print(answer)
    
  • в конце концов: Вернуться к последнему содержанию Википедии.

Репликация бенчмарка GAIA

  • эксплуатационное испытание: Воспроизведите результаты GAIA, используя предоставленный скрипт:
    python run_gaia_roleplaying.py
    
  • Просмотр результатов: Выведите оценки для каждой задачи, чтобы убедиться в эффективности OWL в бенчмаркинг-тесте (средний балл 58,18).

Меры предосторожности при использовании

  • В системе должны быть установлены Git и Python 3.11+.
  • При выполнении масштабных задач рекомендуется использовать высокопроизводительное оборудование и обеспечивать стабильность сети.
  • Если окно Chrome пустое, но есть вывод из консоли, это нормально, и окно будет активировано только в том случае, если задача требует взаимодействия с браузером.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...