OWL: автоматизированный инструмент для совместной работы нескольких интеллектов над реалистичными задачами

Последние ресурсы по искусственному интеллектуОбновлено 12 месяцев назад Круг обмена ИИ

56.8K 00

Общее введение

OWL (Optimized Workforce Learning) - это фреймворк с открытым исходным кодом, разработанный командой CAMEL-AI и направленный на оптимизацию совместной работы нескольких интеллектуальных тел для автоматизации реальных задач. Основанная на архитектуре CAMEL-AI, OWL повышает естественность, эффективность и надежность обработки задач благодаря динамическому взаимодействию интеллектуальных тел. В бенчмарк-тесте GAIA OWL получил средний балл 58,18, заняв первое место среди фреймворков с открытым исходным кодом. Проект был официально открыт 7 марта 2025 года, а код размещен на GitHub (https://github.com/camel-ai/owl), где представлена подробная документация и примеры, призванные способствовать интеграции исследований в области ИИ и реальных приложений как для академических исследований, так и для сценариев автоматизации задач.

Самое печальное, что китайскоязычное сообщество, как источник информации, никогда не представляет CAMEL-AI и AGENTGPT Вместо этого их интересует что-то вроде Манус OWL - это очень интересно. Коммерциализация некоторых продуктов будет способствовать технологическому прогрессу, а некоторых - нет.

Список функций

Поиск информации в режиме реального времени: Поддерживает доступ к актуальной информации через онлайн-ресурсы, такие как Wikipedia, Google Search и т.д.
мультимодальная обработка: Возможность обработки видео-, фото- и аудиоданных по сети или локально.
Автоматизация браузера: Основан на фреймворке Playwright и поддерживает имитацию действий браузера, таких как прокрутка, нажатие, ввод текста и загрузка.
разрешение документа: Извлечение содержимого файлов Word, Excel, PDF и PowerPoint и преобразование в текст или формат Markdown.
выполнение кода: Поддержка написания и выполнения кода Python для выполнения задач через интерпретатор.
сотрудничество нескольких разведок: Несколько интеллектов ИИ динамически взаимодействуют между собой для совместной работы над сложными задачами.

Использование помощи

Процесс установки

OWL - это проект с открытым исходным кодом, пользователям необходимо загрузить исходный код с GitHub и настроить среду выполнения. Ниже приведены подробные шаги по установке:

склад клонов
Введите следующую команду в терминале, чтобы получить исходный код OWL:

git clone https://github.com/camel-ai/owl.git
cd owl

Настройка среды

Рекомендуем Конда::

conda create -n owl python=3.11
conda activate owl

Альтернативное использование venv::
```
python -m venv owl_env
```
- Активация системы Windows:
```
owl_env\Scripts\activate
```
- Активация системы Unix или MacOS:
```
source owl_env/bin/activate
```

Установка зависимостей
После активации среды выполните следующую команду для установки зависимостей:

python -m pip install -r requirements.txt
playwright install

Примечания:playwright installИспользуется для установки компонентов, необходимых для автоматизации браузера.

Настройка переменных среды
Для использования внешних сервисов (например, моделей OpenAI) в OWL необходимо настроить API-ключи. Это делается следующим образом:

Скопируйте файл шаблона:
```
cp .env_template .env
```
компилятор.envфайла, заполните ключ API, например:
```
OPENAI_API_KEY=your_openai_key
```
Указания по получению ключа: см.owl/.env_templateURL-адрес регистрации службы, указанный в
Дополнительная поддержка моделей: доступна в документации по моделям CAMEL (https://docs.camel-ai.org/key_modules/models.html).
принимать к сведению: Официально рекомендуется использовать модели OpenAI для достижения наилучшей производительности, другие модели могут плохо справляться со сложными задачами.

Проверка установки
Выполните следующую команду, чтобы проверить среду:

python owl/run.py

Если консоль выдает нормальное сообщение, значит, установка прошла успешно.

Основные функции

1. Примеры операционных баз

OWL предоставляет минимальный пример сценарияrun.pyЗапустите его напрямую, чтобы испытать его:

Введите его в терминал:

python owl/run.py

Выход: В консоли отобразятся результаты выполнения задачи по умолчанию.

2. Индивидуальные мандаты

Пользователи могут изменятьrun.pyСценарии для выполнения пользовательских задач:

Редактирование сценариев: Открытьrun.pyИзмените описание задачи, например:

question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")

Выполнение сценариев::
```
python owl/run.py
```
Просмотр результатов: Консоль выведет информацию о цене акций.
Другие примерные задания::
- "Анализ настроений последних твитов об изменении климата".
- "Помогите мне отладить этот код на Python:[содержание кода]".
- "Резюмируйте основные положения этой научной работы:[URL документа]".

3. Автоматизация браузера

OWL поддерживает взаимодействие с браузером через Playwright, например, просмотр веб-страниц:

Образец сценария: Создайте файл (например.web_task.py):

from owl.agents import BrowserAgent
agent = BrowserAgent()
agent.navigate("https://example.com")
content = agent.get_content()
print(content)

Выполнение сценариев::
```
python web_task.py
```
в конце концов: Выводит текстовое содержимое веб-страницы.
Поддерживаемые операции: прокрутка, щелчки, ввод текста, загрузка и т.д. Обратитесь к официальной документации по конкретным API.

4. синтаксический анализ документов и мультимодальная обработка

разбор документа: Поместите локальный файл (например.sample.pdf(вычислять) вводить (в)owlзапустите следующий код:
```
from owl.utils import parse_document
text = parse_document("sample.pdf")
print(text)
```
Обработка видео: Поддержка анализа локального или сетевого видео, например:
```
from owl.multimodal import process_video
result = process_video("https://example.com/video.mp4")
print(result)
```

Функциональное управление

Поиск информации в режиме реального времени

процедура: Укажите источник информации в описании задания, например:

question = "从Wikipedia获取人工智能的最新定义。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(answer)

в конце концов: Вернуться к последнему содержанию Википедии.

Репликация бенчмарка GAIA

эксплуатационное испытание: Воспроизведите результаты GAIA, используя предоставленный скрипт:
```
python run_gaia_roleplaying.py
```
Просмотр результатов: Выведите оценки для каждой задачи, чтобы убедиться в эффективности OWL в бенчмаркинг-тесте (средний балл 58,18).

Меры предосторожности при использовании

В системе должны быть установлены Git и Python 3.11+.
При выполнении масштабных задач рекомендуется использовать высокопроизводительное оборудование и обеспечивать стабильность сети.
Если окно Chrome пустое, но есть вывод из консоли, это нормально, и окно будет активировано только в том случае, если задача требует взаимодействия с браузером.