OWL: uma ferramenta automatizada para colaboração com várias inteligências em tarefas realistas

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

21.5K 00

Introdução geral

O OWL (Optimized Workforce Learning) é uma estrutura de código-fonte aberto desenvolvida pela equipe CAMEL-AI, cujo foco é otimizar a colaboração de vários corpos inteligentes para a automação de tarefas do mundo real. Com base na arquitetura CAMEL-AI, o OWL aprimora a naturalidade, a eficiência e a robustez do processamento de tarefas por meio de interações dinâmicas de corpos inteligentes. No teste de benchmark GAIA, a OWL obteve uma pontuação média de 58,18, ficando em primeiro lugar entre as estruturas de código aberto. O projeto teve seu código aberto oficialmente em 7 de março de 2025, e o código está hospedado no GitHub (https://github.com/camel-ai/owl), que fornece documentação detalhada e exemplos, com o objetivo de promover a integração da pesquisa de IA e aplicativos do mundo real para cenários de exploração acadêmica e automação de tarefas.

O mais triste sobre a comunidade de língua chinesa é que, como fonte de informações, eles nunca apresentam o CAMEL-AI e o AGENTGPT Em vez disso, eles estão interessados em algo como Manus O OWL é muito interessante. A comercialização de alguns produtos promoverá o progresso tecnológico, outros não.

Lista de funções

Recuperação de informações em tempo realSuporte ao acesso a informações atualizadas por meio de recursos on-line, como Wikipedia, Google Search, etc.
processamento multimodalCapacidade de processar dados de vídeo, imagem e áudio pela rede ou localmente.
Automação do navegadorBaseado na estrutura Playwright, ele oferece suporte à simulação de ações do navegador, como rolagem, clique, digitação e download.
resolução de documentosExtraia o conteúdo de arquivos do Word, Excel, PDF e PowerPoint e converta-os para o formato de texto ou Markdown.
execução de códigoSuporte para escrever e executar código Python para realizar tarefas por meio do interpretador.
colaboração de inteligência múltiplaInteligência de IA múltipla: várias inteligências de IA interagem dinamicamente para colaborar em tarefas complexas.

Usando a Ajuda

Processo de instalação

O OWL é um projeto de código aberto, os usuários precisam fazer o download do código-fonte do GitHub e configurar o ambiente de tempo de execução. Veja a seguir as etapas detalhadas de instalação:

armazém de clones
Digite o seguinte comando no terminal para obter o código-fonte OWL:

git clone https://github.com/camel-ai/owl.git
cd owl

Configuração do ambiente

Conda recomendada::

conda create -n owl python=3.11
conda activate owl

Uso alternativo do venv::
```
python -m venv owl_env
```
- Ativação do sistema Windows:
```
owl_env\Scripts\activate
```
- Ativação do sistema Unix ou MacOS:
```
source owl_env/bin/activate
```

Instalação de dependências
Depois de ativar o ambiente, execute o seguinte comando para instalar as dependências:

python -m pip install -r requirements.txt
playwright install

Observações:playwright installUsado para instalar os componentes necessários para a automação do navegador.

Configuração de variáveis de ambiente
A OWL precisa configurar chaves de API para usar serviços externos (por exemplo, modelos OpenAI). As etapas são as seguintes:

Copie o arquivo de modelo:
```
cp .env_template .env
```
compilador.envpreencha a chave da API, por exemplo:
```
OPENAI_API_KEY=your_openai_key
```
Diretrizes para obtenção da chave: consulteowl/.env_templateO URL de registro do serviço listado no
Mais suporte ao modelo: disponível na documentação do modelo CAMEL (https://docs.camel-ai.org/key_modules/models.html).
tomar nota deRecomendamos oficialmente o uso dos modelos da OpenAI para obter o melhor desempenho; outros modelos podem ter um desempenho ruim em tarefas complexas.

Verificar a instalação
Execute o seguinte comando para testar o ambiente:

python owl/run.py

Se o console emitir uma mensagem normal, a instalação foi bem-sucedida.

Funções principais

1. exemplos de bases operacionais

A OWL fornece um script de exemplo minimalistarun.pyExecute-o diretamente para experimentá-lo:

Digite-o no terminal:

python owl/run.py

Saída: O console exibirá os resultados da execução da tarefa padrão.

2. personalização de mandatos

Os usuários podem modificar orun.pyScripts para executar tarefas personalizadas:

Edição de scripts: Abertorun.pymodifique a descrição da tarefa, por exemplo:

question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")

Executando scripts::
```
python owl/run.py
```
Visualização de resultadosPreço da ação: O console exibirá informações sobre o preço da ação.
Outros exemplos de tarefas::
- "Analisando o sentimento dos tweets recentes sobre mudança climática".
- "Ajude-me a depurar este código Python:[conteúdo do código]"
- "Resuma os principais pontos deste trabalho de pesquisa:[URL do trabalho]."

3. automação do navegador

A OWL oferece suporte à interação com o navegador por meio do Playwright, como o rastreamento de páginas da Web:

Exemplo de scriptCriar um arquivo (por exemploweb_task.py):

from owl.agents import BrowserAgent
agent = BrowserAgent()
agent.navigate("https://example.com")
content = agent.get_content()
print(content)

Executando scripts::
```
python web_task.py
```
no finalTexto de saída: Emite o conteúdo de texto de uma página da Web.
Operações com suporteAPIs: rolagem, clique, digitação, download etc. Consulte a documentação oficial para obter informações sobre APIs específicas.

4. análise de documentos e processamento multimodal

analisar um documentoColocar um arquivo local (por exemplosample.pdf(computação) colocar (em)owlexecute o seguinte código:
```
from owl.utils import parse_document
text = parse_document("sample.pdf")
print(text)
```

Processamento de vídeoSuporte para análise de vídeo local ou em rede, por exemplo:

from owl.multimodal import process_video
result = process_video("https://example.com/video.mp4")
print(result)

Operação da função em destaque

Recuperação de informações em tempo real

procedimentoEspecifique a fonte de informações na descrição da tarefa, por exemplo:

question = "从Wikipedia获取人工智能的最新定义。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(answer)

no final: Retorne ao conteúdo mais recente da Wikipédia.

Replicação de benchmark GAIA

teste operacionalReproduza os resultados do GAIA usando o script fornecido:
```
python run_gaia_roleplaying.py
```
Visualização de resultadosOutput: produz as pontuações de cada tarefa para verificar o desempenho do OWL no teste de benchmarking (pontuação média de 58,18).

Precauções de uso

O Git e o Python 3.11+ precisam estar instalados no sistema.
Ao executar tarefas de grande escala, é recomendável usar equipamentos de alto desempenho e garantir a estabilidade da rede.
Se a janela do Chrome estiver em branco, mas houver saída do console, isso é normal e a janela só será ativada se a tarefa exigir interação com o navegador.