Proxy Lite : 3B Parametric Visual Model Driven Web Automation Tool (outil d'automatisation Web piloté par un modèle visuel)

Introduction générale

Proxy Lite est alimenté par Convergence Outil d'automatisation web léger et open source développé par AI comme une mini-version de Proxy avec une conception à poids ouvert. Il est basé sur un modèle de langage visuel à 3B paramètres (VLM) et peut naviguer de manière autonome sur des pages web et effectuer des tâches telles que la recherche d'informations ou l'utilisation d'un navigateur. Le projet est hébergé sur GitHub et les utilisateurs peuvent télécharger et personnaliser le code gratuitement. Proxy Lite se connecte par défaut au point de terminaison de la démo Hugging Face Spaces, mais il est officiellement recommandé de se connecter au point de terminaison de la démo Hugging Face Spaces via le point de terminaison de la démo Hugging Face Spaces, qui est le point de terminaison de la démo Hugging Face Spaces. vLLM Déployer localement pour des performances optimales. Il est peu gourmand en ressources et convient aux développeurs qui souhaitent l'utiliser sur des appareils personnels, en se concentrant sur l'automatisation des tâches plutôt que sur l'interaction avec l'utilisateur.

Proxy Lite:3B参数视觉模型驱动的网页自动化工具

 

Proxy Lite:3B参数视觉模型驱动的网页自动化工具

 

Liste des fonctions

  • automatisation du webNavigation automatique : navigue automatiquement sur les pages Web, clique, tape, fait défiler, etc.
  • mise en œuvre du mandatLes services d'assistance à la clientèle : Effectuer des tâches spécifiques sur la base d'instructions, telles qu'une recherche sur le marché et l'attribution d'une cote d'évaluation.
  • Support local d'exécutionLe système peut être déployé et exécuté sur des appareils personnels par l'intermédiaire de vLLM.
  • open source et extensibleLe code complet est fourni et les utilisateurs peuvent ajuster les configurations du modèle ou de l'environnement.
  • faible empreinte sur les ressourcesConception légère pour un fonctionnement sur du matériel grand public.
  • Interaction avec le navigateur: navigateur Chromium piloté par Playwright, prise en charge du mode sans tête.

 

Utiliser l'aide

Proxy Lite est un outil open source axé sur l'automatisation web pour les développeurs et les passionnés de technologie. Vous trouverez ci-dessous un guide d'installation et d'utilisation détaillé afin de garantir que les utilisateurs puissent le déployer et l'utiliser sans problème.

Processus d'installation

Proxy Lite nécessite un environnement local pour le supporter, voici les étapes d'installation officielles recommandées :

1. préparation à l'environnement

  • système d'exploitationWindows, Linux ou macOS.
  • exigences en matière de matérielLes appareils grand public normaux conviennent, avec une mémoire vive de 8 Go ou plus recommandée.
  • dépendance logicielle: :
    • Python 3.11.
    • Git (pour le clonage des dépôts).
    • Playwright (bibliothèque de contrôle du navigateur).
    • vLLM (Model Reasoning Framework).
    • Transformateurs (à installer à partir de la source pour prendre en charge Qwen-2.5-VL).

2. clonage d'entrepôts

Exécutez la commande suivante dans le terminal pour télécharger le code :

git clone https://github.com/convergence-ai/proxy-lite.git
cd proxy-lite

3) Mise en place de l'environnement

  • Installation rapide: :
    make proxy
    
  • installation manuelle: :
    pip install uv
    uv venv --python 3.11 --python-preference managed
    uv sync
    uv pip install -e .
    playwright install
    
    • Note : Si vous déployez le modèle localement, vous devez installer vLLM et Transformers :
      uv sync --all-extras
      

      Transformers doit être installé à partir des sources pour prendre en charge Qwen-2.5-VL, qui a été publié sur le site Web de la pyproject.toml Préciser dans le .

4. déploiement local (recommandé)

Il est officiellement recommandé d'utiliser vLLM pour déployer des points d'extrémité locaux et d'éviter de s'appuyer sur des points d'extrémité de démonstration :

vllm serve convergence-ai/proxy-lite-3b --trust-remote-code --enable-auto-tool-choice --tool-call-parser hermes --port 8008
  • Description des paramètres: :
    • --trust-remote-code: Autorise le chargement du code à distance.
    • --enable-auto-tool-choice: Activation de la sélection automatique des outils.
    • --tool-call-parser hermes: Appelé à l'aide de l'outil d'analyse Hermes.
  • Une fois le service lancé, l'adresse du point de terminaison est la suivante http://localhost:8008/v1.

Utilisation

Proxy Lite offre trois façons de l'utiliser : ligne de commande, interface web et intégration Python.

Mode 1 : Fonctionnement en ligne de commande

  1. Exécution des tâches: :
    proxy "Find some markets near Kings Cross and tell me their ratings."
    
    • Le point de terminaison de la démo Hugging Face est utilisé par défaut et peut être plus lent.
  2. Utilisation de points d'accès locaux: :
    proxy --api-base http://localhost:8008/v1 "Find some markets near Kings Cross and tell me their ratings."
    
    • ou de définir des variables d'environnement :
      export PROXY_LITE_API_BASE=http://localhost:8008/v1
      

Méthode 2 : fonctionnement de l'interface web

  1. Interface de lancement: :
    make app
    
  2. entretiens: :
    Tapez dans votre navigateur http://localhost:8501, entrer dans la tâche par l'intermédiaire de l'interface.

Approche 3 : Intégration de Python

  1. exemple de code: :
    import asyncio
    from proxy_lite import Runner, RunnerConfig
    config = RunnerConfig.from_dict({
    "environment": {
    "name": "webbrowser",
    "homepage": "https://www.google.com",
    "headless": True
    },
    "solver": {
    "name": "simple",
    "agent": {
    "name": "proxy_lite",
    "client": {
    "name": "convergence",
    "model_id": "convergence-ai/proxy-lite-3b",
    "api_base": "http://localhost:8008/v1"
    }
    }
    },
    "max_steps": 50,
    "action_timeout": 1800,
    "environment_timeout": 1800,
    "task_timeout": 18000,
    "logger_level": "DEBUG"
    })
    proxy = Runner(config=config)
    result = asyncio.run(proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm."))
    print(result)
    
  2. instructions: à travers Runner Les classes exécutent des tâches dans un environnement de navigation et prennent en charge des configurations personnalisées.

Principales fonctions

Fonction 1 : automatisation du Web

  • déplacer: :
    1. Démarrer le terminal local (voir l'étape 4 de l'installation).
    2. Saisissez la tâche :
      proxy --api-base http://localhost:8008/v1 "Search for markets near Kings Cross."
      
    3. Proxy Lite utilise Playwright pour contrôler le navigateur et effectuer la navigation et les actions.
  • prendre noteLes tâches doivent être claires, en évitant les opérations complexes qui nécessitent une interaction avec l'utilisateur.

Fonction 2 : Exécution des tâches

  • déplacer: :
    1. Saisissez la tâche via la ligne de commande ou Python :
      result = asyncio.run(proxy.run("Find some markets near Kings Cross and tell me their ratings."))
      
    2. Le modèle renvoie des résultats, basés sur le cycle Observer-Penser-Agir.
  • contrainteLes tâches nécessitant des connexions ou des interactions complexes ne sont pas prises en charge si toutes les informations nécessaires ne sont pas fournies.

Fonctionnalité 3 : Soutien à l'exécution locale

  • déplacer: :
    1. Déployer le service vLLM.
    2. Configurez le point final et exécutez la tâche.
  • tranchantLes points d'arrivée des démonstrations : évitez les instabilités et les retards dans les points d'arrivée des démonstrations.

mise en garde

  • Limites de la démonstrationLes points de terminaison par défaut (Hugging Face Spaces) sont uniquement destinés à la démonstration et ne conviennent pas à la production ou à une utilisation fréquente ; un déploiement local est recommandé.
  • mesures anti-escalade: Utilisation playwright_stealth Réduit le risque de détection, mais peut toujours être bloqué par la CAPTCHA. Il est recommandé de l'associer à un proxy web.
  • limitation fonctionnelleProxy Lite est axé sur l'exécution de tâches autonomes et ne convient pas aux tâches qui nécessitent une interaction en temps réel avec l'utilisateur ou la connexion à un système d'identification.
  • Support de débogage: Réglages logger_level="DEBUG" Afficher les journaux détaillés.

Grâce à ces étapes, vous pouvez rapidement déployer et automatiser des tâches web avec Proxy Lite.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...