Playwright MCP: Servicio MCP de Automatización de Navegadores de Microsoft

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

Introducción general

Dramaturgo MCP es una herramienta de código abierto desarrollada por Microsoft y alojada en GitHub. Permite a los modelos de IA controlar directamente los navegadores abriendo páginas web, haciendo clic en elementos, introduciendo texto, etc. a través del protocolo Model Context Protocol (MCP). La herramienta se basa en el marco Playwright y es compatible con navegadores como Chromium, Firefox y WebKit. Sus características principales son que es rápida, ligera y genera datos estructurados sin depender de capturas de pantalla o modelos visuales.Playwright MCP es especialmente adecuada para aplicaciones de IA que requieren interacción con páginas web, como pruebas automatizadas o extracción de datos. La documentación oficial se actualiza hasta marzo de 2025, y el proyecto es activo y popular entre los desarrolladores.

Proyecto del mismo nombre:MCP Playwright: un servicio MCP que proporciona operaciones de automatización del navegador

Lista de funciones

Soporte de control del navegador: posibilidad de abrir páginas web, navegar por ellas, hacer clic en elementos, etc.
Generación de datos estructurados: datos de salida a través de instantáneas de accesibilidad, sin necesidad de capturas de pantalla.
Se ofrecen dos modos: el modo de instantánea por defecto y el modo de visión.
Capturar pantalla y guardar: puedes hacer una captura de pantalla de una página o guardarla como archivo PDF.
Entrada y funcionamiento: admite la entrada de texto, pulsaciones de teclas, arrastrar y soltar, y otras funciones.
Compatible con el modo headless: puede ejecutar el navegador en segundo plano sin mostrar la interfaz.

Utilizar la ayuda

Playwright MCP es fácil de instalar y utilizar. A continuación se describe detalladamente cómo instalar y utilizar esta herramienta, incluidas las características específicas de los dos modos.

Proceso de instalación

Preparar el entorno
Instale primero Node.js (se recomienda la última versión LTS, por ejemplo v22). Compruebe la versión con:

node -v

Si no lo tienes, visita el sitio web oficial de Node.js para descargarlo e instalarlo.

Instalación de Playwright MCP
Ejecute el siguiente comando en el terminal:

npm install -g @playwright/mcp

O simplemente utiliza la última versión:

npx @playwright/mcp@latest

Iniciar el servidor
Introduce el comando para empezar:

npx @playwright/mcp@latest

Por defecto es el modo header (mostrando la ventana del navegador). Si desea utilizar el modo sin encabezado, añada el parámetro:

npx @playwright/mcp@latest --headless

Configuración del cliente AI
Si su herramienta de IA admite MCP (por ejemplo, algunos clientes de modelos grandes), deberá editar el archivo de configuración. Ejemplo:

{
"mcpServers": {
"playwright": {
"command": "npx",
"args": ["@playwright/mcp@latest", "--headless"]
}
}
}

Una vez guardado, la IA podrá llamar al navegador a través del MCP.

Configuración para entornos sin monitor
En un entorno Linux sin monitor, puede utilizar el modo cliente-servidor. Empieza por ejecutarlo en una máquina con monitor:

npx playwright run-server

La salida mostrará una dirección WebSocket, como por ejemplo ws://localhost:port/. y luego se añade en la configuración de MCP:

{
"mcpServers": {
"playwright": {
"command": "npx",
"args": ["@playwright/mcp@latest"],
"env": {
"PLAYWRIGHT_WS_ENDPOINT": "ws://localhost:port/"
}
}
}
}

Cómo utilizar las principales funciones

Playwright MCP tiene dos modos: modo instantáneo y modo visual. A continuación se describen por separado.

Modo instantáneo (por defecto)

Este modo funciona con instantáneas accesibles, que son rápidas y estables. A continuación se enumeran las herramientas más utilizadas:

Abrir la página

Instrucciones:browser_navigate "https://example.com"
Acción: El navegador abre la URL especificada.
Salida: Devuelve el estado de carga de la página.

pulsar sobre un elemento

Instrucciones:browser_click "登录按钮" "ref123"
Acción: Haga clic en la instantánea marcada ref123 del elemento (descripción del elemento y cita obligatorias).
Nota: Las referencias proceden de datos instantáneos.

entrada

Instrucciones:browser_type "用户名输入框" "ref456" "myuser" true
Funcionamiento: En el ref456 en el cuadro de entrada y, a continuación, pulse Intro (true (indica presentación).

Guardar como PDF

Instrucciones:browser_save_as_pdf
Acción: Guarda la página actual como archivo PDF.

tiempo de espera

Instrucciones:browser_wait 5
Operación: Espere 5 segundos (máximo 10 segundos).

patrón visual

cebado con --vision Parámetros:

npx @playwright/mcp@latest --vision

Este modelo funciona con capturas de pantalla y coordenadas y es adecuado para modelos visuales. Herramientas de uso común:

Página de interceptación
- Instrucciones:browser_screenshot
- Acción: Generar una captura de pantalla de la página actual.
Haga clic en las coordenadas
- Instrucciones:browser_click 100 200
- Acción: Haga clic en las coordenadas (100, 200).
operación de arrastrar y soltar
- Instrucciones:browser_drag 50 50 150 150
- Acción: Arrastre de (50, 50) a (150, 150).
entrada
- Instrucciones:browser_type "hello" true
- Acción: escribe "hola" y pulsa Intro.

Ejemplo de flujo de operaciones

Supongamos que desea iniciar sesión en el sitio web:

Inicie el servidor:

npx @playwright/mcp@latest --headless

Abra la página de inicio de sesión:

Instrucciones:browser_navigate "https://example.com/login"

Introduzca el nombre de usuario y la contraseña (modo instantáneo):

Instrucciones:browser_type "用户名" "ref1" "myuser" false
Instrucciones:browser_type "密码" "ref2" "mypassword" true

Haga clic en Iniciar sesión (modo visual):

Cambiar de modo: reiniciar el servidor más --vision
Instrucciones:browser_click 300 400

Resultados de la inspección:

Instrucciones:browser_snapshot(modo instantáneo) o browser_screenshot(modo visual).

advertencia

El modo instantáneo es más fiable que el modo visual, pero requiere referencias a elementos.
El modelo visual es adecuado para modelos AI con coordenadas.
El modo sin cabecera es adecuado para tareas por lotes, y el modo con cabecera facilita la depuración.

escenario de aplicación

Navegación web y cumplimentación de formularios
La IA abre automáticamente las páginas web, rellena los formularios y los envía, por lo que resulta adecuada para el registro masivo o las pruebas de inicio de sesión.
extracción de datos
Obtenga datos estructurados de páginas web dinámicas, como precios o reseñas.
prueba automatizada
Compruebe que la página funciona correctamente, como los clics en los botones o los saltos de página.
Interacción con agentes inteligentes
Deje que la IA maneje el navegador para completar tareas complejas, como las compras en línea.

CONTROL DE CALIDAD

¿Cuál es la diferencia entre el modo instantáneo y el modo visual?
El modo instantáneo funciona con datos estructurados y es rápido y estable; el modo visual utiliza capturas de pantalla y coordenadas y es adecuado para la IA visual.
¿Qué navegadores son compatibles?
Chromium, Firefox y WebKit son compatibles.
¿Necesita escribir código?
No es necesario. Sólo tienes que enviar un simple comando y la IA funcionará.