Playwright MCP: Browser Automation MCP Service от Microsoft
Общее введение
Драматург MCP это инструмент с открытым исходным кодом, разработанный компанией Microsoft и размещенный на GitHub. Он позволяет моделям искусственного интеллекта напрямую управлять браузерами, открывая веб-страницы, нажимая на элементы, вводя текст и т. д. через протокол Model Context Protocol (MCP). Инструмент основан на фреймворке Playwright и поддерживает такие браузеры, как Chromium, Firefox и WebKit. Его основные особенности заключаются в том, что он быстрый, легкий и генерирует структурированные данные, не полагаясь на скриншоты или визуальные модели. Playwright MCP особенно хорошо подходит для приложений ИИ, требующих взаимодействия с веб-страницами, таких как автоматизированное тестирование или извлечение данных. Официальная документация обновляется до марта 2025 года, а сам проект активен и популярен среди разработчиков.
Одноименный проект:MCP Playwright: служба MCP, обеспечивающая автоматизацию работы браузера

Список функций
- Поддержка управления браузером: возможность открывать веб-страницы, перемещаться по страницам, нажимать на элементы и т. д.
- Создание структурированных данных: вывод данных через снимки доступности, скриншоты не требуются.
- Предусмотрено два режима: стандартный режим моментального снимка и режим видения.
- Снимок экрана и сохранение: вы можете сделать снимок экрана страницы или сохранить ее в формате PDF.
- Ввод и управление: поддержка ввода текста, нажатия клавиш, перетаскивания и других функций.
- Совместимость с режимом headless: вы можете запускать браузер в фоновом режиме без отображения интерфейса.
Использование помощи
Playwright MCP прост в установке и использовании. Ниже приводится подробное описание установки и работы с этим инструментом, включая особенности двух режимов.
Процесс установки
- Подготовка среды
Сначала установите Node.js (рекомендуется последняя версия LTS, например, v22). Проверьте версию с помощью:
node -v
Если у вас его нет, посетите официальный сайт Node.js, чтобы загрузить и установить его.
- Установка Playwright MCP
Выполните следующую команду в терминале:
npm install -g @playwright/mcp
Или просто используйте последнюю версию:
npx @playwright/mcp@latest
- Запустите сервер
Введите команду для запуска:
npx @playwright/mcp@latest
По умолчанию используется режим с заголовками (отображение окна браузера). Если вы хотите использовать режим без заголовков, добавьте параметр:
npx @playwright/mcp@latest --headless
- Настройка клиента AI
Если ваш инструмент искусственного интеллекта поддерживает MCP (например, некоторые клиенты больших моделей), вам необходимо отредактировать файл конфигурации. Пример:
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": ["@playwright/mcp@latest", "--headless"]
}
}
}
После сохранения ИИ сможет вызывать браузер через MCP.
- Конфигурация для немониторных сред
В среде Linux без монитора можно использовать режим клиент-сервер. Начните с запуска на машине с монитором:
npx playwright run-server
В результате будет получен адрес WebSocket, например ws://localhost:port/
. а затем добавляется в конфигурацию MCP:
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": ["@playwright/mcp@latest"],
"env": {
"PLAYWRIGHT_WS_ENDPOINT": "ws://localhost:port/"
}
}
}
}
Как использовать основные функции
В Playwright MCP есть два режима: режим моментального снимка и визуальный режим. Ниже они описаны отдельно.
Режим моментального снимка (по умолчанию)
Этот режим работает с доступными моментальными снимками, которые являются быстрыми и стабильными. Ниже перечислены часто используемые инструменты:
- Откройте страницу
- Инструкции:
browser_navigate "https://example.com"
- Действие: Браузер открывает указанный URL-адрес.
- Выход: Возвращает статус загрузки страницы.
- щелчок по элементу
- Инструкции:
browser_click "登录按钮" "ref123"
- Действие: Щелкните снимок, отмеченный
ref123
элемента (требуется описание элемента и цитирование). - Примечание: ссылки даны на основе данных моментальных снимков.
- вход
- Инструкции:
browser_type "用户名输入框" "ref456" "myuser" true
- Операция: В
ref456
в поле ввода, а затем нажмите Enter (true
(указывает на представление).
- Сохранить как PDF
- Инструкции:
browser_save_as_pdf
- Действие: сохранение текущей страницы в виде PDF-файла.
- время ожидания
- Инструкции:
browser_wait 5
- Операция: Подождите 5 секунд (максимум 10 секунд).
визуальный образ
грунтовка с --vision
Параметры:
npx @playwright/mcp@latest --vision
Эта модель работает со скриншотами и координатами и подходит для визуальных моделей. Часто используемые инструменты:
- Страница перехвата
- Инструкции:
browser_screenshot
- Действие: Создайте скриншот текущей страницы.
- Инструкции:
- Нажмите на координаты
- Инструкции:
browser_click 100 200
- Действие: Нажмите на координаты (100, 200).
- Инструкции:
- операция перетаскивания
- Инструкции:
browser_drag 50 50 150 150
- Действие: Перетащить из (50, 50) в (150, 150).
- Инструкции:
- вход
- Инструкции:
browser_type "hello" true
- Действие: введите "hello" и нажмите Enter.
- Инструкции:
Пример потока операций
Предположим, вы хотите войти на сайт:
- Запустите сервер:
npx @playwright/mcp@latest --headless
- Откройте страницу входа в систему:
- Инструкции:
browser_navigate "https://example.com/login"
- Введите имя пользователя и пароль (режим моментального снимка):
- Инструкции:
browser_type "用户名" "ref1" "myuser" false
- Инструкции:
browser_type "密码" "ref2" "mypassword" true
- Нажмите Вход (визуальный режим):
- Переключение режимов: перезапуск сервера плюс
--vision
- Инструкции:
browser_click 300 400
- Результаты проверки:
- Инструкции:
browser_snapshot
(режим моментального снимка) илиbrowser_screenshot
(визуальный режим).
предостережение
- Режим моментального снимка более надежен, чем визуальный режим, но требует ссылок на элементы.
- Визуальная модель подходит для моделей ИИ с координатами.
- Режим без заголовков подходит для пакетных задач, а режим с заголовками облегчает отладку.
сценарий применения
- Веб-навигация и заполнение форм
ИИ автоматически открывает веб-страницы, заполняет формы и отправляет их, что делает его подходящим для массовой регистрации или тестирования входа в систему. - извлечение данных
Получайте структурированные данные с динамических веб-страниц, например, цены или отзывы. - автоматизированное тестирование
Проверьте правильность функционирования страницы, например, нажатия кнопок или переходы по страницам. - Интеллектуальное взаимодействие агентов
Позвольте искусственному интеллекту управлять браузером для выполнения сложных задач, таких как покупки в Интернете.
QA
- В чем разница между режимом моментальных снимков и визуальным режимом?
Режим Snapshot работает со структурированными данными и является быстрым и стабильным; визуальный режим использует скриншоты и координаты и подходит для визуального ИИ. - Какие браузеры поддерживаются?
Поддерживаются Chromium, Firefox и WebKit. - Нужно написать код?
Не нужно. Просто отправьте простую команду, и ИИ будет работать.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...