Page Agent от Alibaba: JavaScript-агент управляет веб-интерфейсами с помощью естественного языка прямо в браузере
Page Agent от Alibaba — это клиентская JavaScript-библиотека, работающая прямо внутри веб-страницы. В отличие от Playwright, Puppeteer или Selenium, которые управляют браузером извне через скриншоты или Chrome DevTools Protocol, Page Agent читает живой DOM как текст и действует как реальный пользователь. Ему не нужен headless-браузер, скриншоты или мультимодальная LLM — достаточно сильной текстовой модели.
Ключевая техника — DOM dehydration: страница с тысячами узлов сжимается в FlatDomTree — чистую текстовую карту интерактивных элементов (кнопки, ссылки, поля ввода) с индексами, ролями и метками. Модель получает компактное представление, а не сырой HTML или пиксели. Page Agent model-agnostic: подходит любая LLM через OpenAI-совместимый эндпоинт.
Проект распространяется под лицензией MIT, написан на TypeScript, основан на browser-use (оттуда взята обработка DOM и промпты). Лучший сценарий — копилоты и автозаполнение форм в приложениях, которыми вы владеете. Ограничения: prompt-level безопасность, работа только в пределах одной страницы, требуется серверная валидация для рискованных действий.