Волна ИИПодписаться
← Назад
Инструменты

Page Agent от Alibaba: JavaScript-агент управляет веб-интерфейсами с помощью естественного языка прямо в браузере

02.07.2026 · marktechpost.com ↗

Page Agent от Alibaba — это клиентская JavaScript-библиотека, работающая прямо внутри веб-страницы. В отличие от Playwright, Puppeteer или Selenium, которые управляют браузером извне через скриншоты или Chrome DevTools Protocol, Page Agent читает живой DOM как текст и действует как реальный пользователь. Ему не нужен headless-браузер, скриншоты или мультимодальная LLM — достаточно сильной текстовой модели.

Ключевая техника — DOM dehydration: страница с тысячами узлов сжимается в FlatDomTree — чистую текстовую карту интерактивных элементов (кнопки, ссылки, поля ввода) с индексами, ролями и метками. Модель получает компактное представление, а не сырой HTML или пиксели. Page Agent model-agnostic: подходит любая LLM через OpenAI-совместимый эндпоинт.

Проект распространяется под лицензией MIT, написан на TypeScript, основан на browser-use (оттуда взята обработка DOM и промпты). Лучший сценарий — копилоты и автозаполнение форм в приложениях, которыми вы владеете. Ограничения: prompt-level безопасность, работа только в пределах одной страницы, требуется серверная валидация для рискованных действий.

Источник: marktechpost.com
← Все новости AI Wave