Инструменты

ML Red Teaming для LLM: обзор open-source инструментов для атак и защиты

15.06.2026 · habr.com ↗

ML Red Teaming — это форма наступательного тестирования, при которой имитируются действия злоумышленников против систем машинного обучения, включая LLM и агентов. В отличие от классического пентеста, цель — найти уязвимости, присущие именно ИИ-компонентам, и повысить их устойчивость.

В статье разбираются основные классы атак: провоцирование галлюцинаций, многошаговые атаки и утечка данных. Также даются советы по оценке результатов сканирования и выстраиванию защиты в корпоративной среде.

Материал ориентирован на специалистов по ИБ, ML-инженеров и разработчиков LLM-приложений. Подчёркивается, что использование open-source инструментов позволяет проводить тестирование без затрат на проприетарное ПО.

Источник: habr.com

Темы: Инструменты