Мониторинг PostgreSQL с ИИ: как СберТех автоматизировал реакцию на сбои с помощью GigaChat и Prometheus
Инженеры СберТеха из команды «R4C.Support.Всадники апокалипсиса» автоматизировали типичный сценарий реагирования на инциденты в PostgreSQL. Раньше при оповещении о высокой нагрузке администратор вручную собирал метрики с десятков дашбордов Prometheus/Grafana, анализировал журналы и формулировал задачу. Теперь этот цикл выполняет ИИ.
Система объединяет Prometheus (сбор метрик), Pipeliner (CI/CD-оркестратор, аналог Jenkins), TaskTracker (управление задачами, аналог Jira) и GigaChat (языковая модель Сбера) через AI Hub API. GigaChat анализирует разрозненные данные, генерирует контекст проблемы и автоматически запускает создание заявки в TaskTracker.
Решение рассчитано на парк из более чем 700 экземпляров СУБД. Оно не просто собирает данные, а интерпретирует их и инициирует процесс исправления, сокращая время реакции и снижая нагрузку на администраторов. Подробности реализации — в статье на Habr.