Подписывайтесь на наш телеграм-канал про ИИ и машинное обучение в ИТ-мониторинге

«Мы превращаем шум в управляемость»: интервью с Никитой Гладких, руководителем продукта Artimate

Никита Гладких —  руководитель продукта Artimate, аналитической AIOps-платформы для интеллектуального мониторинга ИТ-инфраструктуры. В интервью он рассказывает, как искусственный интеллект и машинное обучение помогают DevOps- и SRE-командам справляться с информационным шумом и предотвращать инциденты до их влияния на бизнес.​

Проблема перегрузки: когда алертов слишком много

— Никита, главная боль DevOps и SRE-команд сегодня — это перегрузка алертами. Расскажите, насколько критична эта проблема?

— Абсолютно критична. В современных распределенных системах количество алертов растет экспоненциально. Команды получают сотни, а иногда тысячи оповещений в день от разных систем мониторинга и систем логирования. Большая часть из них — это дубликаты, ложные срабатывания или симптомы одной и той же проблемы.

SRE-инженер тратит драгоценное время не на решение реальной проблемы, а на поиск сигнала в этом шуме. Мы называем это информационным шумом — когда критически важное событие теряется среди сотен незначительных алертов. Это приводит к выгоранию команд, росту MTTR и, в конечном счете, к нарушению SLA.

— Как Artimate решает эту проблему?

— Artimate использует технологии искусственного интеллекта и машинного обучения для автоматической корреляции событий. Платформа собирает данные со всех систем мониторинга, анализирует их в контексте всей инфраструктуры и автоматически объединяет связанные оповещения в единые инциденты.

Вместо 100 алертов команда видит один инцидент с полным контекстом: какие компоненты затронуты, какова предполагаемая первопричина, какие бизнес-сервисы находятся в зоне риска. Мы снижаем информационный шум на порядок — от соотношения событий к инцидентам 100:1 и более.

ML-корреляция: находим связи, которые не видны человеку

— Вы упомянули корреляцию событий. Чем подход Artimate отличается от классических правил корреляции?

— Классический подход основан на жестких алгоритмических правилах и ресурсно-сервисной модели, которую нужно вручную настраивать и поддерживать. Это работает для статичной инфраструктуры, но в динамичных средах с микросервисами, контейнерами и частыми релизами такие правила быстро устаревают.

Artimate использует ML-корреляцию на базе корреляционных графов — автоматически строит карты причинно-следственных связей между событиями. Платформа находит неявные, скрытые связи, которые человек может не заметить. Например, задержка в базе данных может быть связана с недавним изменением конфигурации сетевого оборудования — и ML-модели это обнаружат автоматически.

Кроме того, мы автоматически строим ресурсные карты на основе поступающих данных мониторинга, без необходимости ручного создания топологии.

Детекция аномалий: не только метрики, но и последовательности событий

— Детекция аномалий — еще один важный элемент AIOps. Что нового в вашем подходе?

— Стандартные AIOps-платформы обычно фокусируются на детекции аномалий временных рядов — метрик CPU, памяти, задержек. Мы пошли дальше и добавили расширенный набор детекторов.​

Во-первых, детектор аномалий последовательности событий. Он позволяет обнаруживать недостающие или задержанные события в цепочках. Например, если после деплоя приложения не пришло ожидаемое событие о старте сервиса — это аномалия, которую нужно расследовать.​

Во-вторых, детектор аномалий плотности событий. Он фиксирует избыточно высокую или низкую плотность событий по сравнению с нормальным поведением. Это критично для задач информационной безопасности, например, обнаружение аномальных паттернов доступа к системам.​

Эти инструменты дают SRE-командам возможность обнаруживать проблемы на ранних стадиях, еще до того, как они превратятся в полноценные инциденты.

Логи как часть контекста инцидента

— Работа с лог-файлами — традиционная боль для DevOps. Как Artimate помогает в этом?

— Логи содержат огромное количество важной информации, но они слабоструктурированы и объемны. Традиционные подходы требуют, чтобы инженер вручную искал нужные строки в логах при расследовании инцидента.​

Artimate предоставляет возможность автоматически отслеживать и анализировать логи в контексте всей инфраструктуры — от низкоуровневых компонентов до бизнес-приложений. Используя ML-кластеризацию и классификацию, платформа автоматически размечает, структурирует и группирует данные из логов.

Когда возникает инцидент, в его рабочем кабинете отображается полная история: связанные оповещения, изменения, аномалии и релевантные записи из логов. Это позволяет локализовать первопричину вплоть до конкретного сервиса, запроса или строки кода.

Прогнозирование: видеть инциденты до их возникновения

— Никита, в предстоящем релизе 1.7.0 Artimate получит новые возможности прогнозирования. Расскажите, что планируется?

— Artimate не просто фиксирует текущее состояние, но и строит вероятностный прогноз развития инцидента — roadmap. Artimate будет строить вероятностный прогноз развития инцидента, анализируя исторические данные, паттерны корреляций и текущую динамику событий.

Например, если детектирована аномалия в работе компонента, который является критичным для бизнес-сервиса, платформа оценит вероятность каскадного сбоя и автоматически приоритизирует этот инцидент. Это позволяет SRE-командам эскалировать и устранять проблемы до того, как они повлияют на пользователей.

Дополнительно появятся инструменты Capacity Management для прогнозирования загрузки ресурсов и выявления узких мест до их превращения в простои.

Автоматизация — святой Грааль для SRE. Что Artimate планирует в этом направлении?

— В ближайших релизах мы внедрим полноценную автоматизацию: runbook, скрипты, low-code конструкторы для эскалации и решения инцидентов. Artimate будет автоматически создавать тикеты в ITSM-системах (ServiceNow, Jira), отправлять уведомления в Telegram или MS Teams, запускать remediation-скрипты.​

Ключевой фичей станет интеллектуальный помощник ARTI (чат-бот). Он предложит готовые решения из базы знаний, подскажет действия на основе анализа похожих инцидентов и поможет новичкам быстро входить в контекст.​

Автоматизация запустится еще до эскалации проблем: платформа обогатит инциденты контекстом, построит карты связей, определит приоритеты. SRE смогут фокусироваться на сложных задачах, минимизируя рутину.

Результаты: от метрик к бизнес-ценности

— Какие конкретные результаты видят ваши клиенты?

— Главные метрики, которые мы улучшаем — это MTTD (Mean Time To Detect), MTTA (Mean Time To Acknowledge) и, самое важное, MTTR (Mean Time To Resolution). Клиенты сообщают о снижении MTTR на 40-60% за счет быстрой локализации первопричин и автоматизации рутинных действий.​​

Мы также помогаем повысить доступность критичных сервисов и обеспечить соблюдение SLA 99.999%. Для бизнеса это означает снижение потерь от простоев, повышение лояльности пользователей и возможность сосредоточиться на развитии, а не на тушении пожаров.

Отдельно стоит отметить снижение выгорания команд. Когда инженер не перегружен рутиной и информационным шумом, он может работать более эффективно и сохранять мотивацию.

Будущее AIOps: куда движется индустрия?

— Никита, как вы видите будущее AIOps и ИТ-мониторинга в целом?

— Мы движемся от реактивного к проактивному, а в перспективе — к предиктивному управлению инфраструктурой. Цель — не просто быстро реагировать на инциденты, а предотвращать их возникновение.​

Искусственный интеллект будет играть все более важную роль — не только в анализе данных, но и в автоматическом принятии решений. Мы уже видим запрос на автоматическое восстановление, когда платформа не просто рекомендует действия, а выполняет их самостоятельно.

Для российского рынка это особенно актуально в контексте импортозамещения. Artimate — полностью российская разработка, и мы видим растущий интерес от крупных компаний и государственных структур, которым нужны надежные и независимые решения для управления критичной инфраструктурой.


Artimate — российская AIOps-платформа для интеллектуального мониторинга ИТ-инфраструктуры с использованием искусственного интеллекта и машинного обучения. Платформа помогает DevOps- и SRE-командам снижать информационный шум, ускорять решение инцидентов и обеспечивать стабильность критичных бизнес-сервисов.

Будьте в курсе

В контексте финансовых организаций AIOps становится инструментом обеспечения операционной устойчивости: минимизации простоев, повышения отказоустойчивости ключевых сервисов и выполнения SLA даже в условиях пиковых нагрузок и постоянных изменений
Подробнее
Управление инцидентами перестало быть просто процедурой восстановления сервисов. Минута простоя информационного сервиса стоит компании в среднем от пары десятков миллионов рублей, не считая репутационных потерь и штрафов за нарушение SLA
Подробнее
Современные ИТ-системы генерируют объемы телеметрии, превышающие возможности человеческого анализа. Команды эксплуатации (Ops) и разработки (Dev) получают тысячи алертов ежедневно из десятков разрозненных инструментов мониторинга. Проблема в том, что большая часть этих данных представляет собой изолированные сигналы без контекста. Результат предсказуем: перегрузка информацией, замедление реакции на инциденты и рост операционных издержек. Согласно исследованиям, инженеры тратят до […]
Подробнее