Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Wprowadzenie do Predictive AIOps
- Przegląd analityki predykcyjnej w IT operations
- Źródła danych do prognozowania (logi, metryki, zdarzenia)
- Kluczowe koncepcje w prognozowaniu czasowych szeregów i wzorcach anomalii
Projektowanie modeli predykcji incydentów
- Oznaczanie historycznych incydentów i zachowań systemu
- Wybór i trenowanie modeli (np. LSTM, Random Forest, AutoML)
- Ocenianie wydajności modelu i obsługa fałszywych pozytywnych
Zbieranie danych i inżynieria cech
- Wprowadzanie i wyrównywanie danych logów i metryk do modelu wejściowego
- Ekstrakcja cech z danych strukturowanych i niestrukturowanych
- Obsługa szumu i braków danych w operacyjnych pipeline'ach
Automatyzacja analizy przyczyny pierwszego stopnia (RCA)
- Korygowanie usług i infrastruktury na podstawie grafu
- Używanie ML do wywnioskowania prawdopodobnych przyczyn pierwszych stopnia z łańcuchów zdarzeń
- Wizualizacja RCA za pomocą pulpitu sterowania z wiedzą o topologii
Naprawianie i Workflow Automation
- Integracja z platformami automatyzacji (np. Ansible, Rundeck)
- Wyzwalanie cofnięć, ponownych uruchomień lub przekierowania ruchu
- Audytowanie i dokumentowanie automatycznych interwencji
Skalowanie inteligentnych pipeline'ów AIOps
- MLOps do obserwowalności: ponowne trenowanie i wersjonowanie modeli
- Przeprowadzanie prognoz w czasie rzeczywistym na rozproszonych węzłach
- Najlepsze praktyki wdrażania AIOps w środowiskach produkcyjnych
Przypadki użycia i praktyczne zastosowania
- Analiza rzeczywistych danych incydentów z użyciem predykcyjnych modeli AIOps
- Wdrażanie pipeline'ów RCA z użyciem syntetycznych i rzeczywistych danych
- Przegląd przypadków użycia w branży: awarie chmur, niestabilność mikrousług, degradacja sieci
Podsumowanie i następne kroki
Wymagania
- Doświadczenie z systemami monitorowania takimi jak Prometheus lub ELK
- Znajomość Python i podstaw maszynowego uczenia
- Zapoznanie z procesami zarządzania incydentami
Grupa docelowa
- Starszy inżynierowie ds. niezawodności serwisów (SRE)
- Architekci automatyzacji IT
- DevOps i liderzy platform obserwacyjnych
14 godzin