Plan Szkolenia

Wprowadzenie do Predictive AIOps

  • Przegląd analityki predykcyjnej w IT operations
  • Źródła danych do prognozowania (logi, metryki, zdarzenia)
  • Kluczowe koncepcje w prognozowaniu czasowych szeregów i wzorcach anomalii

Projektowanie modeli predykcji incydentów

  • Oznaczanie historycznych incydentów i zachowań systemu
  • Wybór i trenowanie modeli (np. LSTM, Random Forest, AutoML)
  • Ocenianie wydajności modelu i obsługa fałszywych pozytywnych

Zbieranie danych i inżynieria cech

  • Wprowadzanie i wyrównywanie danych logów i metryk do modelu wejściowego
  • Ekstrakcja cech z danych strukturowanych i niestrukturowanych
  • Obsługa szumu i braków danych w operacyjnych pipeline'ach

Automatyzacja analizy przyczyny pierwszego stopnia (RCA)

  • Korygowanie usług i infrastruktury na podstawie grafu
  • Używanie ML do wywnioskowania prawdopodobnych przyczyn pierwszych stopnia z łańcuchów zdarzeń
  • Wizualizacja RCA za pomocą pulpitu sterowania z wiedzą o topologii

Naprawianie i Workflow Automation

  • Integracja z platformami automatyzacji (np. Ansible, Rundeck)
  • Wyzwalanie cofnięć, ponownych uruchomień lub przekierowania ruchu
  • Audytowanie i dokumentowanie automatycznych interwencji

Skalowanie inteligentnych pipeline'ów AIOps

  • MLOps do obserwowalności: ponowne trenowanie i wersjonowanie modeli
  • Przeprowadzanie prognoz w czasie rzeczywistym na rozproszonych węzłach
  • Najlepsze praktyki wdrażania AIOps w środowiskach produkcyjnych

Przypadki użycia i praktyczne zastosowania

  • Analiza rzeczywistych danych incydentów z użyciem predykcyjnych modeli AIOps
  • Wdrażanie pipeline'ów RCA z użyciem syntetycznych i rzeczywistych danych
  • Przegląd przypadków użycia w branży: awarie chmur, niestabilność mikrousług, degradacja sieci

Podsumowanie i następne kroki

Wymagania

  • Doświadczenie z systemami monitorowania takimi jak Prometheus lub ELK
  • Znajomość Python i podstaw maszynowego uczenia
  • Zapoznanie z procesami zarządzania incydentami

Grupa docelowa

  • Starszy inżynierowie ds. niezawodności serwisów (SRE)
  • Architekci automatyzacji IT
  • DevOps i liderzy platform obserwacyjnych
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie