Plan Szkolenia

Wprowadzenie do Apache Airflow

  • Czym jest orkiestracja przepływów pracy
  • Kluczowe funkcje i korzyści Apache Airflow
  • Ulepszenia w Airflow 2.x i przegląd ekosystemu

Architektura i podstawowe koncepcje

  • Procesy Scheduler, web server i worker
  • DAGi, zadania i operatory
  • Executory i backends (Local, Celery, Kubernetes)

Instalacja i konfiguracja

  • Instalacja Airflow w środowiskach lokalnych i chmurowych
  • Konfiguracja Airflow z różnymi executorami
  • Konfiguracja baz danych metadanych i połączeń

Nawigacja w interfejsie użytkownika i CLI Airflow

  • Eksploracja interfejsu webowego Airflow
  • Monitorowanie przebiegów DAGów, zadań i logów
  • Korzystanie z CLI Airflow do administracji

Tworzenie i zarządzanie DAGami

  • Tworzenie DAGów przy użyciu TaskFlow API
  • Korzystanie z operatorów, sensorów i hooków
  • Zarządzanie zależnościami i interwałami planowania

Integracja Airflow z danymi i usługami w chmurze

  • Łączenie z bazami danych, API i kolejkami wiadomości
  • Uruchamianie potoków ETL z Airflow
  • Integracje z chmurą: operatory AWS, GCP, Azure

Monitorowanie i obserwowalność

  • Logi zadań i monitorowanie w czasie rzeczywistym
  • Metryki z Prometheus i Grafana
  • Powiadomienia i alerty przez e-mail lub Slack

Zabezpieczanie Apache Airflow

  • Kontrola dostępu oparta na rolach (RBAC)
  • Uwierzytelnianie za pomocą LDAP, OAuth i SSO
  • Zarządzanie sekretami za pomocą Vault i chmurowych sklepów sekretów

Skalowanie Apache Airflow

  • Równoległość, współbieżność i kolejki zadań
  • Korzystanie z CeleryExecutor i KubernetesExecutor
  • Wdrażanie Airflow na Kubernetes z Helm

Najlepsze praktyki dla produkcji

  • Kontrola wersji i CI/CD dla DAGów
  • Testowanie i debugowanie DAGów
  • Utrzymanie niezawodności i wydajności na dużą skalę

Rozwiązywanie problemów i optymalizacja

  • Debugowanie nieudanych DAGów i zadań
  • Optymalizacja wydajności DAGów
  • Typowe pułapki i jak ich unikać

Podsumowanie i kolejne kroki

Wymagania

  • Doświadczenie w programowaniu w Pythonie
  • Znajomość koncepcji inżynierii danych lub DevOps
  • Zrozumienie ETL lub orkiestracji przepływów pracy

Grupa docelowa

  • Data scientists
  • Inżynierowie danych
  • Inżynierowie DevOps i infrastruktury
  • Programiści
 21 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (7)

Propozycje terminów

Powiązane Kategorie