Plan Szkolenia

Wprowadzenie do Apache Airflow

  • Co to jest orchestrowanie przepływów pracy
  • Kluczowe funkcje i korzyści z Apache Airflow
  • Ulepszenia Airflow 2.x i przegląd ekosystemu

Architektura i podstawowe koncepcje

  • Procesy schedulera, serwera webowego i pracownika
  • DAGi, zadania i operatory
  • Wykonawcy i backendy (Local, Celery, Kubernetes)

Instalacja i konfiguracja

  • Instalowanie Airflow w lokalnych i chmurowych środowiskach
  • Konfigurowanie Airflow z różnymi wykonawcami
  • Konfigurowanie baz danych metadanych i połączeń

Nawigowanie po interfejsie użytkownika Airflow i CLI

  • Badanie interfejsu webowego Airflow
  • Monitorowanie wykonania DAGów, zadań i logów
  • Używanie interfejsu CLI Airflow do administracji

Tworzenie i zarządzanie DAGami

  • Tworzenie DAGów za pomocą API TaskFlow
  • Używanie operatorów, czujników i haków
  • Zarządzanie zależnościami i interwałami planowania

Integracja Airflow z usługami danych i chmurowymi

  • Połączenie z bazami danych, API i kolejkami komunikatów
  • Wykonanie rurociągów ETL za pomocą Airflow
  • Integracje chmurowe: operatory AWS, GCP, Azure

Monitorowanie i obserwowalność

  • Logi zadań i monitorowanie w czasie rzeczywistym
  • Metryki z Prometheus i Grafana
  • Alerty i powiadomienia e-mail lub Slack

Bezpieczeństwo Apache Airflow

  • Kontrola dostępu na podstawie ról (RBAC)
  • Autentykacja z LDAP, OAuth i SSO
  • Zarządzanie tajnymi informacjami z Vault i sklepowymi tajnymi chmurowymi

Skalowanie Apache Airflow

  • Równoległość, współbieżność i kolejki zadań
  • Używanie CeleryExecutor i KubernetesExecutor
  • Wdrażanie Airflow na Kubernetes z Helm

Najlepsze praktyki dla produkcji

  • Kontrola wersji i CI/CD dla DAGów
  • Testowanie i debugowanie DAGów
  • Utrzymywanie niezawodności i wydajności w skalę

Rozwiązywanie problemów i optymalizacja

  • Debugowanie niepowodzących DAGów i zadań
  • Optymalizacja wydajności DAGów
  • Powszechne pułapki i jak ich unikać

Podsumowanie i następne kroki

Wymagania

    Doświadczenie w programowaniu w Pythonie Znajomość koncepcji inżynierii danych lub DevOps Znajomość ETL lub orchestracji workflowów

Grupa docelowa

    Naukowcy danych Inżynierowie danych Inżynierowie DevOps i infrastruktury Programiści
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (7)

Propozycje terminów

Powiązane Kategorie