Plan Szkolenia

Tydzień 1 — Wprowadzenie do inżynierii danych

  • Podstawy inżynierii danych i nowoczesne stosy danych
  • Wzory i źródła pobierania danych
  • Koncepcje i przypadki użycia procesów batch vs streaming
  • Praktyczny warsztat: pobieranie próbnych danych do chmurowego magazynu

Tydzień 2 — Złoty certyfikat Lakehouse Databricks

  • Podstawy platformy Databricks i nawigacja w przestrzeni roboczej
  • Koncepcje Delta Lake: ACID, podróże w czasie i ewolucja schematu
  • Bezpieczeństwo przestrzeni roboczej, kontrola dostępu i podstawy Unity Catalog
  • Praktyczny warsztat: tworzenie i zarządzanie tabelami Delta

Tydzień 3 — Zaawansowane SQL na Databricks

  • Zaawansowane konstrukcje SQL i funkcje okiennej na skalę
  • Optymalizacja zapytań, plany wyjaśniające i wzorce uwzględniające koszty
  • Wygląd fizyczny widoków, pamięć podręczna i dostrajanie wydajności
  • Praktyczny warsztat: optymalizacja zapytań analitycznych na dużych zbiorach danych

Tydzień 4 — Certyfikowany rozwój oprogramowania Databricks dla Apache Spark (Przygotowanie)

  • Architektura Spark, głębokie zagłębianie się w RDDs, DataFrames i zestawy danych
  • Kluczowe przekształcenia Spark i działania; rozważania dotyczące wydajności
  • Podstawy strumieniowego Spark i wzorce strumieniowania strukturalnego
  • Ćwiczenia egzaminacyjne i praktyczne problemy testowe

Tydzień 5 — Wprowadzenie do modelowania danych

  • Koncepcje: modelowanie wymiarowe, projektowanie gwiazdy/schematu i normalizacja
  • Modelowanie Lakehouse vs tradycyjne podejścia do magazynów danych
  • Wzorce projektowe dla gotowych do analiz danych
  • Praktyczny warsztat: budowanie tabel i widoków gotowych do konsumpcji

Tydzień 6 — Wprowadzenie do narzędzi importowych i automatyzacji pobierania danych

  • Połączniki i narzędzia pobierania dla Databricks (AWS Glue, Data Factory, Kafka)
  • Wzorce pobierania strumieniowego i mikro-batch
  • Walidacja danych, sprawdzanie jakości i wdrażanie schematu
  • Praktyczny warsztat: budowanie odpornych rurociągów pobierania

Tydzień 7 — Wprowadzenie do Git Flow i CI/CD dla inżynierii danych

  • Strategie gałęziowania i organizacja repozytoriów Git Flow
  • Rurociągi CI/CD dla zeszytów, zadań i infrastruktury jako kodu
  • Testowanie, kontrola jakości i automatyzacja wdrażania kodu danych
  • Praktyczny warsztat: wdrożenie pracy z Git i automatyzacja wdrażania zadań

Tydzień 8 — Certyfikowany inżynier danych Databricks Associate (Przygotowanie) i wzorce inżynierii danych

  • Przegląd tematów certyfikacyjnych i ćwiczenia praktyczne
  • Wzorce architektoniczne: brązowy/srebrny/złoty, CDC, wolno zmienne wymiary
  • Wzorce operacyjne: monitorowanie, alerty i pochodzenie
  • Praktyczny warsztat: pełny rurociąg stosujący wzorce inżynierskie

Tydzień 9 — Wprowadzenie do Airflow i Astronomer; skryptowanie

  • Koncepcje Airflow: DAGs, zadania, operatory i harmonogramowanie
  • Przegląd platformy Astronomer i najlepsze praktyki orkiestracji
  • Skryptowanie dla automatyzacji: wzorce skryptowania Python dla zadań danych
  • Praktyczny warsztat: orkiestracja zadań Databricks za pomocą DAGs Airflow

Tydzień 10 — Wizualizacja danych, Tableau i niestandardowy projekt końcowy

  • Połączenie Tableau z Databricks i najlepsze praktyki dla warstw BI
  • Zasady projektowania pulpitów nadrzędnych i wizualizacji uwzględniających wydajność
  • Pracownik: niestandardowe projektowanie, wdrażanie i prezentowanie projektu końcowego
  • Prezentacje końcowe, recenzja rówieśnicza i opinie instruktora

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie podstaw SQL i pojęć dotyczących danych
  • Doświadczenie w programowaniu w Pythonie lub Scali
  • Znałość usług chmurowych i środowisk wirtualnych

Grupa docelowa

  • Początkujący i praktykujący inżynierowie danych
  • Developers ETL/BI i inżynierowie analitycy
  • Zespoły platform danych i DevOps wspierające przetwarzanie
 350 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie