Plan Szkolenia

Wprowadzenie, Cele i Strategia Migracji

  • Cel kursu, profilowanie uczestników i kryteria sukcesu
  • Wyższe poziomy podejść do migracji i rozważania dotyczące ryzyka
  • Konfigurowanie obszarów roboczych, repozytoriów i zestawów danych laboratorium

Dzień 1 — Podstawy Migracji i Architektura

  • Pojęcia Lakehouse, omówienie Delta Lake i architektury Databricksa
  • Różnice między SMP a MPP oraz ich implikacje dla migracji
  • Projekt Medallion (Brąz→Srebro→Złoto) i omówienie Unity Catalog

Dzień 1 Laboratorium — Tłumaczenie Procedury Przechowywanej

  • Praktyczna migracja próbki procedury przechowywanej do skorowidza
  • Mapowanie tabel tymczasowych i kursorów na transformacje DataFrame
  • Walidacja i porównanie z oryginalnym wynikiem

Dzień 2 — Zaawansowane Delta Lake & Inkrementalne Ładowanie

  • Transakcje ACID, dzienniki zatwierdzeń, wersjonowanie i podróże w czasie
  • Auto Loader, wzorce MERGE INTO, upserty i ewolucja schematu
  • OPTYMALIZACJA, VACUUM, Z-ORDER, partycjonowanie i dostosowywanie przechowywania

Dzień 2 Laboratorium — Inkrementalne Ładowanie & Optymalizacja

  • Wdrażanie ładowania Auto Loader i przepływów MERGE
  • Zastosowanie OPTYMALIZACJI, Z-ORDER i VACUUM; walidacja wyników
  • Mierzenie poprawy wydajności odczytu/zapisu

Dzień 3 — SQL w Databricksie, Wydajność & Debugowanie

  • Funkcje analityczne SQL: funkcje okienkowe, wyższych rzędów, obsługiwania JSON/tablic
  • Odczytywanie UI Sparka, DAGi, permutacje, etapy, zadania i diagnozowanie zatorów
  • Wzorce optymalizacji zapytań: broadcast joins, wskazówki, buforowanie i redukcja rozpraszania

Dzień 3 Laboratorium — Refaktoryzacja SQL & Optymalizacja Wydajności

  • Refaktoryzacja złożonego procesu SQL do zoptymalizowanego Spark SQL
  • Używanie śladów UI Sparka do identyfikowania i naprawiania zatorów i permutacji
  • Porównanie przed/po i dokumentacja kroków optymalizacji

Dzień 4 — Taktyczny PySpark: Zastępowanie Logiki Proceduralnej

  • Model wykonywania Sparka: sterownik, wykonawcy, ocena leniwa i strategie partycjonowania
  • Transformowanie pętli i kursorów w wektorowe operacje DataFrame
  • Modularizacja, UDF/pandas UDF, widżety i ponownie używane biblioteki

Dzień 4 Laboratorium — Refaktoryzacja Skryptów Proceduralnych

  • Refaktoryzacja proceduralnego skryptu ETL do modułowych skorowidzów PySparka
  • Wprowadzenie parametryzacji, testów jednostkowych i ponownie używanych funkcji
  • Przeglądy kodu i zastosowanie checklisty najlepszych praktyk

Dzień 5 — Orchestrowanie, Kompleksowy Przepływ Pracy & Najlepsze Praktyki

  • Databricks Workflows: projektowanie zadań, zależności zadań, wyzwalacze i obsługa błędów
  • Projektowanie inkrementalnych przepływów Medallion z regułami jakości i walidacją schematu
  • Integracja z Git (GitHub/Azure DevOps), CI, oraz strategie testowania dla logiki PySparka

Dzień 5 Laboratorium — Budowanie Kompleksowego Przepływu Pracy od Początku do Końca

  • Montaż przepływu Brąz→Srebro→Złoto orchestrowanego za pomocą Workflows
  • Implementacja logowania, audytu, prób powtórnych i automatycznej walidacji
  • Uruchomienie pełnego przepływu, walidacja wyników i przygotowanie notatek wdrożeniowych

Operacjonalizacja, Zarządzanie i Gotowość do Produkcji

  • Najlepsze praktyki zarządzania Unity Catalog, linii genealogicznej i kontroli dostępu
  • Koszty, rozmiar klastrów, automatyczne skalowanie i wzorce współbieżności zadań
  • Lista kontrolna wdrożenia, strategie cofania i tworzenie podręczników procedur

Przegląd Końcowy, Transfer Wiedzy i Kolejne Kroki

  • Prezentacje uczestników pracy migracyjnej i nauk lekcji
  • Analiza luk, zalecane działania na przyszłość i przekaz materiałów szkoleniowych
  • Referencje, dalsze ścieżki nauki i opcje wsparcia

Wymagania

  • Zrozumienie pojęć inżynierii danych
  • Doświadczenie z SQL i procedurami przechowywanymi (Synapse / SQL Server)
  • Znajomość pojęć orchestracji ETL (ADF lub podobne)

Odbiorcy

  • Menedżerowie techniczni o tle inżynierii danych
  • Inżynierowie danych przechodzący z logiki OLAP proceduralnej do wzorców Lakehouse
  • Inżynierowie platformy odpowiedzialni za adopcję Databricksa
 35 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie