Plan Szkolenia
Wprowadzenie, Cele i Strategia Migracji
- Cel kursu, profilowanie uczestników i kryteria sukcesu
- Wyższe poziomy podejść do migracji i rozważania dotyczące ryzyka
- Konfigurowanie obszarów roboczych, repozytoriów i zestawów danych laboratorium
Dzień 1 — Podstawy Migracji i Architektura
- Pojęcia Lakehouse, omówienie Delta Lake i architektury Databricksa
- Różnice między SMP a MPP oraz ich implikacje dla migracji
- Projekt Medallion (Brąz→Srebro→Złoto) i omówienie Unity Catalog
Dzień 1 Laboratorium — Tłumaczenie Procedury Przechowywanej
- Praktyczna migracja próbki procedury przechowywanej do skorowidza
- Mapowanie tabel tymczasowych i kursorów na transformacje DataFrame
- Walidacja i porównanie z oryginalnym wynikiem
Dzień 2 — Zaawansowane Delta Lake & Inkrementalne Ładowanie
- Transakcje ACID, dzienniki zatwierdzeń, wersjonowanie i podróże w czasie
- Auto Loader, wzorce MERGE INTO, upserty i ewolucja schematu
- OPTYMALIZACJA, VACUUM, Z-ORDER, partycjonowanie i dostosowywanie przechowywania
Dzień 2 Laboratorium — Inkrementalne Ładowanie & Optymalizacja
- Wdrażanie ładowania Auto Loader i przepływów MERGE
- Zastosowanie OPTYMALIZACJI, Z-ORDER i VACUUM; walidacja wyników
- Mierzenie poprawy wydajności odczytu/zapisu
Dzień 3 — SQL w Databricksie, Wydajność & Debugowanie
- Funkcje analityczne SQL: funkcje okienkowe, wyższych rzędów, obsługiwania JSON/tablic
- Odczytywanie UI Sparka, DAGi, permutacje, etapy, zadania i diagnozowanie zatorów
- Wzorce optymalizacji zapytań: broadcast joins, wskazówki, buforowanie i redukcja rozpraszania
Dzień 3 Laboratorium — Refaktoryzacja SQL & Optymalizacja Wydajności
- Refaktoryzacja złożonego procesu SQL do zoptymalizowanego Spark SQL
- Używanie śladów UI Sparka do identyfikowania i naprawiania zatorów i permutacji
- Porównanie przed/po i dokumentacja kroków optymalizacji
Dzień 4 — Taktyczny PySpark: Zastępowanie Logiki Proceduralnej
- Model wykonywania Sparka: sterownik, wykonawcy, ocena leniwa i strategie partycjonowania
- Transformowanie pętli i kursorów w wektorowe operacje DataFrame
- Modularizacja, UDF/pandas UDF, widżety i ponownie używane biblioteki
Dzień 4 Laboratorium — Refaktoryzacja Skryptów Proceduralnych
- Refaktoryzacja proceduralnego skryptu ETL do modułowych skorowidzów PySparka
- Wprowadzenie parametryzacji, testów jednostkowych i ponownie używanych funkcji
- Przeglądy kodu i zastosowanie checklisty najlepszych praktyk
Dzień 5 — Orchestrowanie, Kompleksowy Przepływ Pracy & Najlepsze Praktyki
- Databricks Workflows: projektowanie zadań, zależności zadań, wyzwalacze i obsługa błędów
- Projektowanie inkrementalnych przepływów Medallion z regułami jakości i walidacją schematu
- Integracja z Git (GitHub/Azure DevOps), CI, oraz strategie testowania dla logiki PySparka
Dzień 5 Laboratorium — Budowanie Kompleksowego Przepływu Pracy od Początku do Końca
- Montaż przepływu Brąz→Srebro→Złoto orchestrowanego za pomocą Workflows
- Implementacja logowania, audytu, prób powtórnych i automatycznej walidacji
- Uruchomienie pełnego przepływu, walidacja wyników i przygotowanie notatek wdrożeniowych
Operacjonalizacja, Zarządzanie i Gotowość do Produkcji
- Najlepsze praktyki zarządzania Unity Catalog, linii genealogicznej i kontroli dostępu
- Koszty, rozmiar klastrów, automatyczne skalowanie i wzorce współbieżności zadań
- Lista kontrolna wdrożenia, strategie cofania i tworzenie podręczników procedur
Przegląd Końcowy, Transfer Wiedzy i Kolejne Kroki
- Prezentacje uczestników pracy migracyjnej i nauk lekcji
- Analiza luk, zalecane działania na przyszłość i przekaz materiałów szkoleniowych
- Referencje, dalsze ścieżki nauki i opcje wsparcia
Wymagania
- Zrozumienie pojęć inżynierii danych
- Doświadczenie z SQL i procedurami przechowywanymi (Synapse / SQL Server)
- Znajomość pojęć orchestracji ETL (ADF lub podobne)
Odbiorcy
- Menedżerowie techniczni o tle inżynierii danych
- Inżynierowie danych przechodzący z logiki OLAP proceduralnej do wzorców Lakehouse
- Inżynierowie platformy odpowiedzialni za adopcję Databricksa