Plan Szkolenia
Wprowadzenie, cele i strategia migracji
- Cele kursu, dopasowanie profilów uczestników i kryteria sukcesu
- Ogólne podejścia do migracji i zagadnienia związane z ryzykiem
- Konfiguracja obszarów roboczych, repozytoriów i zestawów danych laboratoryjnych
Dzień 1 — Podstawy migracji i architektura
- Pojęcia Lakehouse, omówienie Delta Lake i architektury Databricks
- Różnice między SMP a MPP i ich implikacje dla migracji
- Projekt Medallion (Brąz → Srebro → Złoto) i omówienie Unity Catalog
Laboratorium Dnia 1 — Przetłumaczanie procedury przechowywanej
- Praktyczna migracja przykładowej procedury przechowywanej do notebooka
- Mapowanie tabel tymczasowych i kursorów na transformacje DataFrame
- Walidacja i porównanie z oryginalnym wyjściem
Dzień 2 — Zaawansowane Delta Lake & Inkrementalne Ładowanie
- Transakcje ACID, dzienniki zatwierdzeń, wersjonowanie i podróż w czasie
- Auto Loader, wzory MERGE INTO, upserty i ewolucja schematu
- OPTYMALIZACJA, VACUUM, Z-ORDER, partycjonowanie i dostosowywanie przechowywania
Laboratorium Dnia 2 — Inkrementalne Ładowanie & Optymalizacja
- Implementacja ładowania Auto Loader i przepływów MERGE
- Zastosowanie OPTYMALIZACJI, Z-ORDER i VACUUM; walidacja wyników
- Mierzenie poprawy wydajności odczytu/zapisu
Dzień 3 — SQL w Databricks, Wydajność & Debugowanie
- Funkcje analizy SQL: funkcje okna, wyższych rzędów, obsługa JSON/array
- Odczytywanie interfejsu Spark UI, DAG, sortowania, etapów, zadań i diagnostyka瓶颈(瓶颈诊断)
- Wzorce optymalizacji zapytań: rozgłaszanie łączeń, wskazówki, buforowanie i redukcja przepływu
Laboratorium Dnia 3 — Refaktoryzacja SQL & Optymalizacja Wydajności
- Refaktoryzacja ciężkiego procesu SQL do zoptymalizowanego Spark SQL
- Użycie śladów interfejsu Spark UI do identyfikacji i naprawy skośności i sortowań
- Pomiary przed/po i dokumentacja kroków optymalizacji
Dzień 4 — Taktyczne PySpark: Zastępowanie Logiki Proceduralnej
- Model wykonania Spark: sterownik, wykonywacze, leniwe obliczenia i strategie partycjonowania
- Transformacja pętli i kursorów w wektorowe operacje DataFrame
- Modularizacja, UDF/pandas UDF, widżety i ponownie używane biblioteki
Laboratorium Dnia 4 — Refaktoryzacja Skryptów Proceduralnych
- Refaktoryzacja proceduralnego skryptu ETL do modularnych notebooków PySpark
- Wprowadzenie parametryzacji, testów jednostkowych i ponownie używanych funkcji
- Przegląd kodu i zastosowanie listy sprawdzenia najlepszych praktyk
Dzień 5 — Orchestracja, Kompleksowy Potok & Najlepsze Praktyki
- Workflows Databricks: projektowanie zadań, zależności zadań, wyzwalacze i obsługa błędów
- Projektowanie inkrementalnych potoków Medallion z regułami jakości i walidacją schematu
- Integracja z Git (GitHub/Azure DevOps), CI i strategiami testowania dla logiki PySpark
Laboratorium Dnia 5 — Stworzenie Kompleksowego Potoku End-to-End
- Zbieranie potoku Brąz → Srebro → Złoto orchestracyjnego z Workflows
- Implementacja rejestrowania, audytu, prób i automatycznych walidacji
- Uruchomienie pełnego potoku, walidacja wyjść i przygotowanie notatek wdrożenia
Operacjonalizacja, Zarządzanie & Gotowość do Produkcji
- Najlepsze praktyki zarządzania Unity Catalog, linii przepływu i kontroli dostępu
- Koszty, rozmiary klastrów, automatyczne skalowanie i wzorce współbieżności zadań
- Listy sprawdzenia wdrożenia, strategie odwołania i tworzenie karty postępowania
Ostatewna Rewizja, Przekaz Wiedzy & Następne Kroki
- Prezentacje uczestników pracy migracyjnej i wyciągniętych wniosków
- Analiza luk, zalecane działania w dalszym ciągu i przekaz materiałów szkoleniowych
- Referencje, dodatkowe ścieżki nauki i opcje wsparcia
Wymagania
- Zrozumienie koncepcji inżynierii danych
- Doświadczenie z SQL i procedurami przechowywanymi (Synapse / SQL Server)
- Znajomość koncepcji orchestrowania ETL (ADF lub podobne)
Odbiorcy
- Menedżerowie technologiczni o tle inżynierii danych
- Inżynierowie danych przenoszący proceduralną logikę OLAP na wzorce Lakehouse
- Inżynierowie platformy odpowiedzialni za przyjęcie Databricks