Plan Szkolenia
Wprowadzenie, cele i strategia migracji
- Cele kursu, dopasowanie profilu uczestników i kryteria sukcesu
- Ogólne podejścia do migracji i rozważania dotyczące ryzyka
- Konfiguracja obszarów roboczych, repozytoriów i zestawów danych do laboratorium
Dzień 1 — Podstawy migracji i architektura
- Koncepcje Lakehouse, przegląd Delta Lake i architektura Databricks
- Różnice między SMP a MPP i ich implikacje dla migracji
- Projekt Medallion (Bronze→Silver→Gold) i przegląd Unity Catalog
Laboratorium dnia 1 — Tłumaczenie procedury składowanej
- Praktyczna migracja przykładowej procedury składowanej do notatnika
- Mapowanie tabel tymczasowych i kursorów na transformacje DataFrame
- Walidacja i porównanie z oryginalnymi wynikami
Dzień 2 — Zaawansowane Delta Lake i przyrostowe ładowanie
- Transakcje ACID, dzienniki zatwierdzania, wersjonowanie i podróż w czasie
- Auto Loader, wzorce MERGE INTO, upserty i ewolucja schematu
- OPTIMIZE, VACUUM, Z-ORDER, partycjonowanie i dostrajanie pamięci masowej
Laboratorium dnia 2 — Przyrostowe ładowanie i optymalizacja
- Implementacja ładowania przy użyciu Auto Loader i przepływów MERGE
- Stosowanie OPTIMIZE, Z-ORDER i VACUUM; walidacja wyników
- Pomiar poprawy wydajności odczytu/zapisu
Dzień 3 — SQL w Databricks, wydajność i debugowanie
- Funkcje analityczne SQL: funkcje okienkowe, funkcje wyższego rzędu, obsługa JSON/tablic
- Czytanie interfejsu użytkownika Spark, DAG, przetasowania, etapy, zadania i diagnoza wąskich gardeł
- Wzorce dostrajania zapytań: łączenia broadcast, wskazówki, buforowanie i redukcja przepełnienia
Laboratorium dnia 3 — Refaktoryzacja SQL i dostrajanie wydajności
- Refaktoryzacja ciężkiego procesu SQL na zoptymalizowany Spark SQL
- Wykorzystanie śladów Spark UI do identyfikacji i naprawy problemów ze skośnością i przetasowaniem
- Benchmark przed/po i dokumentacja kroków dostrajania
Dzień 4 — Taktyczny PySpark: Zastępowanie logiki proceduralnej
- Model wykonania Spark: sterownik, egzekutory, leniwe ewaluacja i strategie partycjonowania
- Przekształcanie pętli i kursorów w wektorowe operacje DataFrame
- Modularizacja, UDF/pandas UDF, widżety i biblioteki wielokrotnego użytku
Laboratorium dnia 4 — Refaktoryzacja skryptów proceduralnych
- Refaktoryzacja proceduralnego skryptu ETL na modułowe notatniki PySpark
- Wprowadzenie parametryzacji, testów jednostkowych i funkcji wielokrotnego użytku
- Przegląd kodu i zastosowanie listy najlepszych praktyk
Dzień 5 — Organizacja, kompleksowy potok i najlepsze praktyki
- Databricks Workflows: projektowanie zadań, zależności zadań, wyzwalacze i obsługa błędów
- Projektowanie przyrostowych potoków Medallion z regułami jakości i walidacją schematu
- Integracja z Git (GitHub/Azure DevOps), CI i strategie testowania logiki PySpark
Laboratorium dnia 5 — Budowa kompleksowego potoku end-to-end
- Złożenie potoku Bronze→Silver→Gold zorganizowanego za pomocą Workflows
- Implementacja logowania, audytu, ponownych prób i automatycznych walidacji
- Uruchomienie pełnego potoku, walidacja wyników i przygotowanie notatek do wdrożenia
Operacjonalizacja, zarządzanie i gotowość do produkcji
- Najlepsze praktyki zarządzania Unity Catalog, linie rodowodowe i kontrole dostępu
- Koszty, rozmiar klastra, automatyczne skalowanie i wzorce współbieżności zadań
- Listy kontrolne wdrożenia, strategie wycofywania i tworzenie podręczników operacyjnych
Ostateczny przegląd, przekazanie wiedzy i kolejne kroki
- Prezentacje uczestników dotyczące prac migracyjnych i wniosków z lekcji
- Analiza luk, zalecane działania uzupełniające i przekazanie materiałów szkoleniowych
- Referencje, ścieżki dalszego rozwoju i opcje wsparcia
Wymagania
- Zrozumienie koncepcji inżynierii danych
- Doświadczenie w SQL i procedurach składowanych (Synapse / SQL Server)
- Znajomość koncepcji organizacji ETL (ADF lub podobne)
Odbiorcy
- Menedżerowie technologiczni z doświadczeniem w inżynierii danych
- Inżynierowie danych migrujący proceduralną logikę OLAP do wzorców Lakehouse
- Inżynierowie platform odpowiedzialni za wdrożenie Databricks