Bądźmy w kontakcie

Plan Szkolenia

Wprowadzenie, cele i strategia migracji

  • Cele kursu, dopasowanie profilu uczestników i kryteria sukcesu
  • Ogólne podejścia do migracji i rozważania dotyczące ryzyka
  • Konfiguracja obszarów roboczych, repozytoriów i zestawów danych do laboratorium

Dzień 1 — Podstawy migracji i architektura

  • Koncepcje Lakehouse, przegląd Delta Lake i architektura Databricks
  • Różnice między SMP a MPP i ich implikacje dla migracji
  • Projekt Medallion (Bronze→Silver→Gold) i przegląd Unity Catalog

Laboratorium dnia 1 — Tłumaczenie procedury składowanej

  • Praktyczna migracja przykładowej procedury składowanej do notatnika
  • Mapowanie tabel tymczasowych i kursorów na transformacje DataFrame
  • Walidacja i porównanie z oryginalnymi wynikami

Dzień 2 — Zaawansowane Delta Lake i przyrostowe ładowanie

  • Transakcje ACID, dzienniki zatwierdzania, wersjonowanie i podróż w czasie
  • Auto Loader, wzorce MERGE INTO, upserty i ewolucja schematu
  • OPTIMIZE, VACUUM, Z-ORDER, partycjonowanie i dostrajanie pamięci masowej

Laboratorium dnia 2 — Przyrostowe ładowanie i optymalizacja

  • Implementacja ładowania przy użyciu Auto Loader i przepływów MERGE
  • Stosowanie OPTIMIZE, Z-ORDER i VACUUM; walidacja wyników
  • Pomiar poprawy wydajności odczytu/zapisu

Dzień 3 — SQL w Databricks, wydajność i debugowanie

  • Funkcje analityczne SQL: funkcje okienkowe, funkcje wyższego rzędu, obsługa JSON/tablic
  • Czytanie interfejsu użytkownika Spark, DAG, przetasowania, etapy, zadania i diagnoza wąskich gardeł
  • Wzorce dostrajania zapytań: łączenia broadcast, wskazówki, buforowanie i redukcja przepełnienia

Laboratorium dnia 3 — Refaktoryzacja SQL i dostrajanie wydajności

  • Refaktoryzacja ciężkiego procesu SQL na zoptymalizowany Spark SQL
  • Wykorzystanie śladów Spark UI do identyfikacji i naprawy problemów ze skośnością i przetasowaniem
  • Benchmark przed/po i dokumentacja kroków dostrajania

Dzień 4 — Taktyczny PySpark: Zastępowanie logiki proceduralnej

  • Model wykonania Spark: sterownik, egzekutory, leniwe ewaluacja i strategie partycjonowania
  • Przekształcanie pętli i kursorów w wektorowe operacje DataFrame
  • Modularizacja, UDF/pandas UDF, widżety i biblioteki wielokrotnego użytku

Laboratorium dnia 4 — Refaktoryzacja skryptów proceduralnych

  • Refaktoryzacja proceduralnego skryptu ETL na modułowe notatniki PySpark
  • Wprowadzenie parametryzacji, testów jednostkowych i funkcji wielokrotnego użytku
  • Przegląd kodu i zastosowanie listy najlepszych praktyk

Dzień 5 — Organizacja, kompleksowy potok i najlepsze praktyki

  • Databricks Workflows: projektowanie zadań, zależności zadań, wyzwalacze i obsługa błędów
  • Projektowanie przyrostowych potoków Medallion z regułami jakości i walidacją schematu
  • Integracja z Git (GitHub/Azure DevOps), CI i strategie testowania logiki PySpark

Laboratorium dnia 5 — Budowa kompleksowego potoku end-to-end

  • Złożenie potoku Bronze→Silver→Gold zorganizowanego za pomocą Workflows
  • Implementacja logowania, audytu, ponownych prób i automatycznych walidacji
  • Uruchomienie pełnego potoku, walidacja wyników i przygotowanie notatek do wdrożenia

Operacjonalizacja, zarządzanie i gotowość do produkcji

  • Najlepsze praktyki zarządzania Unity Catalog, linie rodowodowe i kontrole dostępu
  • Koszty, rozmiar klastra, automatyczne skalowanie i wzorce współbieżności zadań
  • Listy kontrolne wdrożenia, strategie wycofywania i tworzenie podręczników operacyjnych

Ostateczny przegląd, przekazanie wiedzy i kolejne kroki

  • Prezentacje uczestników dotyczące prac migracyjnych i wniosków z lekcji
  • Analiza luk, zalecane działania uzupełniające i przekazanie materiałów szkoleniowych
  • Referencje, ścieżki dalszego rozwoju i opcje wsparcia

Wymagania

  • Zrozumienie koncepcji inżynierii danych
  • Doświadczenie w SQL i procedurach składowanych (Synapse / SQL Server)
  • Znajomość koncepcji organizacji ETL (ADF lub podobne)

Odbiorcy

  • Menedżerowie technologiczni z doświadczeniem w inżynierii danych
  • Inżynierowie danych migrujący proceduralną logikę OLAP do wzorców Lakehouse
  • Inżynierowie platform odpowiedzialni za wdrożenie Databricks
 35 godzin

Liczba uczestników


Cena za uczestnika (netto)

Propozycje terminów

Powiązane Kategorie