Plan Szkolenia

Wprowadzenie, cele i strategia migracji

  • Cele kursu, dopasowanie profilów uczestników i kryteria sukcesu
  • Ogólne podejścia do migracji i zagadnienia związane z ryzykiem
  • Konfiguracja obszarów roboczych, repozytoriów i zestawów danych laboratoryjnych

Dzień 1 — Podstawy migracji i architektura

  • Pojęcia Lakehouse, omówienie Delta Lake i architektury Databricks
  • Różnice między SMP a MPP i ich implikacje dla migracji
  • Projekt Medallion (Brąz → Srebro → Złoto) i omówienie Unity Catalog

Laboratorium Dnia 1 — Przetłumaczanie procedury przechowywanej

  • Praktyczna migracja przykładowej procedury przechowywanej do notebooka
  • Mapowanie tabel tymczasowych i kursorów na transformacje DataFrame
  • Walidacja i porównanie z oryginalnym wyjściem

Dzień 2 — Zaawansowane Delta Lake & Inkrementalne Ładowanie

  • Transakcje ACID, dzienniki zatwierdzeń, wersjonowanie i podróż w czasie
  • Auto Loader, wzory MERGE INTO, upserty i ewolucja schematu
  • OPTYMALIZACJA, VACUUM, Z-ORDER, partycjonowanie i dostosowywanie przechowywania

Laboratorium Dnia 2 — Inkrementalne Ładowanie & Optymalizacja

  • Implementacja ładowania Auto Loader i przepływów MERGE
  • Zastosowanie OPTYMALIZACJI, Z-ORDER i VACUUM; walidacja wyników
  • Mierzenie poprawy wydajności odczytu/zapisu

Dzień 3 — SQL w Databricks, Wydajność & Debugowanie

  • Funkcje analizy SQL: funkcje okna, wyższych rzędów, obsługa JSON/array
  • Odczytywanie interfejsu Spark UI, DAG, sortowania, etapów, zadań i diagnostyka瓶颈(瓶颈诊断)
  • Wzorce optymalizacji zapytań: rozgłaszanie łączeń, wskazówki, buforowanie i redukcja przepływu

Laboratorium Dnia 3 — Refaktoryzacja SQL & Optymalizacja Wydajności

  • Refaktoryzacja ciężkiego procesu SQL do zoptymalizowanego Spark SQL
  • Użycie śladów interfejsu Spark UI do identyfikacji i naprawy skośności i sortowań
  • Pomiary przed/po i dokumentacja kroków optymalizacji

Dzień 4 — Taktyczne PySpark: Zastępowanie Logiki Proceduralnej

  • Model wykonania Spark: sterownik, wykonywacze, leniwe obliczenia i strategie partycjonowania
  • Transformacja pętli i kursorów w wektorowe operacje DataFrame
  • Modularizacja, UDF/pandas UDF, widżety i ponownie używane biblioteki

Laboratorium Dnia 4 — Refaktoryzacja Skryptów Proceduralnych

  • Refaktoryzacja proceduralnego skryptu ETL do modularnych notebooków PySpark
  • Wprowadzenie parametryzacji, testów jednostkowych i ponownie używanych funkcji
  • Przegląd kodu i zastosowanie listy sprawdzenia najlepszych praktyk

Dzień 5 — Orchestracja, Kompleksowy Potok & Najlepsze Praktyki

  • Workflows Databricks: projektowanie zadań, zależności zadań, wyzwalacze i obsługa błędów
  • Projektowanie inkrementalnych potoków Medallion z regułami jakości i walidacją schematu
  • Integracja z Git (GitHub/Azure DevOps), CI i strategiami testowania dla logiki PySpark

Laboratorium Dnia 5 — Stworzenie Kompleksowego Potoku End-to-End

  • Zbieranie potoku Brąz → Srebro → Złoto orchestracyjnego z Workflows
  • Implementacja rejestrowania, audytu, prób i automatycznych walidacji
  • Uruchomienie pełnego potoku, walidacja wyjść i przygotowanie notatek wdrożenia

Operacjonalizacja, Zarządzanie & Gotowość do Produkcji

  • Najlepsze praktyki zarządzania Unity Catalog, linii przepływu i kontroli dostępu
  • Koszty, rozmiary klastrów, automatyczne skalowanie i wzorce współbieżności zadań
  • Listy sprawdzenia wdrożenia, strategie odwołania i tworzenie karty postępowania

Ostatewna Rewizja, Przekaz Wiedzy & Następne Kroki

  • Prezentacje uczestników pracy migracyjnej i wyciągniętych wniosków
  • Analiza luk, zalecane działania w dalszym ciągu i przekaz materiałów szkoleniowych
  • Referencje, dodatkowe ścieżki nauki i opcje wsparcia

Wymagania

  • Zrozumienie koncepcji inżynierii danych
  • Doświadczenie z SQL i procedurami przechowywanymi (Synapse / SQL Server)
  • Znajomość koncepcji orchestrowania ETL (ADF lub podobne)

Odbiorcy

  • Menedżerowie technologiczni o tle inżynierii danych
  • Inżynierowie danych przenoszący proceduralną logikę OLAP na wzorce Lakehouse
  • Inżynierowie platformy odpowiedzialni za przyjęcie Databricks
 35 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie