Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Tydzień 1 — Wprowadzenie do inżynierii danych
- Podstawy inżynierii danych i nowoczesne stosy danych
- Wzory i źródła pobierania danych
- Koncepcje i przypadki użycia procesów batch vs streaming
- Praktyczny warsztat: pobieranie próbnych danych do chmurowego magazynu
Tydzień 2 — Złoty certyfikat Lakehouse Databricks
- Podstawy platformy Databricks i nawigacja w przestrzeni roboczej
- Koncepcje Delta Lake: ACID, podróże w czasie i ewolucja schematu
- Bezpieczeństwo przestrzeni roboczej, kontrola dostępu i podstawy Unity Catalog
- Praktyczny warsztat: tworzenie i zarządzanie tabelami Delta
Tydzień 3 — Zaawansowane SQL na Databricks
- Zaawansowane konstrukcje SQL i funkcje okiennej na skalę
- Optymalizacja zapytań, plany wyjaśniające i wzorce uwzględniające koszty
- Wygląd fizyczny widoków, pamięć podręczna i dostrajanie wydajności
- Praktyczny warsztat: optymalizacja zapytań analitycznych na dużych zbiorach danych
Tydzień 4 — Certyfikowany rozwój oprogramowania Databricks dla Apache Spark (Przygotowanie)
- Architektura Spark, głębokie zagłębianie się w RDDs, DataFrames i zestawy danych
- Kluczowe przekształcenia Spark i działania; rozważania dotyczące wydajności
- Podstawy strumieniowego Spark i wzorce strumieniowania strukturalnego
- Ćwiczenia egzaminacyjne i praktyczne problemy testowe
Tydzień 5 — Wprowadzenie do modelowania danych
- Koncepcje: modelowanie wymiarowe, projektowanie gwiazdy/schematu i normalizacja
- Modelowanie Lakehouse vs tradycyjne podejścia do magazynów danych
- Wzorce projektowe dla gotowych do analiz danych
- Praktyczny warsztat: budowanie tabel i widoków gotowych do konsumpcji
Tydzień 6 — Wprowadzenie do narzędzi importowych i automatyzacji pobierania danych
- Połączniki i narzędzia pobierania dla Databricks (AWS Glue, Data Factory, Kafka)
- Wzorce pobierania strumieniowego i mikro-batch
- Walidacja danych, sprawdzanie jakości i wdrażanie schematu
- Praktyczny warsztat: budowanie odpornych rurociągów pobierania
Tydzień 7 — Wprowadzenie do Git Flow i CI/CD dla inżynierii danych
- Strategie gałęziowania i organizacja repozytoriów Git Flow
- Rurociągi CI/CD dla zeszytów, zadań i infrastruktury jako kodu
- Testowanie, kontrola jakości i automatyzacja wdrażania kodu danych
- Praktyczny warsztat: wdrożenie pracy z Git i automatyzacja wdrażania zadań
Tydzień 8 — Certyfikowany inżynier danych Databricks Associate (Przygotowanie) i wzorce inżynierii danych
- Przegląd tematów certyfikacyjnych i ćwiczenia praktyczne
- Wzorce architektoniczne: brązowy/srebrny/złoty, CDC, wolno zmienne wymiary
- Wzorce operacyjne: monitorowanie, alerty i pochodzenie
- Praktyczny warsztat: pełny rurociąg stosujący wzorce inżynierskie
Tydzień 9 — Wprowadzenie do Airflow i Astronomer; skryptowanie
- Koncepcje Airflow: DAGs, zadania, operatory i harmonogramowanie
- Przegląd platformy Astronomer i najlepsze praktyki orkiestracji
- Skryptowanie dla automatyzacji: wzorce skryptowania Python dla zadań danych
- Praktyczny warsztat: orkiestracja zadań Databricks za pomocą DAGs Airflow
Tydzień 10 — Wizualizacja danych, Tableau i niestandardowy projekt końcowy
- Połączenie Tableau z Databricks i najlepsze praktyki dla warstw BI
- Zasady projektowania pulpitów nadrzędnych i wizualizacji uwzględniających wydajność
- Pracownik: niestandardowe projektowanie, wdrażanie i prezentowanie projektu końcowego
- Prezentacje końcowe, recenzja rówieśnicza i opinie instruktora
Podsumowanie i kolejne kroki
Wymagania
- Zrozumienie podstaw SQL i pojęć dotyczących danych
- Doświadczenie w programowaniu w Pythonie lub Scali
- Znałość usług chmurowych i środowisk wirtualnych
Grupa docelowa
- Początkujący i praktykujący inżynierowie danych
- Developers ETL/BI i inżynierowie analitycy
- Zespoły platform danych i DevOps wspierające przetwarzanie
350 godzin