Bądźmy w kontakcie

Plan Szkolenia

PySpark & Uczenie Maszynowe 

Moduł 1: Podstawy Big Data i Spark

  • Przegląd ekosystemu Big Data i roli Spark w nowoczesnych platformach danych
  • Zrozumienie architektury Spark: sterownik, egzekutory, menedżer klastrów, leniwe obliczenia, DAG i planowanie wykonania
  • Różnice między API RDD i DataFrame oraz kiedy stosować każde z podejść
  • Tworzenie i konfigurowanie SparkSession oraz podstawy konfiguracji aplikacji

Moduł 2: PySpark DataFrames

  • Odczyt i zapis danych z przedsiębiorczych źródeł i formatów (CSV, JSON, Parquet, Delta)
  • Praca z PySpark DataFrames: transformacje, akcje, wyrażenia kolumnowe, filtrowanie, łączenia i agregacje
  • Implementacja zaawansowanych operacji, takich jak funkcje okienkowe, obsługa znaczników czasu i praca z danymi zagnieżdżonymi
  • Stosowanie kontroli jakości danych i pisanie wielokrotnego użytku, łatwego w utrzymaniu kodu PySpark

Moduł 3: Efektywne przetwarzanie dużych zbiorów danych

  • Zrozumienie podstaw wydajności: strategie partycjonowania, zachowanie shuffle, buforowanie i trwałość
  • Stosowanie technik optymalizacji, w tym łączeń broadcast i analizy planów wykonania
  • Efektywne przetwarzanie dużych zbiorów danych i najlepsze praktyki dla skalowalnych przepływów pracy
  • Zrozumienie ewolucji schematów i nowoczesnych formatów przechowywania stosowanych w środowiskach przedsiębiorstw

Moduł 4: Inżynieria cech na dużą skalę

  • Wykonywanie inżynierii cech z Spark MLlib: obsługa brakujących wartości, kodowanie zmiennych kategorycznych i skalowanie cech
  • Projektowanie wielokrotnego użytku kroków przetwarzania wstępnego i przygotowywanie zbiorów danych do potoków uczenia maszynowego
  • Wprowadzenie do selekcji cech i obsługi niezrównoważonych zbiorów danych

Moduł 5: Uczenie Maszynowe z Spark MLlib

  • Zrozumienie architektury MLlib i wzorca Estymator/Transformer
  • Trenowanie modeli regresji i klasyfikacji na dużą skalę (Regresja Liniowa, Regresja Logistyczna, Drzewa Decyzyjne, Las Losowy)
  • Porównywanie modeli i interpretacja wyników w rozproszonych przepływach pracy uczenia maszynowego

Moduł 6: Kompletne Potoki Uczenia Maszynowego

  • Budowanie kompleksowych potoków uczenia maszynowego łączących przetwarzanie wstępne, inżynierię cech i modelowanie
  • Stosowanie strategii podziału na zbiory treningowe/walidacyjne/testowe
  • Przeprowadzanie walidacji krzyżowej i strojenia hiperparametrów przy użyciu przeszukiwania siatkowego i losowego
  • Strukturyzacja powtarzalnych eksperymentów uczenia maszynowego

Moduł 7: Ocena Modeli & Praktyczne Podejmowanie Decyzji w ML

  • Stosowanie odpowiednich metryk oceny dla problemów regresji i klasyfikacji
  • Identyfikacja przeuczenia i niedouczenia oraz podejmowanie praktycznych decyzji dotyczących wyboru modelu
  • Interpretacja ważności cech i zrozumienie zachowania modelu

Moduł 8: Praktyki Produkcyjne & Przedsiębiorcze

  • Zapisywanie i ładowanie modeli w Spark
  • Implementacja przepływów pracy wnioskowania wsadowego na dużych zbiorach danych
  • Zrozumienie cyklu życia uczenia maszynowego w środowiskach przedsiębiorstw
  • Wprowadzenie do wersjonowania, śledzenia eksperymentów i podstawowych strategii testowania

 

Praktyczne Efekty

  • Umiejętność samodzielnej pracy z PySpark
  • Umiejętność efektywnego przetwarzania dużych zbiorów danych
  • Umiejętność wykonywania inżynierii cech na dużą skalę
  • Umiejętność budowania skalowalnych potoków uczenia maszynowego

Wymagania

Uczestnicy powinni posiadać następujące umiejętności:

Podstawowa znajomość programowania w Pythonie, w tym pracy z funkcjami, strukturami danych i bibliotekami
Podstawowe zrozumienie koncepcji analizy danych, takich jak zbiory danych, transformacje i agregacje
Podstawowa znajomość SQL i koncepcji danych relacyjnych
Wstępne zrozumienie koncepcji uczenia maszynowego, takich jak zbiory treningowe, cechy i metryki oceny
Znajomość środowisk wiersza poleceń i podstawowych praktyk tworzenia oprogramowania jest zalecana

Doświadczenie z bibliotekami do przetwarzania danych, takimi jak Pandas czy NumPy, jest pomocne, ale nie obowiązkowe.

 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie