Plan Szkolenia
PySpark & Uczenie Maszynowe
Moduł 1: Podstawy Big Data i Spark
- Przegląd ekosystemu Big Data i roli Spark w nowoczesnych platformach danych
- Zrozumienie architektury Spark: sterownik, egzekutory, menedżer klastrów, leniwe obliczenia, DAG i planowanie wykonania
- Różnice między API RDD i DataFrame oraz kiedy stosować każde z podejść
- Tworzenie i konfigurowanie SparkSession oraz podstawy konfiguracji aplikacji
Moduł 2: PySpark DataFrames
- Odczyt i zapis danych z przedsiębiorczych źródeł i formatów (CSV, JSON, Parquet, Delta)
- Praca z PySpark DataFrames: transformacje, akcje, wyrażenia kolumnowe, filtrowanie, łączenia i agregacje
- Implementacja zaawansowanych operacji, takich jak funkcje okienkowe, obsługa znaczników czasu i praca z danymi zagnieżdżonymi
- Stosowanie kontroli jakości danych i pisanie wielokrotnego użytku, łatwego w utrzymaniu kodu PySpark
Moduł 3: Efektywne przetwarzanie dużych zbiorów danych
- Zrozumienie podstaw wydajności: strategie partycjonowania, zachowanie shuffle, buforowanie i trwałość
- Stosowanie technik optymalizacji, w tym łączeń broadcast i analizy planów wykonania
- Efektywne przetwarzanie dużych zbiorów danych i najlepsze praktyki dla skalowalnych przepływów pracy
- Zrozumienie ewolucji schematów i nowoczesnych formatów przechowywania stosowanych w środowiskach przedsiębiorstw
Moduł 4: Inżynieria cech na dużą skalę
- Wykonywanie inżynierii cech z Spark MLlib: obsługa brakujących wartości, kodowanie zmiennych kategorycznych i skalowanie cech
- Projektowanie wielokrotnego użytku kroków przetwarzania wstępnego i przygotowywanie zbiorów danych do potoków uczenia maszynowego
- Wprowadzenie do selekcji cech i obsługi niezrównoważonych zbiorów danych
Moduł 5: Uczenie Maszynowe z Spark MLlib
- Zrozumienie architektury MLlib i wzorca Estymator/Transformer
- Trenowanie modeli regresji i klasyfikacji na dużą skalę (Regresja Liniowa, Regresja Logistyczna, Drzewa Decyzyjne, Las Losowy)
- Porównywanie modeli i interpretacja wyników w rozproszonych przepływach pracy uczenia maszynowego
Moduł 6: Kompletne Potoki Uczenia Maszynowego
- Budowanie kompleksowych potoków uczenia maszynowego łączących przetwarzanie wstępne, inżynierię cech i modelowanie
- Stosowanie strategii podziału na zbiory treningowe/walidacyjne/testowe
- Przeprowadzanie walidacji krzyżowej i strojenia hiperparametrów przy użyciu przeszukiwania siatkowego i losowego
- Strukturyzacja powtarzalnych eksperymentów uczenia maszynowego
Moduł 7: Ocena Modeli & Praktyczne Podejmowanie Decyzji w ML
- Stosowanie odpowiednich metryk oceny dla problemów regresji i klasyfikacji
- Identyfikacja przeuczenia i niedouczenia oraz podejmowanie praktycznych decyzji dotyczących wyboru modelu
- Interpretacja ważności cech i zrozumienie zachowania modelu
Moduł 8: Praktyki Produkcyjne & Przedsiębiorcze
- Zapisywanie i ładowanie modeli w Spark
- Implementacja przepływów pracy wnioskowania wsadowego na dużych zbiorach danych
- Zrozumienie cyklu życia uczenia maszynowego w środowiskach przedsiębiorstw
- Wprowadzenie do wersjonowania, śledzenia eksperymentów i podstawowych strategii testowania
Praktyczne Efekty
- Umiejętność samodzielnej pracy z PySpark
- Umiejętność efektywnego przetwarzania dużych zbiorów danych
- Umiejętność wykonywania inżynierii cech na dużą skalę
- Umiejętność budowania skalowalnych potoków uczenia maszynowego
Wymagania
Uczestnicy powinni posiadać następujące umiejętności:
Podstawowa znajomość programowania w Pythonie, w tym pracy z funkcjami, strukturami danych i bibliotekami
Podstawowe zrozumienie koncepcji analizy danych, takich jak zbiory danych, transformacje i agregacje
Podstawowa znajomość SQL i koncepcji danych relacyjnych
Wstępne zrozumienie koncepcji uczenia maszynowego, takich jak zbiory treningowe, cechy i metryki oceny
Znajomość środowisk wiersza poleceń i podstawowych praktyk tworzenia oprogramowania jest zalecana
Doświadczenie z bibliotekami do przetwarzania danych, takimi jak Pandas czy NumPy, jest pomocne, ale nie obowiązkowe.
Opinie uczestników (1)
ankieta przed szkoleniem i zastosowanie jej wynikow.