Bądźmy w kontakcie

Plan Szkolenia

  1. Wprowadzenie do Scali

    • Szybkie wprowadzenie do Scali
    • Laboratoria: Poznajemy Scalę
  2. Podstawy Sparka

    • Tło i historia
    • Spark i Hadoop
    • Pojęcia i architektura Sparka
    • Ekosystem Sparka (core, spark sql, mlib, streaming)
    • Laboratoria: Instalacja i uruchamianie Sparka
  3. Pierwsze spojrzenie na Sparka

    • Uruchamianie Sparka w trybie lokalnym
    • Interfejs webowy Sparka
    • Powłoka Sparka
    • Analiza zbioru danych – część 1
    • Inspekcja RDD
    • Laboratoria: Eksploracja powłoki Sparka
  4. RDD

    • Pojęcia RDD
    • Partycje
    • Operacje / transformacje RDD
    • Typy RDD
    • RDD typu klucz-wartość
    • MapReduce na RDD
    • Buforowanie i trwałość
    • Laboratoria: Tworzenie i inspekcja RDD; Buforowanie RDD
  5. Programowanie w API Sparka

    • Wprowadzenie do API Sparka / API RDD
    • Przesyłanie pierwszego programu do Sparka
    • Debugowanie / logowanie
    • Właściwości konfiguracyjne
    • Laboratoria: Programowanie w API Sparka, przesyłanie zadań
  6. Spark SQL

    • Obsługa SQL w Sparku
    • Dataframes
    • Definiowanie tabel i importowanie zbiorów danych
    • Wykonywanie zapytań na data frames przy użyciu SQL
    • Formaty przechowywania: JSON / Parquet
    • Laboratoria: Tworzenie i wykonywanie zapytań na data frames; ocena formatów danych
  7. MLlib

    • Wprowadzenie do MLlib
    • Algorytmy MLlib
    • Laboratoria: Pisanie aplikacji z użyciem MLib
  8. GraphX

    • Przegląd biblioteki GraphX
    • Interfejsy API GraphX
    • Laboratoria: Przetwarzanie danych grafowych przy użyciu Sparka
  9. Przetwarzanie strumieniowe w Sparku

    • Przegląd przetwarzania strumieniowego
    • Ocena platform do przetwarzania strumieniowego
    • Operacje strumieniowe
    • Operacje na przesuwających się oknach
    • Laboratoria: Pisanie aplikacji do przetwarzania strumieniowego w Sparku
  10. Spark i Hadoop

    • Wprowadzenie do Hadoop (HDFS / YARN)
    • Architektura Hadoop + Spark
    • Uruchamianie Sparka na Hadoop YARN
    • Przetwarzanie plików HDFS przy użyciu Sparka
  11. Wydajność i optymalizacja Sparka

    • Zmienne rozgłoszeniowe
    • Akumulatory
    • Zarządzanie pamięcią i buforowanie
  12. Operacje na Sparku

    • Wdrażanie Sparka w produkcji
    • Przykładowe szablony wdrożenia
    • Konfiguracje
    • Monitorowanie
    • Rozwiązywanie problemów

Wymagania

WYMAGANIA WSTĘPNE

znajomość jednego z języków: Java / Scala / Python (nasze laboratoria w Scali i Pythonie)
podstawowa znajomość środowiska programistycznego Linux (nawigacja wiersza poleceń / edycja plików przy użyciu VI lub nano)

 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (7)

Propozycje terminów

Powiązane Kategorie