Plan Szkolenia

  1. Wprowadzenie do Scala

    • Krótki wprowadzenie do Scala
    • Laboratoria: Poznanie Scala
  2. Podstawy Spark

    • Tło i historia
    • Spark i Hadoop
    • Koncepcje i architektura Spark
    • Ekosystem Spark (core, Spark SQL, MLib, streaming)
    • Laboratoria: Instalowanie i uruchamianie Spark
  3. Pierwsze spojrzenie na Spark

    • Uruchamianie Spark w trybie lokalnym
    • Interfejs webowy Spark
    • Spark shell
    • Analiza zestawu danych – część 1
    • Inspekcja RDD
    • Laboratoria: Eksploracja Spark shell
  4. RDD

    • Koncepcje RDD
    • Partitiony
    • Operacje/transformacje RDD
    • Typy RDD
    • RDD par klucz-wartość
    • MapReduce na RDD
    • Buforowanie i persystencja
    • Laboratoria: Tworzenie i inspekcja RDD; Buforowanie RDD
  5. Programowanie API Spark

    • Wprowadzenie do API Spark / API RDD
    • Wysyłanie pierwszego programu do Spark
    • Debugowanie / logowanie
    • Własności konfiguracyjne
    • Laboratoria: Programowanie w API Spark, Wysyłanie zadań
  6. Spark SQL

    • Obsługa SQL w Spark
    • Dataframes
    • Definiowanie tabel i importowanie zestawów danych
    • Zapytanie do dataframes za pomocą SQL
    • Formaty przechowywania: JSON / Parquet
    • Laboratoria: Tworzenie i zapytanie do dataframes; Ocena formatów danych
  7. MLlib

    • Wprowadzenie do MLib
    • Algorithmy MLib
    • Laboratoria: Pisanie aplikacji MLib
  8. GraphX

    • Przegląd biblioteki GraphX
    • API GraphX
    • Laboratoria: Przetwarzanie danych grafu za pomocą Spark
  9. Spark Streaming

    • Przegląd strumieniowego przetwarzania
    • Ocena platform strumieniowych
    • Operacje strumieniowe
    • Operacje okienkowe
    • Laboratoria: Pisanie aplikacji strumieniowych Spark
  10. Spark i Hadoop

    • Wprowadzenie do Hadoop (HDFS / YARN)
    • Architektura Hadoop + Spark
    • Uruchamianie Spark na Hadoop YARN
    • Przetwarzanie plików HDFS za pomocą Spark
  11. Wydajność i optymalizacja Spark

    • Zmienne rozgłaszane
    • Akumulatory
    • Zarządzanie pamięcią i buforowanie
  12. Operacje Spark

    • Wdrażanie Spark w produkcji
    • Szablony wdrażania
    • Konfiguracje
    • Monitorowanie
    • Diagnostyka

Wymagania

WYMAGANIA WSTĘPNE

znajomość języka Java / Scala / Python (nasze laboratoria w Scala i Python)

podstawowa znajomość środowiska rozwoju Linux (nawigacja w wierszu polecenia / edytowanie plików za pomocą VI lub nano)

 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (7)

Propozycje terminów

Powiązane Kategorie