Plan Szkolenia

Wstęp:

  • Apache Spark w Hadoop Ekosystem
  • Krótkie wprowadzenie do Pythona, Scala

Podstawy (teoria):

  • Architektura
  • RDD
  • Transformacja i działania
  • Etap, zadanie, zależności

Korzystanie ze środowiska Databricks pozwala zrozumieć podstawy (warsztat praktyczny):

  • Ćwiczenia z wykorzystaniem RDD API
  • Podstawowe funkcje akcji i transformacji
  • ParaRDD
  • Dołączyć
  • Strategie buforowania
  • Ćwiczenia z wykorzystaniem DataFrame API
  • IskraSQL
  • DataFrame: wybierz, filtruj, grupuj, sortuj
  • UDF (funkcja zdefiniowana przez użytkownika)
  • Patrząc na API DataSet
  • Transmisja strumieniowa

Korzystanie ze środowiska AWS obejmuje zrozumienie wdrożenia (warsztat praktyczny):

  • Podstawy kleju AWS
  • Poznaj różnice między AWS EMR i AWS Glue
  • Przykładowe zadania w obu środowiskach
  • Zrozum zalety i wady

Dodatkowy:

  • Wprowadzenie do orkiestracji Apache Airflow.

Wymagania

Umiejętność programowania (najlepiej w języku python, scala)

Podstawy SQL

 21 godzin

Liczba uczestników



Cena za uczestnika

Opinie uczestników (2)

Powiązane Kategorie