Plan Szkolenia

Wprowadzenie:

  • Apache Spark w ekosystemie Hadoop
  • Krótkie wprowadzenie do Pythona i Scali

Podstawy (teoria):

  • Architektura
  • RDD
  • Transformacje i akcje
  • Etapy, zadania, zależności

Poznanie podstaw w środowisku Databricks (warsztaty praktyczne):

  • Ćwiczenia z użyciem API RDD
  • Podstawowe funkcje akcji i transformacji
  • PairRDD
  • Join
  • Strategie buforowania
  • Ćwiczenia z użyciem API DataFrame
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (User Defined Function)
  • Zapoznanie się z API DataSet
  • Przetwarzanie strumieniowe

Poznanie wdrożenia w środowisku AWS (warsztaty praktyczne):

  • Podstawy AWS Glue
  • Zrozumienie różnic między AWS EMR a AWS Glue
  • Przykładowe zadania w obu środowiskach
  • Zrozumienie zalet i wad

Dodatkowo:

  • Wprowadzenie do orkiestracji Apache Airflow

Wymagania

Umiejętności programistyczne (najlepiej Python, Scala)

Podstawy SQL

 21 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (3)

Propozycje terminów

Powiązane Kategorie