Plan Szkolenia
Wstęp:
- Apache Spark w Hadoop Ekosystem
- Krótkie wprowadzenie do Pythona, Scala
Podstawy (teoria):
- Architektura
- RDD
- Transformacja i działania
- Etap, zadanie, zależności
Korzystanie ze środowiska Databricks pozwala zrozumieć podstawy (warsztat praktyczny):
- Ćwiczenia z wykorzystaniem RDD API
- Podstawowe funkcje akcji i transformacji
- ParaRDD
- Dołączyć
- Strategie buforowania
- Ćwiczenia z wykorzystaniem DataFrame API
- IskraSQL
- DataFrame: wybierz, filtruj, grupuj, sortuj
- UDF (funkcja zdefiniowana przez użytkownika)
- Patrząc na API DataSet
- Transmisja strumieniowa
Korzystanie ze środowiska AWS obejmuje zrozumienie wdrożenia (warsztat praktyczny):
- Podstawy kleju AWS
- Poznaj różnice między AWS EMR i AWS Glue
- Przykładowe zadania w obu środowiskach
- Zrozum zalety i wady
Dodatkowy:
- Wprowadzenie do orkiestracji Apache Airflow.
Wymagania
Umiejętność programowania (najlepiej w języku python, scala)
Podstawy SQL
Opinie uczestników (3)
Mając zajęcia praktyczne / zadania
Poornima Chenthamarakshan - Intelligent Medical Objects
Szkolenie - Apache Spark in the Cloud
Przetłumaczone przez sztuczną inteligencję
1. Odpowiednie równowaga między wysokopoziomowymi koncepcjami a szczegółami technicznymi. 2. Andras jest bardzo dobrze zorientowany w swoim nauczaniu. 3. Ćwiczenie
Steven Wu - Intelligent Medical Objects
Szkolenie - Apache Spark in the Cloud
Przetłumaczone przez sztuczną inteligencję
Dowiedz się o Spark Streaming, Databricks i AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Szkolenie - Apache Spark in the Cloud
Przetłumaczone przez sztuczną inteligencję