Plan Szkolenia

1: HDFS (17%)

  • Funkcje poszczególnych daemonów systemu Apache Hadoop

  • Przechowywanie i przetwarzanie danych w sytemie Hadoop

  • W jakich okolicznościach powinniśmy wybrać system Hadoop

  • Architektura i zasada działania HDFS

  • Federacje HDFS

  • HDFS High Availability

  • Bezpieczeństwo HDFS (Kerberos)

  • Studiowanie przypadków

  • Proces odczytu i zapisu plików w HDFS

  • Interfejsk tekstowy HDFS

2: YARN i MapReduce w wersji 2 (MRv2) (17%):

  • Konfiguracja YARN

  • Wdrażanie YARN

  • Architektura i zasada działania YARN

  • Alokacja zasobów w YARN

  • Przebieg wykonania zadań w YARN

  • Migracja z MRv1 do YARN

3: Planowanie Klastra Systemu Hadoop (16%)

  • Analiza wymagań i wybór sprzętu

  • Analiza wymagań i wybór systemu operacyjnego

  • Dobór parametrów jądra i konfiguracji pamięci masowej

  • Dobór konfiguracji sprzętowej do wymagań

  • Dobór podzespołów klastra i narzędzi pomocniczych

  • Skalowalność systemu: obciążenie procesora, pamięci operacyjnej, pamięci masowej (IO) oraz pojemności systemu

  • Skalowalność na poziomie pamięci masowej: JBOD vs RAID, dyski sieciowe i wpływ wirtualizacji na wydajność systemu

  • Topologie sieciowe: obiążenie sieci w systemie Hadoop (HDFS i MapReduce) i optymalizacja połączeń

4: Instalacja i Administracja Klastrem Systemu Hadoop (25%)

  • Wpływ awari na działanie klastra

  • Monitorowanie logów

  • Podstawowe metryki wykorzystywane przez klaster systemu Hadoop

  • Narzędzia do monitorowania klastra systemu Hadoop

  • Narzędzia pomocnicze: Impala, Flume, Oozie, Hue, Cloudera Manager, Sqoop, Hive, Pig i inne

  • Narzędzia do administracji klastrem systemu Hadoop

5: Zarządzanie Zasobami (10%)

  • Architektura i funkcje kolejek

  • Alokacja zasobów przez kolejki FIFO

  • Alokacja zasobów przez kolejki sprawiedliwe

  • Alokacja zasobów przez kolejki pojemnościowe

6: Monitorowanie i Logowanie (15%)

  • Monitorowanie metryk

  • Zarządzanie NameNodem i JobTrackerem z poziomu Web GUI

  • Jak monitorować daemony systemu Hadoop

  • Monitorowanie zużycia CPU na kluczowych serwerach w klastrze

  • Monitorowanie zużycia pamięci RAM i swap

  • Zarządzanie i przeglądanie logów

  • Interpretacja logów

Wymagania

  • podstawowe umiejętności administracji systemem Linux

  • podstawowe umiejętności programistyczne
  35 godzin
 

Liczba uczestników


Data rozpoczęcia

Data zakończenia


Daty szkoleń są uzależnione od dostępności trenerów. Szkolenia standardowo odbywają się w godzinach od 09:00 do 16:00.
Szkolenia zdalne są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.

Opinie uczestników (3)

Szkolenia Powiązane

Powiązane Kategorie