Plan Szkolenia

1: HDFS (17%)

  • Opis funkcji demonów HDFS
  • Opis normalnego działania klastra Apache Hadoop, zarówno w zakresie przechowywania danych, jak i ich przetwarzania.
  • Identyfikacja obecnych cech systemów obliczeniowych, które motywują powstanie systemów takich jak Apache Hadoop.
  • Klasyfikacja głównych celów projektowych HDFS
  • Identyfikacja odpowiedniego przypadku użycia dla HDFS Federation w danym scenariuszu
  • Identyfikacja komponentów i demonów klastra HDFS HA-Quorum
  • Analiza roli bezpieczeństwa HDFS (Kerberos)
  • Określenie najlepszego wyboru serializacji danych dla danego scenariusza
  • Opis ścieżek odczytu i zapisu plików
  • Identyfikacja poleceń do manipulowania plikami w powłoce systemu plików Hadoop

2: YARN i MapReduce wersja 2 (MRv2) (17%)

  • Zrozumienie, jak aktualizacja klastra z Hadoop 1 do Hadoop 2 wpływa na ustawienia klastra
  • Zrozumienie, jak wdrożyć MapReduce v2 (MRv2 / YARN), w tym wszystkie demony YARN
  • Zrozumienie podstawowej strategii projektowej MapReduce v2 (MRv2)
  • Określenie, jak YARN zarządza alokacją zasobów
  • Identyfikacja przepływu pracy zadania MapReduce działającego na YARN
  • Określenie, które pliki należy zmienić i jak, aby przeprowadzić migrację klastra z MapReduce wersji 1 (MRv1) do MapReduce wersji 2 (MRv2) działającego na YARN.

3: Planowanie klastra Hadoop (16%)

  • Główne punkty do rozważenia przy wyborze sprzętu i systemów operacyjnych do hostowania klastra Apache Hadoop.
  • Analiza wyborów dotyczących wyboru systemu operacyjnego
  • Zrozumienie dostrajania jądra i wymiany dyskowej
  • Identyfikacja odpowiedniej konfiguracji sprzętowej dla danego scenariusza i wzorca obciążenia
  • Określenie, które komponenty ekosystemu muszą być uruchomione w klastrze, aby spełnić SLA, w danym scenariuszu
  • Określenie rozmiaru klastra: w danym scenariuszu i częstotliwości wykonania, identyfikacja specyfikacji obciążenia, w tym CPU, pamięć, przechowywanie, I/O dysku
  • Określenie rozmiaru i konfiguracji dysku, w tym JBOD versus RAID, SAN, wirtualizacja oraz wymagania dotyczące rozmiaru dysku w klastrze
  • Topologie sieciowe: zrozumienie wykorzystania sieci w Hadoop (zarówno dla HDFS, jak i MapReduce) oraz propozycja lub identyfikacja kluczowych komponentów projektowych sieci dla danego scenariusza

4: Instalacja i administracja klastrem Hadoop (25%)

  • Identyfikacja, jak klaster poradzi sobie z awariami dysków i maszyn w danym scenariuszu
  • Analiza konfiguracji logowania i formatu pliku konfiguracyjnego logowania
  • Zrozumienie podstaw metryk Hadoop i monitorowania zdrowia klastra
  • Identyfikacja funkcji i celu dostępnych narzędzi do monitorowania klastra
  • Umiejętność zainstalowania wszystkich komponentów ekosystemu w CDH 5, w tym (ale nie ograniczając się do): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive i Pig
  • Identyfikacja funkcji i celu dostępnych narzędzi do zarządzania systemem plików Apache Hadoop

5: Zarządzanie zasobami (10%)

  • Zrozumienie ogólnych celów projektowych każdego z harmonogramów Hadoop
  • Określenie, jak harmonogram FIFO przydziela zasoby klastra w danym scenariuszu
  • Określenie, jak harmonogram Fair przydziela zasoby klastra pod YARN w danym scenariuszu
  • Określenie, jak harmonogram Capacity przydziela zasoby klastra w danym scenariuszu

6: Monitorowanie i logowanie (15%)

  • Zrozumienie funkcji i cech możliwości zbierania metryk Hadoop
  • Analiza interfejsów webowych NameNode i JobTracker
  • Zrozumienie, jak monitorować demony klastra
  • Identyfikacja i monitorowanie użycia CPU na węzłach głównych
  • Opis, jak monitorować wymianę i alokację pamięci na wszystkich węzłach
  • Identyfikacja, jak przeglądać i zarządzać plikami dzienników Hadoop
  • Interpretacja pliku dziennika

Wymagania

  • Podstawowe umiejętności administracji systemem Linux
  • Podstawowe umiejętności programowania
 35 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (3)

Propozycje terminów

Powiązane Kategorie