Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
-
Wprowadzenie
- Historia i koncepcje Hadoop
- Ekosystem
- Dystrybucje
- Architektura wysokiego poziomu
- Mity dotyczące Hadoop
- Wyzwania związane z Hadoop (sprzęt / oprogramowanie)
- Laboratoria: omówienie projektów i problemów związanych z Big Data
-
Planowanie i instalacja
- Wybór oprogramowania, dystrybucje Hadoop
- Określanie rozmiaru klastra, planowanie rozwoju
- Wybór sprzętu i sieci
- Topologia racków
- Instalacja
- Wielodostępność
- Struktura katalogów, logi
- Benchmarking
- Laboratoria: instalacja klastra, uruchamianie testów wydajnościowych
-
Operacje na HDFS
- Koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość racków)
- Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorowanie stanu zdrowia
- Administracja z poziomu wiersza poleceń i przeglądarki
- Dodawanie pamięci masowej, wymiana wadliwych dysków
- Laboratoria: zapoznanie się z wierszem poleceń HDFS
-
Pozyskiwanie danych
- Flume do pozyskiwania logów i innych danych do HDFS
- Sqoop do importowania z baz danych SQL do HDFS oraz eksportowania z powrotem do SQL
- Hurtownie danych Hadoop z Hive
- Kopiowanie danych między klastrami (distcp)
- Wykorzystanie S3 jako uzupełnienia HDFS
- Najlepsze praktyki i architektury pozyskiwania danych
- Laboratoria: konfiguracja i użycie Flume, to samo dla Sqoop
-
Operacje i administracja MapReduce
- Obliczenia równoległe przed MapReduce: porównanie administracji HPC i Hadoop
- Obciążenia klastra MapReduce
- Węzły i demony (JobTracker, TaskTracker)
- Przewodnik po interfejsie użytkownika MapReduce
- Konfiguracja MapReduce
- Konfiguracja zadań
- Optymalizacja MapReduce
- Zabezpieczenia MR: co powiedzieć programistom
- Laboratoria: uruchamianie przykładów MapReduce
-
YARN: nowa architektura i nowe możliwości
- Cele projektowe i architektura implementacyjna YARN
- Nowi aktorzy: ResourceManager, NodeManager, Application Master
- Instalacja YARN
- Planowanie zadań w YARN
- Laboratoria: badanie planowania zadań
-
Tematy zaawansowane
- Monitorowanie sprzętu
- Monitorowanie klastra
- Dodawanie i usuwanie serwerów, aktualizacja Hadoop
- Tworzenie kopii zapasowych, odzyskiwanie i planowanie ciągłości działania
- Przepływy zadań Oozie
- Wysoka dostępność Hadoop (HA)
- Federacja Hadoop
- Zabezpieczanie klastra za pomocą Kerberosa
- Laboratoria: konfiguracja monitoringu
-
Ścieżki opcjonalne
- Cloudera Manager do administracji klastrem, monitorowania i rutynowych zadań; instalacja, użycie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5)
- Ambari do administracji klastrem, monitorowania i rutynowych zadań; instalacja, użycie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w menedżerze klastra Ambari i platformie Hortonworks Data Platform (HDP 2.0)
Wymagania
- znajomość podstaw administracji systemem Linux
- podstawowe umiejętności skryptowania
Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona podczas kursu.
Środowisko laboratoryjne
Zero Instalacji: Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Działający klaster Hadoop zostanie udostępniony studentom.
Studenci będą potrzebować następujących rzeczy
- klienta SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty)
- przeglądarki do dostępu do klastra. Zalecamy przeglądarkę Firefox z zainstalowanym rozszerzeniem FoxyProxy
21 godzin
Opinie uczestników (1)
Ćwiczenia praktyczne. Kurs powinien trwać 5 dni, ale 3 dni pomogły rozstrzygnąć wiele pytań, które miałem związanymi z pracą w NiFi.
James - BHG Financial
Szkolenie - Apache NiFi for Administrators
Przetłumaczone przez sztuczną inteligencję