Plan Szkolenia

  • Wprowadzenie
    • Hadoop historia, pojęcia
    • Ekosystem
    • Dystrybucje
    • Architektura wysokiego poziomu
    • Hadoop mity
    • Hadoop wyzwania (sprzęt / oprogramowanie)
    • Laboratoria: omówienie waszych projektów Big Data i problemów
  • Planowanie i instalacja
    • Wybór oprogramowania, dystrybucji Hadoop
    • Wyznaczanie rozmiaru klasyru, planowanie wzrostu
    • Wybór sprzętu i sieci
    • Topologia racka
    • Instalacja
    • Wieloosobowość
    • Struktura katalogów, logi
    • Benchmarking
    • Laboratoria: instalacja klasru, uruchomienie benchmarków wydajnościowych
  • Operacje HDFS
    • Pojęcia (skalowanie poziome, replikacja, lokalizacja danych, świadomość racka)
    • Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorowanie stanu
    • Administracja wierszem polecenia i przeglądarką
    • Dodawanie pamięci, wymiana uszkodzonych dysków
    • Laboratoria: zapoznanie się z wierszem polecenia HDFS
  • Pobieranie danych
    • Flume dla logów i innych danych do HDFS
    • Sqoop do importowania z baz danych SQL do HDFS oraz eksportowania z powrotem do SQL
    • Hadoop magazynowanie danych z Hive
    • Kopiowanie danych między klastrami (distcp)
    • Używanie S3 jako uzupełnienia do HDFS
    • Najlepsze praktyki i architektury pobierania danych
    • Laboratoria: konfiguracja i używanie Flume, to samo dla Sqoop
  • Operacje i administracja MapReduce
    • Obliczenia równoległe przed mapreduce: porównanie HPC z administracją Hadoop
    • Obciążenie klasru MapReduce
    • Węzły i demony (JobTracker, TaskTracker)
    • Przejście przez UI MapReduce
    • Konfiguracja Mapreduce
    • Konfiguracja zadania
    • Optymalizacja MapReduce
    • Zapobieganie błędom MR: co powinniśmy powiedzieć naszym programistom
    • Laboratoria: uruchamianie przykładów MapReduce
  • YARN: nowa architektura i nowe możliwości
    • Cele projektowe i architektura implementacji YARN
    • Nowi aktorzy: ResourceManager, NodeManager, Application Master
    • Instalowanie YARN
    • Harmonogram zadań pod YARN
    • Laboratoria: badanie harmonogramu zadań
  • Zaawansowane tematy
    • Monitorowanie sprzętu
    • Monitorowanie klasru
    • Dodawanie i usuwanie serwerów, aktualizowanie Hadoop
    • Planowanie kopii zapasowych, odzyskiwania i ciągłości działania
    • Praktyki pracy Oozie
    • Hadoop wysoka dostępność (HA)
    • Hadoop Federacja
    • Bezpieczne zarządzanie klastrami z Kerberos
    • Laboratoria: konfiguracja monitorowania
  • Opcjonalne ścieżki
    • Cloudera Manager do administrowania klastrami, monitorowania i rutynowych zadań; instalacja, używanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5)
    • Ambari do administrowania klastrami, monitorowania i rutynowych zadań; instalacja, używanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku zarządzania klastrami Ambari i Hortonworks Data Platform (HDP 2.0)

Wymagania

  • Komfortowo z zarządzaniem podstawowym systemem Linux
  • Podstawowe umiejętności skryptowania

Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona w trakcie kursu.

Środowisko laboratoryjne

Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na maszynach studentów! Uczestnikom zostanie udostępniony działający klastr hadoop.

Uczestnicy będą potrzebować:

  • Klienta SSH (Linux i Mac mają wbudowane klienty ssh, dla systemu Windows polecam Putty)
  • Przeglądarki, aby uzyskać dostęp do klastru. Polecamy przeglądarkę Firefox z rozszerzeniem FoxyProxy
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie