Bądźmy w kontakcie

Plan Szkolenia

  • Wprowadzenie
    • Historia i koncepcje Hadoop
    • Ekosystem
    • Dystrybucje
    • Architektura wysokiego poziomu
    • Mity dotyczące Hadoop
    • Wyzwania związane z Hadoop (sprzęt / oprogramowanie)
    • Laboratoria: omówienie projektów i problemów związanych z Big Data
  • Planowanie i instalacja
    • Wybór oprogramowania, dystrybucje Hadoop
    • Określanie rozmiaru klastra, planowanie rozwoju
    • Wybór sprzętu i sieci
    • Topologia racków
    • Instalacja
    • Wielodostępność
    • Struktura katalogów, logi
    • Benchmarking
    • Laboratoria: instalacja klastra, uruchamianie testów wydajnościowych
  • Operacje na HDFS
    • Koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość racków)
    • Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorowanie stanu zdrowia
    • Administracja z poziomu wiersza poleceń i przeglądarki
    • Dodawanie pamięci masowej, wymiana wadliwych dysków
    • Laboratoria: zapoznanie się z wierszem poleceń HDFS
  • Pozyskiwanie danych
    • Flume do pozyskiwania logów i innych danych do HDFS
    • Sqoop do importowania z baz danych SQL do HDFS oraz eksportowania z powrotem do SQL
    • Hurtownie danych Hadoop z Hive
    • Kopiowanie danych między klastrami (distcp)
    • Wykorzystanie S3 jako uzupełnienia HDFS
    • Najlepsze praktyki i architektury pozyskiwania danych
    • Laboratoria: konfiguracja i użycie Flume, to samo dla Sqoop
  • Operacje i administracja MapReduce
    • Obliczenia równoległe przed MapReduce: porównanie administracji HPC i Hadoop
    • Obciążenia klastra MapReduce
    • Węzły i demony (JobTracker, TaskTracker)
    • Przewodnik po interfejsie użytkownika MapReduce
    • Konfiguracja MapReduce
    • Konfiguracja zadań
    • Optymalizacja MapReduce
    • Zabezpieczenia MR: co powiedzieć programistom
    • Laboratoria: uruchamianie przykładów MapReduce
  • YARN: nowa architektura i nowe możliwości
    • Cele projektowe i architektura implementacyjna YARN
    • Nowi aktorzy: ResourceManager, NodeManager, Application Master
    • Instalacja YARN
    • Planowanie zadań w YARN
    • Laboratoria: badanie planowania zadań
  • Tematy zaawansowane
    • Monitorowanie sprzętu
    • Monitorowanie klastra
    • Dodawanie i usuwanie serwerów, aktualizacja Hadoop
    • Tworzenie kopii zapasowych, odzyskiwanie i planowanie ciągłości działania
    • Przepływy zadań Oozie
    • Wysoka dostępność Hadoop (HA)
    • Federacja Hadoop
    • Zabezpieczanie klastra za pomocą Kerberosa
    • Laboratoria: konfiguracja monitoringu
  • Ścieżki opcjonalne
    • Cloudera Manager do administracji klastrem, monitorowania i rutynowych zadań; instalacja, użycie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5)
    • Ambari do administracji klastrem, monitorowania i rutynowych zadań; instalacja, użycie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w menedżerze klastra Ambari i platformie Hortonworks Data Platform (HDP 2.0)

Wymagania

  • znajomość podstaw administracji systemem Linux
  • podstawowe umiejętności skryptowania

Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona podczas kursu.

Środowisko laboratoryjne

Zero Instalacji: Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Działający klaster Hadoop zostanie udostępniony studentom.

Studenci będą potrzebować następujących rzeczy

  • klienta SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty)
  • przeglądarki do dostępu do klastra. Zalecamy przeglądarkę Firefox z zainstalowanym rozszerzeniem FoxyProxy
 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie