Plan Szkolenia

  • Wprowadzenie
    • Hadoop historia, koncepcje
    • Ekosystem
    • Dystrybucje
    • Architektura wysokiego poziomu
    • Hadoop mity
    • Hadoop wyzwania (sprzęt / oprogramowanie)
    • Laboratoria: omów swoje Big Data projekty i problemy
  • Planowanie i instalacja
    • Wybór oprogramowania, Hadoop dystrybucje
    • Dobór rozmiaru klastra, planowanie rozwoju
    • Wybór sprzętu i sieci
    • Topologia szafy
    • Instalacja
    • Multi-tenancy
    • Struktura katalogów, dzienniki
    • Analiza porównawcza
    • Laboratoria: instalacja klastra, uruchamianie testów wydajności
  • Operacje HDFS
    • Koncepcje (skalowanie poziome, replikacja, lokalność danych, świadomość stelaża)
    • Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorowanie kondycji
    • Administracja z poziomu wiersza poleceń i przeglądarki
    • Dodawanie pamięci masowej, wymiana uszkodzonych dysków
    • Laboratoria: zapoznanie się z wierszami poleceń HDFS
  • Pobieranie danych
    • Flume do pozyskiwania logów i innych danych do HDFS
    • Sqoop do importowania z SQL baz danych do HDFS, a także eksportowania z powrotem do SQL.
    • Hurtownie danych Hadoop z Hive
    • Kopiowanie danych między klastrami (distcp)
    • Korzystanie z S3 jako uzupełnienie HDFS
    • Najlepsze praktyki i architektury pozyskiwania danych
    • Laboratoria: konfigurowanie i używanie Flume, to samo dla Sqoop
  • Operacje i administracja MapReduce
    • Obliczenia równoległe przed mapreduce: porównanie administracji HPC vs Hadoop
    • Obciążenia klastra MapReduce
    • Węzły i demony (JobTracker, TaskTracker)
    • Przejście przez interfejs użytkownika MapReduce
    • Konfiguracja mapreduce
    • Konfiguracja zadań
    • Optymalizacja MapReduce
    • Odporność na błędy w MR: co powiedzieć programistom?
    • Laboratoria: uruchamianie przykładów MapReduce
  • YARN: nowa architektura i nowe możliwości
    • Cele projektowe i architektura wdrożenia sieci YARN
    • Nowi aktorzy: ResourceManager, NodeManager, Application Master
    • Instalowanie sieci YARN
    • Planowanie zadań w sieci YARN
    • Laboratoria: badanie planowania zadań
  • Tematy zaawansowane
    • Monitorowanie sprzętu
    • Monitorowanie klastra
    • Dodawanie i usuwanie serwerów, aktualizacja Hadoop
    • Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
    • Przepływy pracy zadań Oozie
    • Hadoop Wysoka dostępność (HA)
    • Federacja Hadoop
    • Zabezpieczanie klastra za pomocą protokołu Kerberos
    • Laboratoria: konfiguracja monitorowania
  • Ścieżki opcjonalne
    • Cloudera Manager do administrowania klastrem, monitorowania i rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5).
    • Ambari do administrowania klastrami, monitorowania i wykonywania rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w ramach menedżera klastra Ambari i platformy danych Hortonworks (HDP 2.0).

Wymagania

  • komfort z podstawową Linux administracją systemem
  • podstawowe umiejętności pisania skryptów

Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona w trakcie kursu.

Środowisko laboratoryjne

Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Uczniom zostanie udostępniony działający klaster hadoop.

Studenci będą potrzebować

  • klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty)
  • przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox z zainstalowanym rozszerzeniem FoxyProxy
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie