Plan Szkolenia

Sekcja 1: Wprowadzenie do Hadoop

  • Historia Hadoop, koncepcje
  • ekosystem
  • dystrybucje
  • architektura wysokiego poziomu
  • mity o Hadoop
  • wyzwania Hadoop
  • sprzęt / oprogramowanie
  • laboratorium : pierwsze spojrzenie na Hadoop

Sekcja 2: HDFS

  • Projekt i architektura
  • koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość racków)
  • Daemony : Namenode, Secondary namenode, Data node
  • komunikacja / sygnały życiowe
  • integralność danych
  • ścieżka odczytu / zapisu
  • Wysoka dostępność (HA) Namenode, Federacja
  • laboratoria : Interakcja z HDFS

Sekcja 3 : Map Reduce

  • koncepcje i architektura
  • daemony (MRV1) : jobtracker / tasktracker
  • fazy : sterownik, mapper, shuffle/sort, reducer
  • Map Reduce Wersja 1 i Wersja 2 (YARN)
  • Wewnętrzne mechanizmy Map Reduce
  • Wprowadzenie do programu Map Reduce w Javie
  • laboratoria : Uruchomienie przykładowego programu MapReduce

Sekcja 4 : Pig

  • Pig vs Java Map Reduce
  • przebieg pracy w Pig
  • język Pig Latin
  • ETL z Pig
  • Transformacje i łączenia
  • Funkcje zdefiniowane przez użytkownika (UDF)
  • laboratoria : pisanie skryptów Pig do analizy danych

Sekcja 5: Hive

  • architektura i projekt
  • typy danych
  • wsparcie SQL w Hive
  • Tworzenie tabel i zapytań w Hive
  • partycje
  • łączenia
  • przetwarzanie tekstu
  • laboratoria : różne ćwiczenia dotyczące przetwarzania danych w Hive

Sekcja 6: HBase

  • koncepcje i architektura
  • HBase vs RDBMS vs Cassandra
  • API HBase w Javie
  • Dane szeregów czasowych w HBase
  • projektowanie schematów
  • laboratoria : Interakcja z HBase za pomocą powłoki; programowanie w API HBase w Javie; Ćwiczenie projektowania schematów

Wymagania

  • znajomość języka programowania Java (większość ćwiczeń programistycznych jest w Javie)
  • umiejętność poruszania się w środowisku Linux (nawigacja w linii poleceń, edycja plików za pomocą vi / nano)

Środowisko laboratoryjne

Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Działający klaster Hadoop zostanie udostępniony studentom.

Studenci będą potrzebować następujących rzeczy

  • klienta SSH (Linux i Mac już mają klientów ssh, dla Windows zalecany jest Putty)
  • przeglądarki do dostępu do klastra, zalecany Firefox
 28 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie