Plan Szkolenia

Sekcja 1: Wprowadzenie do Hadoop

  • Historia, koncepcje Hadoop
  • Ekosystem
  • Dystrybucje
  • Wysoko poziomowa architektura
  • Mity związane z Hadoop
  • Wyzywania Hadoop
  • Sprzęt / oprogramowanie
  • wstęp: pierwsze spojrzenie na Hadoop

Sekcja 2: HDFS

  • Projekt i architektura
  • Koncepcje (poziomowe skalowanie, replikacja, lokalizacja danych, świadomość rack’ów)
  • Demony: Namenode, Secondary namenode, Data node
  • Komunikacja / serca systemu
  • Integralność danych
  • Szlaban do odczytu / zapisu
  • Namenode High Availability (HA), Federacja
  • wstęp: interakcja z HDFS

Sekcja 3: MapReduce

  • Koncepcje i architektura
  • Demony (MRV1): jobtracker / tasktracker
  • Fazy: sterownik, mapper, shuffle/sort, reducer
  • MapReduce Wersja 1 i Wersja 2 (YARN)
  • Wewnętrzne mechanizmy MapReduce
  • Wprowadzenie do programu Java MapReduce
  • wstęp: uruchamianie przykładowego programu MapReduce

Sekcja 4: Pig

  • Pig vs Java MapReduce
  • Przepływ zadania Pig
  • Język Pig Latin
  • ETL za pomocą Pig
  • Transformacje & Łączenia
  • Funkcje zdefiniowane przez użytkownika (UDF)
  • wstęp: pisanie skryptów Pig do analizy danych

Sekcja 5: Hive

  • Architektura i projekt
  • Typy danych
  • Obsługa SQL w Hive
  • Tworzenie tabel Hive i zapytania
  • Partycje
  • Łączenia
  • Przetwarzanie tekstu
  • wstęp: różne ćwiczenia na przetwarzaniu danych za pomocą Hive

Sekcja 6: HBase

  • Koncepcje i architektura
  • HBase vs RDBMS vs Cassandra
  • Java API dla HBase
  • Czasowe dane w HBase
  • Projektowanie schematu
  • wstęp: interakcja z HBase za pomocą powłoki; programowanie w Java API HBase; ćwiczenie projektowania schematu

Wymagania

  • zrozumienie języka Java (większość ćwiczeń programistycznych jest w języku Java)
  • komfortowe działanie w środowisku Linux (umiejętność nawigowania po wierszu poleceń Linuksa, edytowania plików za pomocą vi/nano)

Środowisko laboratoryjne

Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na maszynach uczestników! Dostarczymy działający klaster Hadoop.

Uczestnicy będą potrzebować:

  • klienta SSH (Linuksa i Mac mają już wbudowane klienty SSH, dla Windows zalecany jest Putty)
  • przeglądarki do dostępu do klastra, zalecana Firefox
 28 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie