Plan Szkolenia

Sekcja 1: Wprowadzenie do Hadoop

  • Historia i koncepcje Hadoop
  • Ekosystem
  • Dystrybucje
  • Architektura wysokiego poziomu
  • Mity związane z Hadoop
  • Wyzwania Hadoop
  • Oprogramowanie / Sprzęt
  • Laboratorium: Pierwsze spojrzenie na Hadoop

Sekcja 2: HDFS

  • Projektowanie i architektura
  • Koncepcje (skalowanie poziome, replikacja, lokalność danych, świadomość stacji)
  • Demony: Namenode, Secondary namenode, Data node
  • Komunikacja / bity serca
  • Sprawdzenie integralności danych
  • Ścieżka odczytu / zapisu
  • Namenode High Availability (HA), Federacja
  • Laboratoria: Interakcje z HDFS

Sekcja 3: Redukcja map

  • koncepcje i architektura
  • demony (MRV1): jobtracker / tasktracker
  • fazy: sterownik, mapowanie, tasowanie/sortowanie, reduktor
  • Map Reduce w wersji 1 i wersji 2 (YARN)
  • Elementy wewnętrzne Map Reduce
  • Wprowadzenie do programu Java Map Reduce
  • Laboratoria: Uruchamianie przykładowego programu MapReduce

Sekcja 4: Pig

  • pig vs java map reduce
  • przepływ zadań pig
  • język łaciński pig
  • ETL z Pig
  • Transformacje i łączenia
  • Funkcje definiowane przez użytkownika (UDF)
  • Laboratoria: pisanie skryptów Pig do analizy danych

Sekcja 5: Hive

  • architektura i projektowanie
  • typy danych
  • Wsparcie SQL w Hive
  • Tworzenie Hive tabel i zapytań
  • partycje
  • złączenia
  • przetwarzanie tekstu
  • Laboratoria: różne laboratoria dotyczące przetwarzania danych za pomocą Hive

Sekcja 6: HBase

  • Koncepcje i architektura
  • HBase vs Bazy danych relacyjne vs Cassandra
  • API HBase Java
  • Dane czasowe szeregowe w HBase
  • Projektowanie schematu
  • Laboratoria: Interakcje z HBase za pomocą powłoki; programowanie w API HBase Java; ćwiczenie projektowania schematu

Wymagania

  • swobodnie posługiwać się Java językiem programowania (większość ćwiczeń programistycznych odbywa się w języku Java)
  • wygoda w środowisku Linux (umiejętność poruszania się po Linux wierszu poleceń, edycja plików za pomocą vi / nano)

Środowisko laboratoryjne

Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na maszynach studentów! Zostanie udostępniony studentom działający klaster Hadoop.

Studenci będą potrzebować

  • klienta SSH (Linux i Mac mają już wbudowane klienty SSH, dla systemu Windows zaleca się użycie Putty)
  • przeglądarki do dostępu do klastera, zalecana Firefox
 28 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie