Plan Szkolenia

Sekcja 1: Data Management w HDFS

  • Różne formaty danych (JSON / Avro / Parquet)
  • Schematy kompresji
  • Maskowanie danych
  • Laboratoria: Analiza różnych formatów danych; włączanie kompresji

Sekcja 2: Zaawansowane funkcje Pig

  • Funkcje zdefiniowane przez użytkownika
  • Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
  • Ładowanie złożonych danych strukturalnych za pomocą Pig
  • Dostrajanie funkcji Pig
  • Laboratoria: zaawansowane skrypty dla świń, analizowanie złożonych typów danych

Sekcja 3: Zaawansowane Hive

  • Funkcje zdefiniowane przez użytkownika
  • Skompresowane tabele
  • Hive Dostrajanie wydajności
  • Laboratoria: tworzenie skompresowanych tabel, ocena formatów tabel i konfiguracji

Sekcja 4 : Zaawansowana HBase

  • Zaawansowane modelowanie schematów
  • Kompresja
  • Zbiorcze pozyskiwanie danych
  • Porównanie szerokiej / wysokiej tabeli
  • HBase i Pig
  • HBase i Hive
  • Strojenie wydajności HBase
  • Laboratoria: dostrajanie HBase; dostęp do danych HBase z Pig i Hive; używanie Phoenix do modelowania danych

Wymagania

  • swobodnie posługiwać się Java językiem programowania (większość ćwiczeń programistycznych odbywa się w języku Java)
  • wygoda w środowisku Linux (umiejętność poruszania się po Linux wierszu poleceń, edycja plików za pomocą vi / nano)
  • praktyczna znajomość języka Hadoop.

Środowisko laboratoryjne

Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Studentom zostanie udostępniony działający klaster hadoop.

Studenci będą potrzebować

  • klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty )
  • przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie