Plan Szkolenia

Sekcja 1: Data Management w HDFS

  • Różne formaty danych (JSON / Avro / Parquet)
  • Schematy kompresji
  • Maskowanie danych
  • Ćwiczenia praktyczne: analizowanie różnych formatów danych; włączanie kompresji

Sekcja 2: Zaawansowany Pig

  • Funkcje zdefiniowane przez użytkownika
  • Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
  • Ładowanie skomplikowanych struktur danych za pomocą Pig
  • Optymalizacja Pig
  • Ćwiczenia praktyczne: zaawansowane skryptowanie Pig, analizowanie złożonych typów danych

Sekcja 3: Zaawansowany Hive

  • Funkcje zdefiniowane przez użytkownika
  • Kompresowane tabele
  • Optymalizacja wydajności Hive
  • Ćwiczenia praktyczne: tworzenie kompresowanych tabel, ocena formatów tabel i konfiguracji

Sekcja 4: Zaawansowany HBase

  • Zaawansowane modelowanie schematów
  • Kompresja
  • Wprowadzanie dużych ilości danych
  • Porównanie szerokich tabel i wysokich tabel
  • HBase i Pig
  • HBase i Hive
  • Optymalizacja wydajności HBase
  • Ćwiczenia praktyczne: optymalizacja HBase; dostęp do danych HBase z Pig i Hive; używanie Phoenix do modelowania danych

Wymagania

  • znajomy z językiem programowania Java (w większości ćwiczeń programistycznych używany jest język java)
  • znajomy z środowiskiem Linux (umiejętność nawigacji w wierszu polecenia Linux, edytowanie plików za pomocą vi / nano)
  • podstawowa znajomość Hadoop.

środowisko laboratoryjne

Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na maszynach studentów! Dla studentów zostanie dostarczony działający klaster hadoop.

Studenci będą potrzebowali następujących

 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie