Plan Szkolenia

Sekcja 1: Zarządzanie danymi w HDFS

  • Różne formaty danych (JSON / Avro / Parquet)
  • Schematy kompresji
  • Maskowanie danych
  • Warsztaty: Analiza różnych formatów danych; włączanie kompresji

Sekcja 2: Zaawansowany Pig

  • Funkcje zdefiniowane przez użytkownika
  • Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
  • Ładowanie złożonych danych strukturalnych przy użyciu Pig
  • Dostrajanie Pig
  • Warsztaty: zaawansowane skrypty Pig, parsowanie złożonych typów danych

Sekcja 3: Zaawansowany Hive

  • Funkcje zdefiniowane przez użytkownika
  • Tabele skompresowane
  • Dostrajanie wydajności Hive
  • Warsztaty: tworzenie skompresowanych tabel, ocena formatów tabel i konfiguracji

Sekcja 4: Zaawansowany HBase

  • Zaawansowane modelowanie schematów
  • Kompresja
  • Masowe ładowanie danych
  • Porównanie tabel szerokich i wysokich
  • HBase i Pig
  • HBase i Hive
  • Dostrajanie wydajności HBase
  • Warsztaty: dostrajanie HBase; dostęp do danych HBase z Pig & Hive; modelowanie danych przy użyciu Phoenix

Wymagania

  • znajomość języka programowania Java (większość ćwiczeń programistycznych jest w Javie)
  • swoboda w środowisku Linux (umiejętność nawigacji w linii poleceń Linux, edycji plików przy użyciu vi/nano)
  • podstawowa wiedza na temat Hadoop.

Środowisko laboratoryjne

Zero Instalacji: Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach uczestników! Działający klaster Hadoop zostanie udostępniony studentom.

Uczestnicy będą potrzebować następujących rzeczy:

 21 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie