Plan Szkolenia

Sekcja 1: Zarządzanie danymi w HDFS

  • Różne formaty danych (JSON / Avro / Parquet)
  • Schematy kompresji
  • Masowanie danych
  • Ćwiczenia : analiza różnych formatów danych; włączanie kompresji

Sekcja 2: Zaawansowane Pig

  • Funkcje definiowane przez użytkownika
  • Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
  • Ładowanie złożonych danych strukturyzowanych za pomocą Pig
  • Optymalizacja Pig
  • Ćwiczenia : zaawansowane skrypty Pig, analiza złożonych typów danych

Sekcja 3: Zaawansowane Hive

  • Funkcje definiowane przez użytkownika
  • Kompresowane tabele
  • Optymalizacja wydajności Hive
  • Ćwiczenia : tworzenie skompresowanych tabel, ocena formatów i konfiguracji tabel

Sekcja 4: Zaawansowane HBase

  • Zaawansowane modelowanie schematów
  • Kompresja
  • Bulk Data Ingest (wczytywanie masowych danych)
  • Porównanie szerokich i wąskich tabel
  • HBase i Pig
  • HBase i Hive
  • Optymalizacja wydajności HBase
  • Ćwiczenia : optymalizacja HBase; dostęp do danych HBase z Pig & Hive; użycie Phoenixa do modelowania danych

Wymagania

  • znanie języka Java (większość ćwiczeń programistycznych jest w Javie)
  • znajomość środowiska Linux (umiejętność nawigowania w konsoli Linux, edytowania plików za pomocą vi / nano)
  • podstawowe wiedzy na temat Hadoop.

Środowisko laboratoryjne

Brak instalacji: Nie ma potrzeby instalowania oprogramowania Hadoop na maszynach uczestników! Udostępniony zostanie działający klaster Hadoop.

Uczestnicy będą musieli posiadać następujące elementy

 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie