Plan Szkolenia
Sekcja 1: Data Management w HDFS
- Różne formaty danych (JSON / Avro / Parquet)
- Schematy kompresji
- Maskowanie danych
- Ćwiczenia praktyczne: analizowanie różnych formatów danych; włączanie kompresji
Sekcja 2: Zaawansowany Pig
- Funkcje zdefiniowane przez użytkownika
- Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
- Ładowanie skomplikowanych struktur danych za pomocą Pig
- Optymalizacja Pig
- Ćwiczenia praktyczne: zaawansowane skryptowanie Pig, analizowanie złożonych typów danych
Sekcja 3: Zaawansowany Hive
- Funkcje zdefiniowane przez użytkownika
- Kompresowane tabele
- Optymalizacja wydajności Hive
- Ćwiczenia praktyczne: tworzenie kompresowanych tabel, ocena formatów tabel i konfiguracji
Sekcja 4: Zaawansowany HBase
- Zaawansowane modelowanie schematów
- Kompresja
- Wprowadzanie dużych ilości danych
- Porównanie szerokich tabel i wysokich tabel
- HBase i Pig
- HBase i Hive
- Optymalizacja wydajności HBase
- Ćwiczenia praktyczne: optymalizacja HBase; dostęp do danych HBase z Pig i Hive; używanie Phoenix do modelowania danych
Wymagania
- znajomy z językiem programowania Java (w większości ćwiczeń programistycznych używany jest język java)
- znajomy z środowiskiem Linux (umiejętność nawigacji w wierszu polecenia Linux, edytowanie plików za pomocą vi / nano)
- podstawowa znajomość Hadoop.
środowisko laboratoryjne
Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na maszynach studentów! Dla studentów zostanie dostarczony działający klaster hadoop.
Studenci będą potrzebowali następujących
Opinie uczestników (5)
Przykłady w czasie rzeczywistym
Ahmet Bolat - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
To have it from the beginning.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
Przetłumaczone przez sztuczną inteligencję
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję