Plan Szkolenia
Sekcja 1: Data Management w HDFS
- Różne formaty danych (JSON / Avro / Parquet)
- Schematy kompresji
- Maskowanie danych
- Laboratoria: Analiza różnych formatów danych; włączanie kompresji
Sekcja 2: Zaawansowane funkcje Pig
- Funkcje zdefiniowane przez użytkownika
- Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
- Ładowanie złożonych danych strukturalnych za pomocą Pig
- Dostrajanie funkcji Pig
- Laboratoria: zaawansowane skrypty dla świń, analizowanie złożonych typów danych
Sekcja 3: Zaawansowane Hive
- Funkcje zdefiniowane przez użytkownika
- Skompresowane tabele
- Hive Dostrajanie wydajności
- Laboratoria: tworzenie skompresowanych tabel, ocena formatów tabel i konfiguracji
Sekcja 4 : Zaawansowana HBase
- Zaawansowane modelowanie schematów
- Kompresja
- Zbiorcze pozyskiwanie danych
- Porównanie szerokiej / wysokiej tabeli
- HBase i Pig
- HBase i Hive
- Strojenie wydajności HBase
- Laboratoria: dostrajanie HBase; dostęp do danych HBase z Pig i Hive; używanie Phoenix do modelowania danych
Wymagania
- swobodnie posługiwać się Java językiem programowania (większość ćwiczeń programistycznych odbywa się w języku Java)
- wygoda w środowisku Linux (umiejętność poruszania się po Linux wierszu poleceń, edycja plików za pomocą vi / nano)
- praktyczna znajomość języka Hadoop.
Środowisko laboratoryjne
Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Studentom zostanie udostępniony działający klaster hadoop.
Studenci będą potrzebować
- klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty )
- przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox
Opinie uczestników (5)
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję
Koleżeńska komunikacja z osobami biorących udział w szkoleniu.
Andrzej Szewczuk - Izba Administracji Skarbowej w Lublinie
Szkolenie - Apache NiFi for Administrators
Książka wirtualna, która bardzo mi się podobała Nauczyciel był bardzo wyznawczy co do tematu oraz innych tematów, był bardzo miły i przyjazny Podobało mi się miejsce w Dubaju.
Safar Alqahtani - Elm Information Security
Szkolenie - Big Data Analytics in Health
Przetłumaczone przez sztuczną inteligencję