Plan Szkolenia
Sekcja 1: Data Management w HDFS
- Różne formaty danych (JSON / Avro / Parquet)
- Schematy kompresji
- Maskowanie danych
- Laboratoria: Analiza różnych formatów danych; włączanie kompresji
Sekcja 2: Zaawansowane funkcje Pig
- Funkcje zdefiniowane przez użytkownika
- Wprowadzenie do bibliotek Pig (ElephantBird / Data-Fu)
- Ładowanie złożonych danych strukturalnych za pomocą Pig
- Dostrajanie funkcji Pig
- Laboratoria: zaawansowane skrypty dla świń, analizowanie złożonych typów danych
Sekcja 3: Zaawansowane Hive
- Funkcje zdefiniowane przez użytkownika
- Skompresowane tabele
- Hive Dostrajanie wydajności
- Laboratoria: tworzenie skompresowanych tabel, ocena formatów tabel i konfiguracji
Sekcja 4 : Zaawansowana HBase
- Zaawansowane modelowanie schematów
- Kompresja
- Zbiorcze pozyskiwanie danych
- Porównanie szerokiej / wysokiej tabeli
- HBase i Pig
- HBase i Hive
- Strojenie wydajności HBase
- Laboratoria: dostrajanie HBase; dostęp do danych HBase z Pig i Hive; używanie Phoenix do modelowania danych
Wymagania
- swobodnie posługiwać się Java językiem programowania (większość ćwiczeń programistycznych odbywa się w języku Java)
- wygoda w środowisku Linux (umiejętność poruszania się po Linux wierszu poleceń, edycja plików za pomocą vi / nano)
- praktyczna znajomość języka Hadoop.
Środowisko laboratoryjne
Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Studentom zostanie udostępniony działający klaster hadoop.
Studenci będą potrzebować
- klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty )
- przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox
Opinie uczestników (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Szkolenie - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Szkolenie - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.
Simon Hahn
Szkolenie - Administrator Training for Apache Hadoop
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.