Plan Szkolenia
Sekcja 1: Wprowadzenie do Hadoop
- Historia, koncepcje Hadoop
- Ekosystem
- Dystrybucje
- Wysoko poziomowa architektura
- Mity związane z Hadoop
- Wyzywania Hadoop
- Sprzęt / oprogramowanie
- wstęp: pierwsze spojrzenie na Hadoop
Sekcja 2: HDFS
- Projekt i architektura
- Koncepcje (poziomowe skalowanie, replikacja, lokalizacja danych, świadomość rack’ów)
- Demony: Namenode, Secondary namenode, Data node
- Komunikacja / serca systemu
- Integralność danych
- Szlaban do odczytu / zapisu
- Namenode High Availability (HA), Federacja
- wstęp: interakcja z HDFS
Sekcja 3: MapReduce
- Koncepcje i architektura
- Demony (MRV1): jobtracker / tasktracker
- Fazy: sterownik, mapper, shuffle/sort, reducer
- MapReduce Wersja 1 i Wersja 2 (YARN)
- Wewnętrzne mechanizmy MapReduce
- Wprowadzenie do programu Java MapReduce
- wstęp: uruchamianie przykładowego programu MapReduce
Sekcja 4: Pig
- Pig vs Java MapReduce
- Przepływ zadania Pig
- Język Pig Latin
- ETL za pomocą Pig
- Transformacje & Łączenia
- Funkcje zdefiniowane przez użytkownika (UDF)
- wstęp: pisanie skryptów Pig do analizy danych
Sekcja 5: Hive
- Architektura i projekt
- Typy danych
- Obsługa SQL w Hive
- Tworzenie tabel Hive i zapytania
- Partycje
- Łączenia
- Przetwarzanie tekstu
- wstęp: różne ćwiczenia na przetwarzaniu danych za pomocą Hive
Sekcja 6: HBase
- Koncepcje i architektura
- HBase vs RDBMS vs Cassandra
- Java API dla HBase
- Czasowe dane w HBase
- Projektowanie schematu
- wstęp: interakcja z HBase za pomocą powłoki; programowanie w Java API HBase; ćwiczenie projektowania schematu
Wymagania
- zrozumienie języka Java (większość ćwiczeń programistycznych jest w języku Java)
- komfortowe działanie w środowisku Linux (umiejętność nawigowania po wierszu poleceń Linuksa, edytowania plików za pomocą vi/nano)
Środowisko laboratoryjne
Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na maszynach uczestników! Dostarczymy działający klaster Hadoop.
Uczestnicy będą potrzebować:
- klienta SSH (Linuksa i Mac mają już wbudowane klienty SSH, dla Windows zalecany jest Putty)
- przeglądarki do dostępu do klastra, zalecana Firefox
Opinie uczestników (5)
Przykłady w czasie rzeczywistym
Ahmet Bolat - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
To have it from the beginning.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
Przetłumaczone przez sztuczną inteligencję
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję
Koleżeńska komunikacja z osobami biorących udział w szkoleniu.