Plan Szkolenia
Sekcja 1: Wprowadzenie do Hadoop
- Historia i koncepcje Hadoop
- Ekosystem
- Dystrybucje
- Architektura wysokiego poziomu
- Mity związane z Hadoop
- Wyzwania Hadoop
- Oprogramowanie / Sprzęt
- Laboratorium: Pierwsze spojrzenie na Hadoop
Sekcja 2: HDFS
- Projektowanie i architektura
- Koncepcje (skalowanie poziome, replikacja, lokalność danych, świadomość stacji)
- Demony: Namenode, Secondary namenode, Data node
- Komunikacja / bity serca
- Sprawdzenie integralności danych
- Ścieżka odczytu / zapisu
- Namenode High Availability (HA), Federacja
- Laboratoria: Interakcje z HDFS
Sekcja 3: Redukcja map
- koncepcje i architektura
- demony (MRV1): jobtracker / tasktracker
- fazy: sterownik, mapowanie, tasowanie/sortowanie, reduktor
- Map Reduce w wersji 1 i wersji 2 (YARN)
- Elementy wewnętrzne Map Reduce
- Wprowadzenie do programu Java Map Reduce
- Laboratoria: Uruchamianie przykładowego programu MapReduce
Sekcja 4: Pig
- pig vs java map reduce
- przepływ zadań pig
- język łaciński pig
- ETL z Pig
- Transformacje i łączenia
- Funkcje definiowane przez użytkownika (UDF)
- Laboratoria: pisanie skryptów Pig do analizy danych
Sekcja 5: Hive
- architektura i projektowanie
- typy danych
- Wsparcie SQL w Hive
- Tworzenie Hive tabel i zapytań
- partycje
- złączenia
- przetwarzanie tekstu
- Laboratoria: różne laboratoria dotyczące przetwarzania danych za pomocą Hive
Sekcja 6: HBase
- Koncepcje i architektura
- HBase vs Bazy danych relacyjne vs Cassandra
- API HBase Java
- Dane czasowe szeregowe w HBase
- Projektowanie schematu
- Laboratoria: Interakcje z HBase za pomocą powłoki; programowanie w API HBase Java; ćwiczenie projektowania schematu
Wymagania
- swobodnie posługiwać się Java językiem programowania (większość ćwiczeń programistycznych odbywa się w języku Java)
- wygoda w środowisku Linux (umiejętność poruszania się po Linux wierszu poleceń, edycja plików za pomocą vi / nano)
Środowisko laboratoryjne
Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na maszynach studentów! Zostanie udostępniony studentom działający klaster Hadoop.
Studenci będą potrzebować
- klienta SSH (Linux i Mac mają już wbudowane klienty SSH, dla systemu Windows zaleca się użycie Putty)
- przeglądarki do dostępu do klastera, zalecana Firefox
Opinie uczestników (5)
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję
Koleżeńska komunikacja z osobami biorących udział w szkoleniu.
Andrzej Szewczuk - Izba Administracji Skarbowej w Lublinie
Szkolenie - Apache NiFi for Administrators
Książka wirtualna, która bardzo mi się podobała Nauczyciel był bardzo wyznawczy co do tematu oraz innych tematów, był bardzo miły i przyjazny Podobało mi się miejsce w Dubaju.
Safar Alqahtani - Elm Information Security
Szkolenie - Big Data Analytics in Health
Przetłumaczone przez sztuczną inteligencję