Plan Szkolenia
- Wprowadzenie
- Hadoop historia, koncepcje
- Ekosystem
- Dystrybucje
- Architektura wysokiego poziomu
- Hadoop mity
- Hadoop wyzwania (sprzęt / oprogramowanie)
- Laboratoria: omów swoje Big Data projekty i problemy
- Planowanie i instalacja
- Wybór oprogramowania, Hadoop dystrybucje
- Dobór rozmiaru klastra, planowanie rozwoju
- Wybór sprzętu i sieci
- Topologia szafy
- Instalacja
- Multi-tenancy
- Struktura katalogów, dzienniki
- Analiza porównawcza
- Laboratoria: instalacja klastra, uruchamianie testów wydajności
- Operacje HDFS
- Koncepcje (skalowanie poziome, replikacja, lokalność danych, świadomość stelaża)
- Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorowanie kondycji
- Administracja z poziomu wiersza poleceń i przeglądarki
- Dodawanie pamięci masowej, wymiana uszkodzonych dysków
- Laboratoria: zapoznanie się z wierszami poleceń HDFS
- Pobieranie danych
- Flume do pozyskiwania logów i innych danych do HDFS
- Sqoop do importowania z SQL baz danych do HDFS, a także eksportowania z powrotem do SQL.
- Hurtownie danych Hadoop z Hive
- Kopiowanie danych między klastrami (distcp)
- Korzystanie z S3 jako uzupełnienie HDFS
- Najlepsze praktyki i architektury pozyskiwania danych
- Laboratoria: konfigurowanie i używanie Flume, to samo dla Sqoop
- Operacje i administracja MapReduce
- Obliczenia równoległe przed mapreduce: porównanie administracji HPC vs Hadoop
- Obciążenia klastra MapReduce
- Węzły i demony (JobTracker, TaskTracker)
- Przejście przez interfejs użytkownika MapReduce
- Konfiguracja mapreduce
- Konfiguracja zadań
- Optymalizacja MapReduce
- Odporność na błędy w MR: co powiedzieć programistom?
- Laboratoria: uruchamianie przykładów MapReduce
- YARN: nowa architektura i nowe możliwości
- Cele projektowe i architektura wdrożenia sieci YARN
- Nowi aktorzy: ResourceManager, NodeManager, Application Master
- Instalowanie sieci YARN
- Planowanie zadań w sieci YARN
- Laboratoria: badanie planowania zadań
- Tematy zaawansowane
- Monitorowanie sprzętu
- Monitorowanie klastra
- Dodawanie i usuwanie serwerów, aktualizacja Hadoop
- Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
- Przepływy pracy zadań Oozie
- Hadoop Wysoka dostępność (HA)
- Federacja Hadoop
- Zabezpieczanie klastra za pomocą protokołu Kerberos
- Laboratoria: konfiguracja monitorowania
- Ścieżki opcjonalne
- Cloudera Manager do administrowania klastrem, monitorowania i rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5).
- Ambari do administrowania klastrami, monitorowania i wykonywania rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w ramach menedżera klastra Ambari i platformy danych Hortonworks (HDP 2.0).
Wymagania
- komfort z podstawową Linux administracją systemem
- podstawowe umiejętności pisania skryptów
Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona w trakcie kursu.
Środowisko laboratoryjne
Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Uczniom zostanie udostępniony działający klaster hadoop.
Studenci będą potrzebować
- klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty)
- przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox z zainstalowanym rozszerzeniem FoxyProxy
Opinie uczestników (5)
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję
Koleżeńska komunikacja z osobami biorących udział w szkoleniu.
Andrzej Szewczuk - Izba Administracji Skarbowej w Lublinie
Szkolenie - Apache NiFi for Administrators
Książka wirtualna, która bardzo mi się podobała Nauczyciel był bardzo wyznawczy co do tematu oraz innych tematów, był bardzo miły i przyjazny Podobało mi się miejsce w Dubaju.
Safar Alqahtani - Elm Information Security
Szkolenie - Big Data Analytics in Health
Przetłumaczone przez sztuczną inteligencję