Plan Szkolenia
- Wprowadzenie
- Hadoop historia, pojęcia
- Ekosystem
- Dystrybucje
- Architektura wysokiego poziomu
- Hadoop mity
- Hadoop wyzwania (sprzęt / oprogramowanie)
- Laboratoria: omówienie waszych projektów Big Data i problemów
- Planowanie i instalacja
- Wybór oprogramowania, dystrybucji Hadoop
- Wyznaczanie rozmiaru klasyru, planowanie wzrostu
- Wybór sprzętu i sieci
- Topologia racka
- Instalacja
- Wieloosobowość
- Struktura katalogów, logi
- Benchmarking
- Laboratoria: instalacja klasru, uruchomienie benchmarków wydajnościowych
- Operacje HDFS
- Pojęcia (skalowanie poziome, replikacja, lokalizacja danych, świadomość racka)
- Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorowanie stanu
- Administracja wierszem polecenia i przeglądarką
- Dodawanie pamięci, wymiana uszkodzonych dysków
- Laboratoria: zapoznanie się z wierszem polecenia HDFS
- Pobieranie danych
- Flume dla logów i innych danych do HDFS
- Sqoop do importowania z baz danych SQL do HDFS oraz eksportowania z powrotem do SQL
- Hadoop magazynowanie danych z Hive
- Kopiowanie danych między klastrami (distcp)
- Używanie S3 jako uzupełnienia do HDFS
- Najlepsze praktyki i architektury pobierania danych
- Laboratoria: konfiguracja i używanie Flume, to samo dla Sqoop
- Operacje i administracja MapReduce
- Obliczenia równoległe przed mapreduce: porównanie HPC z administracją Hadoop
- Obciążenie klasru MapReduce
- Węzły i demony (JobTracker, TaskTracker)
- Przejście przez UI MapReduce
- Konfiguracja Mapreduce
- Konfiguracja zadania
- Optymalizacja MapReduce
- Zapobieganie błędom MR: co powinniśmy powiedzieć naszym programistom
- Laboratoria: uruchamianie przykładów MapReduce
- YARN: nowa architektura i nowe możliwości
- Cele projektowe i architektura implementacji YARN
- Nowi aktorzy: ResourceManager, NodeManager, Application Master
- Instalowanie YARN
- Harmonogram zadań pod YARN
- Laboratoria: badanie harmonogramu zadań
- Zaawansowane tematy
- Monitorowanie sprzętu
- Monitorowanie klasru
- Dodawanie i usuwanie serwerów, aktualizowanie Hadoop
- Planowanie kopii zapasowych, odzyskiwania i ciągłości działania
- Praktyki pracy Oozie
- Hadoop wysoka dostępność (HA)
- Hadoop Federacja
- Bezpieczne zarządzanie klastrami z Kerberos
- Laboratoria: konfiguracja monitorowania
- Opcjonalne ścieżki
- Cloudera Manager do administrowania klastrami, monitorowania i rutynowych zadań; instalacja, używanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5)
- Ambari do administrowania klastrami, monitorowania i rutynowych zadań; instalacja, używanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku zarządzania klastrami Ambari i Hortonworks Data Platform (HDP 2.0)
Wymagania
- Komfortowo z zarządzaniem podstawowym systemem Linux
- Podstawowe umiejętności skryptowania
Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona w trakcie kursu.
Środowisko laboratoryjne
Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na maszynach studentów! Uczestnikom zostanie udostępniony działający klastr hadoop.
Uczestnicy będą potrzebować:
- Klienta SSH (Linux i Mac mają wbudowane klienty ssh, dla systemu Windows polecam Putty)
- Przeglądarki, aby uzyskać dostęp do klastru. Polecamy przeglądarkę Firefox z rozszerzeniem FoxyProxy
Opinie uczestników (5)
Przykłady w czasie rzeczywistym
Ahmet Bolat - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
To have it from the beginning.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
Przetłumaczone przez sztuczną inteligencję
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję