Plan Szkolenia
Wprowadzenie
- Wprowadzenie do rozwiązań Cloud Computing i Big Data
- Przegląd funkcji i architektury Apache Hadoop
Konfiguracja Hadoop
- Planowanie klastra Hadoop (lokalnego, w chmurze itp.)
- Wybór systemu operacyjnego i dystrybucji Hadoop
- Udostępnianie zasobów (sprzęt, sieć itp.)
- Pobieranie i instalowanie oprogramowania
- Dobór rozmiaru klastra pod kątem elastyczności
Praca z HDFS
- Zrozumienie Hadoop rozproszonego systemu plików (HDFS)
- Przegląd referencji poleceń HDFS
- Dostęp do HDFS
- Wykonywanie podstawowych operacji na plikach w HDFS
- Używanie S3 jako uzupełnienia HDFS
Przegląd MapReduce
- Zrozumienie przepływu danych w MapReduce Framework
- Mapowanie, tasowanie, sortowanie i redukcja
- Demo: Obliczanie najwyższych wynagrodzeń
Praca z YARN
- Zrozumienie zarządzania zasobami w Hadoop
- Praca z ResourceManager, NodeManager, Application Master
- Planowanie zadań w YARN
- Planowanie dla dużej liczby węzłów i klastrów
- Demo: Planowanie zadań
Integracja Hadoop z aplikacją Spark
- Konfigurowanie pamięci masowej dla Sparka (HDFS, Amazon, S3, NoSQL itp.)
- Zrozumienie odpornych rozproszonych zbiorów danych (RDD)
- Tworzenie RDD
- Wdrażanie transformacji RDD
- Demo: Wdrażanie programu wyszukiwania tekstów dla tytułów filmów
Zarządzanie klastrem Hadoop
- Monitorowanie Hadoop
- Zabezpieczanie klastra Hadoop
- Dodawanie i usuwanie węzłów
- Uruchamianie testu porównawczego wydajności
- Dostrajanie klastra Hadoop w celu optymalizacji wydajności
- Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
- Zapewnianie wysokiej dostępności (HA)
Aktualizacja i migracja klastra Hadoop
- Ocena wymagań dotyczących obciążenia
- Aktualizacja Hadoop
- Przejście z wersji lokalnej do chmury i odwrotnie
- Odzyskiwanie danych po awarii
Rozwiązywanie problemów
Podsumowanie i wnioski
Wymagania
- Doświadczenie w administracji systemami
- Doświadczenie z Linux wierszem poleceń
- Zrozumienie koncepcji big data
Publiczność
- Administratorzy systemu
- Bazy danych
Opinie uczestników (5)
A lot of practical examples, different ways to approach the same problem, and sometimes not so obvious tricks how to improve the current solution
Rafał - Nordea
Szkolenie - Apache Spark MLlib
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Szkolenie - Python and Spark for Big Data (PySpark)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Szkolenie - Data Analysis with Hive/HiveQL
This is one of the best hands-on with exercises programming courses I have ever taken.