Plan Szkolenia
Wprowadzenie
- Wprowadzenie do rozwiązań Cloud Computing i Big Data
- Przegląd funkcji i architektury Apache Hadoop
Konfiguracja Hadoop
- Planowanie klastra Hadoop (lokalnego, w chmurze itp.)
- Wybór systemu operacyjnego i dystrybucji Hadoop
- Udostępnianie zasobów (sprzęt, sieć itp.)
- Pobieranie i instalowanie oprogramowania
- Dobór rozmiaru klastra pod kątem elastyczności
Praca z HDFS
- Zrozumienie Hadoop rozproszonego systemu plików (HDFS)
- Przegląd referencji poleceń HDFS
- Dostęp do HDFS
- Wykonywanie podstawowych operacji na plikach w HDFS
- Używanie S3 jako uzupełnienia HDFS
Przegląd MapReduce
- Zrozumienie przepływu danych w MapReduce Framework
- Mapowanie, tasowanie, sortowanie i redukcja
- Demo: Obliczanie najwyższych wynagrodzeń
Praca z YARN
- Zrozumienie zarządzania zasobami w Hadoop
- Praca z ResourceManager, NodeManager, Application Master
- Planowanie zadań w YARN
- Planowanie dla dużej liczby węzłów i klastrów
- Demo: Planowanie zadań
Integracja Hadoop z aplikacją Spark
- Konfigurowanie pamięci masowej dla Sparka (HDFS, Amazon, S3, NoSQL itp.)
- Zrozumienie odpornych rozproszonych zbiorów danych (RDD)
- Tworzenie RDD
- Wdrażanie transformacji RDD
- Demo: Wdrażanie programu wyszukiwania tekstów dla tytułów filmów
Zarządzanie klastrem Hadoop
- Monitorowanie Hadoop
- Zabezpieczanie klastra Hadoop
- Dodawanie i usuwanie węzłów
- Uruchamianie testu porównawczego wydajności
- Dostrajanie klastra Hadoop w celu optymalizacji wydajności
- Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
- Zapewnianie wysokiej dostępności (HA)
Aktualizacja i migracja klastra Hadoop
- Ocena wymagań dotyczących obciążenia
- Aktualizacja Hadoop
- Przejście z wersji lokalnej do chmury i odwrotnie
- Odzyskiwanie danych po awarii
Rozwiązywanie problemów
Podsumowanie i wnioski
Wymagania
- Doświadczenie w administracji systemami
- Doświadczenie z Linux wierszem poleceń
- Zrozumienie koncepcji big data
Uczestnicy
- Administratorzy systemu
- Bazy danych
Opinie uczestników (5)
Dużo praktycznych przykładów, różne sposoby podejścia do tego samego problemu i czasem nie tak oczywiste triki, jak poprawić obecne rozwiązanie
Rafal - Nordea
Szkolenie - Apache Spark MLlib
Przetłumaczone przez sztuczną inteligencję
Doświadczenie praktyczne trenera, nie koloryzowanie omawianego rozwiązania ale też nie wprowadzanie negatywnego nacechowania. Mam poczucie, że trener przygotowuje mnie do realnego i praktycznego wykorzystania narzędzia - tych cennych szczegółów nie ma zazwyczaj w książkach.
Krzysztof Miodek - Krajowy Rejestr Dlugow Biuro Informacji Gospodarczej S.A.
Szkolenie - Apache Spark Fundamentals
bardzo interaktywny...
Richard Langford
Szkolenie - SMACK Stack for Data Science
Przetłumaczone przez sztuczną inteligencję
Wystarczająca praktyka, trener jest kompetentny
Chris Tan
Szkolenie - A Practical Introduction to Stream Processing
Przetłumaczone przez sztuczną inteligencję
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję