Hadoop and Spark for Administrators - Plan Szkolenia

Apache Hadoop jest popularnym frameworkiem do przetwarzania dużych zbiorów danych na wielu komputerach.

Szkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla administratorów systemów, którzy chcą dowiedzieć się, jak skonfigurować, wdrożyć i zarządzać klastrami Hadoop w swojej organizacji.

Po zakończeniu tego szkolenia uczestnicy będą w stanie

Instalowanie i konfigurowanie Apache Hadoop.
Zrozumienie czterech głównych komponentów ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
Wykorzystanie rozproszonego systemu plików Hadoop (HDFS) do skalowania klastra do setek lub tysięcy węzłów;
Konfigurowanie HDFS do działania jako silnik pamięci masowej dla lokalnych wdrożeń Spark.
Konfiguracja Spark w celu uzyskania dostępu do alternatywnych rozwiązań pamięci masowej, takich jak Amazon S3 i systemy baz danych NoSQL, takie jak Redis, Elasticsearch, Couchbase, Aerospike itp.
Wykonywanie zadań administracyjnych, takich jak udostępnianie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.

Format kursu

Interaktywny wykład i dyskusja.
Dużo ćwiczeń i praktyki.
Praktyczne wdrożenie w środowisku live-lab.

Opcje dostosowywania kursu

Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.

Thank you for sending your enquiry! One of our team members will contact you shortly.

Thank you for sending your booking! One of our team members will contact you shortly.

Plan Szkolenia

Wprowadzenie

Wprowadzenie do rozwiązań Cloud Computing i Big Data
Przegląd funkcji i architektury Apache Hadoop

Konfiguracja Hadoop

Planowanie klastra Hadoop (lokalnego, w chmurze itp.)
Wybór systemu operacyjnego i dystrybucji Hadoop
Udostępnianie zasobów (sprzęt, sieć itp.)
Pobieranie i instalowanie oprogramowania
Dobór rozmiaru klastra pod kątem elastyczności

Praca z HDFS

Zrozumienie Hadoop rozproszonego systemu plików (HDFS)
Przegląd referencji poleceń HDFS
Dostęp do HDFS
Wykonywanie podstawowych operacji na plikach w HDFS
Używanie S3 jako uzupełnienia HDFS

Przegląd MapReduce

Zrozumienie przepływu danych w MapReduce Framework
Mapowanie, tasowanie, sortowanie i redukcja
Demo: Obliczanie najwyższych wynagrodzeń

Praca z YARN

Zrozumienie zarządzania zasobami w Hadoop
Praca z ResourceManager, NodeManager, Application Master
Planowanie zadań w YARN
Planowanie dla dużej liczby węzłów i klastrów
Demo: Planowanie zadań

Integracja Hadoop z aplikacją Spark

Konfigurowanie pamięci masowej dla Sparka (HDFS, Amazon, S3, NoSQL itp.)
Zrozumienie odpornych rozproszonych zbiorów danych (RDD)
Tworzenie RDD
Wdrażanie transformacji RDD
Demo: Wdrażanie programu wyszukiwania tekstów dla tytułów filmów

Zarządzanie klastrem Hadoop

Monitorowanie Hadoop
Zabezpieczanie klastra Hadoop
Dodawanie i usuwanie węzłów
Uruchamianie testu porównawczego wydajności
Dostrajanie klastra Hadoop w celu optymalizacji wydajności
Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
Zapewnianie wysokiej dostępności (HA)

Aktualizacja i migracja klastra Hadoop

Ocena wymagań dotyczących obciążenia
Aktualizacja Hadoop
Przejście z wersji lokalnej do chmury i odwrotnie
Odzyskiwanie danych po awarii

Rozwiązywanie problemów

Podsumowanie i wnioski

Wymagania

Doświadczenie w administracji systemami
Doświadczenie z Linux wierszem poleceń
Zrozumienie koncepcji big data

Publiczność

Administratorzy systemu
Bazy danych

35 godzin

Opinie uczestników (5)

A lot of practical examples, different ways to approach the same problem, and sometimes not so obvious tricks how to improve the current solution

Rafał - Nordea

Szkolenie - Apache Spark MLlib

I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.

Aurelia-Adriana - Allianz Services Romania

Szkolenie - Python and Spark for Big Data (PySpark)

Trainer's preparation & organization, and quality of materials provided on github.

Mateusz Rek - MicroStrategy Poland Sp. z o.o.

Szkolenie - Impala for Business Intelligence

I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.

ian reif - Franchise Tax Board

Szkolenie - Data Analysis with Hive/HiveQL

This is one of the best hands-on with exercises programming courses I have ever taken.

Hadoop and Spark for Administrators - Plan Szkolenia

Plan Szkolenia

Wymagania

Opinie uczestników (5)

Rafał - Nordea

Szkolenie - Apache Spark MLlib

Aurelia-Adriana - Allianz Services Romania

Szkolenie - Python and Spark for Big Data (PySpark)

Mateusz Rek - MicroStrategy Poland Sp. z o.o.

Szkolenie - Impala for Business Intelligence

ian reif - Franchise Tax Board

Szkolenie - Data Analysis with Hive/HiveQL

Laura Kahn

Szkolenie - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

Powiązane Kategorie

This site in other countries/regions

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Hadoop and Spark for Administrators - Plan Szkolenia

Plan Szkolenia

Wymagania

Opinie uczestników (5)

Rafał - Nordea

Szkolenie - Apache Spark MLlib

Aurelia-Adriana - Allianz Services Romania

Szkolenie - Python and Spark for Big Data (PySpark)

Mateusz Rek - MicroStrategy Poland Sp. z o.o.

Szkolenie - Impala for Business Intelligence

ian reif - Franchise Tax Board

Szkolenie - Data Analysis with Hive/HiveQL

Laura Kahn

Szkolenie - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

Szkolenia Powiązane

Python and Spark for Big Data (PySpark)

Introduction to Graph Computing

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

Apache Spark MLlib

Hortonworks Data Platform (HDP) for Administrators

Apache Ambari: Efficiently Manage Hadoop Clusters

Impala for Business Intelligence

Data Analysis with Hive/HiveQL

Big Data Analytics in Health

A Practical Introduction to Stream Processing

Magellan: Geospatial Analytics on Spark

Apache Spark for .NET Developers

SMACK Stack for Data Science

Apache Spark Fundamentals

Powiązane Kategorie

Hadoop

Apache Spark

This site in other countries/regions

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites