Hadoop For Administrators - Plan Szkolenia

Kod kursu

hadoopadm1

Czas trwania

21 godzin (zwykle 3 dni wliczając przerwy)

Wymagania

  • comfortable with basic Linux system administration
  • basic scripting skills

Knowledge of Hadoop and Distributed Computing is not required, but will be introduced and explained in the course.

Lab environment

Zero Install : There is no need to install hadoop software on students’ machines! A working hadoop cluster will be provided for students.

Students will need the following

Opis

Apache Hadoop to najpopularniejszy framework do przetwarzania Big Data na klastrach serwerów. W ciągu trzech (opcjonalnie czterech) dni uczestnicy dowiedzą się o korzyściach biznesowych i przypadkach użycia Hadoop i jego ekosystemu, jak zaplanować wdrożenie i rozwój klastra, jak zainstalować, utrzymywać, monitorować, rozwiązywać problemy i optymalizować Hadoop . Będą również ćwiczyć ładowanie danych zbiorczych klastra, zapoznać się z różnymi dystrybucjami Hadoop i przećwiczyć instalowanie i zarządzanie narzędziami ekosystemu Hadoop . Kurs kończy się dyskusją na temat zabezpieczenia klastra za pomocą Kerberos.

„… Materiały były bardzo dobrze przygotowane i dokładnie pokryte. Laboratorium było bardzo pomocne i dobrze zorganizowane ”
- Andrew Nguyen, główny inżynier ds. Integracji, Microsoft Online Advertising

Publiczność

Administratorzy Hadoop

Format

Wykłady i ćwiczenia praktyczne, przybliżona równowaga 60% wykładów, 40% laboratoriów.

Machine Translated

Plan Szkolenia

  • Introduction
    • Hadoop history, concepts
    • Ecosystem
    • Distributions
    • High level architecture
    • Hadoop myths
    • Hadoop challenges (hardware / software)
    • Labs: discuss your Big Data projects and problems
  • Planning and installation
    • Selecting software, Hadoop distributions
    • Sizing the cluster, planning for growth
    • Selecting hardware and network
    • Rack topology
    • Installation
    • Multi-tenancy
    • Directory structure, logs
    • Benchmarking
    • Labs: cluster install, run performance benchmarks
  • HDFS operations
    • Concepts (horizontal scaling, replication, data locality, rack awareness)
    • Nodes and daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Health monitoring
    • Command-line and browser-based administration
    • Adding storage, replacing defective drives
    • Labs: getting familiar with HDFS command lines
  • Data ingestion
    • Flume for logs and other data ingestion into HDFS
    • Sqoop for importing from SQL databases to HDFS, as well as exporting back to SQL
    • Hadoop data warehousing with Hive
    • Copying data between clusters (distcp)
    • Using S3 as complementary to HDFS
    • Data ingestion best practices and architectures
    • Labs: setting up and using Flume, the same for Sqoop
  • MapReduce operations and administration
    • Parallel computing before mapreduce: compare HPC vs Hadoop administration
    • MapReduce cluster loads
    • Nodes and Daemons (JobTracker, TaskTracker)
    • MapReduce UI walk through
    • Mapreduce configuration
    • Job config
    • Optimizing MapReduce
    • Fool-proofing MR: what to tell your programmers
    • Labs: running MapReduce examples
  • YARN: new architecture and new capabilities
    • YARN design goals and implementation architecture
    • New actors: ResourceManager, NodeManager, Application Master
    • Installing YARN
    • Job scheduling under YARN
    • Labs: investigate job scheduling
  • Advanced topics
    • Hardware monitoring
    • Cluster monitoring
    • Adding and removing servers, upgrading Hadoop
    • Backup, recovery and business continuity planning
    • Oozie job workflows
    • Hadoop high availability (HA)
    • Hadoop Federation
    • Securing your cluster with Kerberos
    • Labs: set up monitoring
  • Optional tracks
    • Cloudera Manager for cluster administration, monitoring, and routine tasks; installation, use. In this track, all exercises and labs are performed within the Cloudera distribution environment (CDH5)
    • Ambari for cluster administration, monitoring, and routine tasks; installation, use. In this track, all exercises and labs are performed within the Ambari cluster manager and Hortonworks Data Platform (HDP 2.0)

Opinie uczestników

★★★★★
★★★★★

Powiązane Kategorie

Kursy w promocyjnej cenie

Newsletter z promocjami

Zapisz się na nasz newsletter i otrzymuj informacje o aktualnych zniżkach na kursy otwarte.
Szanujemy Twoją prywatność, dlatego Twój e-mail będzie wykorzystywany jedynie w celu wysyłki naszego newslettera, nie będzie udostępniony ani sprzedany osobom trzecim.
W dowolnej chwili możesz zmienić swoje preferencje co do otrzymywanego newslettera bądź całkowicie się z niego wypisać.

Zaufali nam

is growing fast!

We are looking to expand our presence in Poland!

As a Business Development Manager you will:

  • expand business in Poland
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!