Unified Batch and Stream Processing with Apache Beam - Plan Szkolenia

Apache Beam to otwarty, zunifikowany model programowania do definiowania i wykonywania równoległych potoków przetwarzania danych. Jego siła tkwi w możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, przy czym wykonanie jest przeprowadzane przez jeden z obsługiwanych przez Beam back-endów przetwarzania rozproszonego: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow. Apache Beam jest przydatny do zadań ETL (Extract, Transform, and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych w bardziej pożądany format i ładowanie danych do nowego systemu.

W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować Apache Beam SDK w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zbioru danych na mniejsze fragmenty w celu niezależnego, równoległego przetwarzania.

Po zakończeniu tego szkolenia uczestnicy będą w stanie

Zainstalować i skonfigurować Apache Beam.
Wykorzystanie jednego modelu programowania do przetwarzania wsadowego i strumieniowego z poziomu aplikacji Java lub Python.
Wykonywanie potoków w wielu środowiskach.

Format kursu

Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna

Uwaga

Ten kurs będzie dostępny Scala w przyszłości. Prosimy o kontakt w celu ustalenia szczegółów.

Thank you for sending your enquiry! One of our team members will contact you shortly.

Thank you for sending your booking! One of our team members will contact you shortly.

Plan Szkolenia

Wstęp

Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm i Flink

Instalacja i konfiguracja Apache Beam

Przegląd Apache Beam funkcji i architektury

Model belki, zestawy SDK, prowadnice rurociągu belki
Zaplecze przetwarzania rozproszonego

Zrozumienie modelu Apache Beam Programming.

Sposób wykonania potoku

Uruchamianie przykładowego potoku

Przygotowanie potoku WordCount
Lokalne wykonanie Pipeline

Projektowanie rurociągu

Planowanie konstrukcji, wybór transformacji oraz określenie metod wejściowych i wyjściowych

Tworzenie rurociągu

Napisanie programu sterownika i zdefiniowanie potoku
Korzystanie z klas Apache Beam.
Zestawy danych, transformacje, wejścia/wyjścia, kodowanie danych itp.

Wykonanie rurociągu

Wykonywanie potoku lokalnie, na zdalnych komputerach i w chmurze publicznej
Wybór biegacza
Konfiguracje specyficzne dla biegacza

Testowanie i debugowanie Apache Beam

Używanie wskazówek dotyczących typów do emulacji pisania statycznego
Zarządzanie Python Zależnościami potoków

Przetwarzanie ograniczonych i nieograniczonych zbiorów danych

Okienkowanie i wyzwalacze

Spraw, aby Twoje rurociągi nadawały się do ponownego użycia i konserwacji

Utwórz nowe źródła danych i ujścia

Apache Beam API źródła i ujścia

Integracja Apache Beam z innymi Big Data systemami

Apache Hadoop, Apache Spark, Apache Kafka

Rozwiązywanie problemów

Podsumowanie i wnioski

Wymagania

Doświadczenie w programowaniu Python.
Doświadczenie z linią poleceń systemu Linux.

Publiczność

Deweloperzy

14 godzin

Powiązane Kategorie

This site in other countries/regions

Europe

Polska (Poland)

Österreich (Austria)

Schweiz (Switzerland)

Deutschland (Germany)

Magyarország (Hungary)

España (Spain)

Nederland (Netherlands)

România (Romania)

Sverige (Sweden)

Belgique (Belgium)

Asia Pacific

香港 (Hong Kong)

台灣 (Taiwan)

North America

México (Mexico)

South America

Brasil (Brazil)

Africa / Middle East

United Arab Emirates

Other sites

Human Resources

Training Materials

NobleProg Franchise

DaDesktop - Cloud Desktop