Apache Beam jest otwartym, zunifikowanym modelem programowania do definiowania i wykonywania równoległych potoków przetwarzania danych Jego moc polega na możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, a wykonywanie jest wykonywane przez jeden z obsługiwanych procesorów rozproszonych Beam: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow Apache Beam jest przydatny do zadań ETL (Extract, Transform and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych do bardziej pożądanego formatu i ładowanie danych do nowego systemu W tym instruktażowym szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować pakiety SDK Apache Beam w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zestawu danych na mniejsze porcje w celu niezależnego, równoległego przetwarzania Pod koniec tego szkolenia uczestnicy będą mogli: Zainstaluj i skonfiguruj Apache Beam Użyj jednego modelu programistycznego, aby przeprowadzić przetwarzanie wsadowe i strumieniowe z aplikacji Java lub Python Wykonuj potoki w wielu środowiskach Publiczność Deweloperzy Format kursu Wykład częściowy, dyskusja częściowa, ćwiczenia i ciężka praktyka handson Uwaga Ten kurs będzie dostępny w przyszłości w Scali Prosimy o kontakt w celu ustalenia szczegółów .
Machine Translated
Introduction
- Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink
Installing and Configuring Apache Beam
Overview of Apache Beam Features and Architecture
- Beam Model, SDKs, Beam Pipeline Runners
- Distributed processing back-ends
Understanding the Apache Beam Programming Model
- How a pipeline is executed
Running a sample pipeline
- Preparing a WordCount pipeline
- Executing the Pipeline locally
Designing a Pipeline
- Planning the structure, choosing the transforms, and determining the input and output methods
Creating the Pipeline
- Writing the driver program and defining the pipeline
- Using Apache Beam classes
- Data sets, transforms, I/O, data encoding, etc.
Executing the Pipeline
- Executing the pipeline locally, on remote machines, and on a public cloud
- Choosing a runner
- Runner-specific configurations
Testing and Debugging Apache Beam
- Using type hints to emulate static typing
- Managing Python Pipeline Dependencies
Processing Bounded and Unbounded Datasets
Making Your Pipelines Reusable and Maintainable
Create New Data Sources and Sinks
- Apache Beam Source and Sink API
Integrating Apache Beam with other Big Data Systems
- Apache Hadoop, Apache Spark, Apache Kafka
Troubleshooting
Summary and Conclusion