Plan Szkolenia

Wstęp

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm i Flink

Instalacja i konfiguracja Apache Beam

Przegląd Apache Beam funkcji i architektury

  • Model belki, zestawy SDK, prowadnice rurociągu belki
  • Zaplecze przetwarzania rozproszonego

Zrozumienie modelu Apache Beam Programming.

  • Sposób wykonania potoku

Uruchamianie przykładowego potoku

  • Przygotowanie potoku WordCount
  • Lokalne wykonanie Pipeline

Projektowanie rurociągu

  • Planowanie konstrukcji, wybór transformacji oraz określenie metod wejściowych i wyjściowych

Tworzenie rurociągu

  • Napisanie programu sterownika i zdefiniowanie potoku
  • Korzystanie z klas Apache Beam.
  • Zestawy danych, transformacje, wejścia/wyjścia, kodowanie danych itp.

Wykonanie rurociągu

  • Wykonywanie potoku lokalnie, na zdalnych komputerach i w chmurze publicznej
  • Wybór biegacza
  • Konfiguracje specyficzne dla biegacza

Testowanie i debugowanie Apache Beam

  • Używanie wskazówek dotyczących typów do emulacji pisania statycznego
  • Zarządzanie Python Zależnościami potoków

Przetwarzanie ograniczonych i nieograniczonych zbiorów danych

  • Okienkowanie i wyzwalacze

Spraw, aby Twoje rurociągi nadawały się do ponownego użycia i konserwacji

Utwórz nowe źródła danych i ujścia

  • Apache Beam API źródła i ujścia

Integracja Apache Beam z innymi Big Data systemami

  • Apache Hadoop, Apache Spark, Apache Kafka

Rozwiązywanie problemów

Podsumowanie i wnioski

Wymagania

  • Doświadczenie w programowaniu Python.
  • Doświadczenie z linią poleceń systemu Linux.

Publiczność

  • Deweloperzy
 14 godzin

Liczba uczestników



Cena za uczestnika

Powiązane Kategorie