A Practical Introduction to Stream Processing - Plan Szkolenia
Stream Processing odnosi się do przetwarzania w czasie rzeczywistym "danych w ruchu", czyli wykonywania obliczeń na danych w trakcie ich odbierania. Takie dane są odczytywane jako ciągłe strumienie ze źródeł danych, takich jak zdarzenia z czujników, aktywność użytkowników witryn internetowych, transakcje finansowe, przeciągnięcia kart kredytowych, strumienie kliknięć itp. Struktury przetwarzania strumieniowego są w stanie odczytywać duże ilości przychodzących danych i niemal natychmiast dostarczać cennych informacji.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak skonfigurować i zintegrować różne Stream Processing frameworki z istniejącymi systemami przechowywania dużych zbiorów danych oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie różnych Stream Processing frameworków, takich jak Spark Streaming i Kafka Streaming.
- Zrozumienie i wybranie najbardziej odpowiedniego frameworka dla danego zadania.
- Przetwarzanie danych w sposób ciągły, współbieżny i rekord po rekordzie.
- Integracja Stream Processing rozwiązań z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Integracjanajbardziej odpowiedniej biblioteki przetwarzania strumieniowego z aplikacjami korporacyjnymi i mikrousługami.
Uczestnicy
- Programiści
- Architekci oprogramowania
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna
Uwagi
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Plan Szkolenia
Wstęp
- Przetwarzanie strumieniowe a przetwarzanie wsadowe
- Przetwarzanie strumieni zorientowane na analizę
Przegląd Ram i Programming Languages
- Spark Streaming (Scala)
- Przesyłanie strumieniowe Kafki (Java)
- Mrugnij
- Burza
- Porównanie cech i mocnych stron każdego frameworka
Przegląd źródeł danych
- Dane na żywo jako seria zdarzeń w czasie
- Źródła danych historycznych
Opcje wdrażania
- W chmurze (AWS itp.)
- Lokalnie (chmura prywatna itp.)
Pierwsze kroki
- Konfigurowanie środowiska programistycznego
- Instalacja i konfiguracja
- Ocena Twoich Data Analysis potrzeb
Obsługa platformy przesyłania strumieniowego
- Integracja struktury przesyłania strumieniowego z narzędziami Big Data.
- Zdarzenie Stream Processing (ESP) a złożone przetwarzanie zdarzeń (CEP)
- Transformacja danych wejściowych
- Sprawdzanie danych wyjściowych
- Integracja Stream Processing Framework z istniejącymi aplikacjami i Microservices
Rozwiązywanie problemów
Podsumowanie i wnioski
Wymagania
- Programming doświadczenie w dowolnym języku
- Zrozumienie koncepcji Big Data (Hadoop itp.)
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
A Practical Introduction to Stream Processing - Plan Szkolenia - Booking
A Practical Introduction to Stream Processing - Plan Szkolenia - Enquiry
A Practical Introduction to Stream Processing - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (1)
Wystarczająca praktyka, trener jest kompetentny
Chris Tan
Szkolenie - A Practical Introduction to Stream Processing
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Uczestnicy
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Apache Flink Fundamentals
28 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza zasady i podejścia stojące za rozproszonym przetwarzaniem danych strumieniowych i wsadowych oraz prowadzi uczestników przez proces tworzenia aplikacji do strumieniowego przesyłania danych w czasie rzeczywistym w Apache Flink.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko do tworzenia aplikacji do analizy danych.
- Zrozumieć, jak działa biblioteka przetwarzania grafów Apache Flink (Gelly).
- Pakować, wykonywać i monitorować oparte na Flink, odporne na błędy aplikacje do strumieniowego przesyłania danych.
- Zarządzanie różnorodnymi obciążeniami.
- Wykonywanie zaawansowanych analiz.
- Konfigurowanie wielowęzłowego klastra Flink.
- Mierzyć i optymalizować wydajność.
- Integracja Flink z różnymi Big Data systemami.
- Porównywanie możliwości Flink z możliwościami innych platform przetwarzania dużych zbiorów danych.
Apache NiFi for Administrators
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak wdrożyć i zarządzać Apache NiFi w środowisku laboratoryjnym na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apachi NiFi.
- Pozyskiwać, przekształcać i zarządzać danymi z różnych, rozproszonych źródeł danych, w tym baz danych i dużych jezior danych.
- Automatyzować przepływy danych.
- Włączać analitykę strumieniową.
- Stosowanie różnych podejść do pozyskiwania danych.
- Przekształcanie danych Big Data w informacje biznesowe.
Apache NiFi for Developers
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy poznają podstawy programowania opartego na przepływie, opracowując szereg rozszerzeń demonstracyjnych, komponentów i procesorów przy użyciu Apache NiFi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę NiFi i koncepcje przepływu danych.
- Rozwijać rozszerzenia przy użyciu NiFi i interfejsów API innych firm.
- Rozwijać własny procesor Apache Nifi.
- Pozyskiwać i przetwarzać dane w czasie rzeczywistym z różnych i nietypowych formatów plików i źródeł danych.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczynamy od szerokiego przeglądu i zawężamy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zrozumieć, w jaki sposób dane wykresu są utrwalane i przemierzane.
- Wybrać najlepszą platformę dla danego zadania (od grafowych baz danych po ramy przetwarzania wsadowego).
- Zaimplementować Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Postrzeganie rzeczywistych problemów związanych z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Stream Processing with Kafka Streams
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo uczestnicy dowiedzą się, jak zintegrować Kafka Streams z zestawem przykładowych Java aplikacji, które przekazują dane do i z Apache Kafka w celu przetwarzania strumieniowego.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Rozumieć funkcje i zalety Kafka Streams w porównaniu z innymi ramami przetwarzania strumieniowego
- Przetwarzać dane strumieniowe bezpośrednio w ramach klastru Kafka
- Napisać aplikację lub mikrousługę Java lub Scala, która integruje się z Kafka i Kafka Streams
- Napisać zwięzły kod, który przekształca tematy wejściowe Kafka w tematy wyjściowe Kafka
- Budować, pakować i wdrażać aplikację
Uczestnicy
- Developers
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i intensywne praktyczne ćwiczenia
Uwagi
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, proszę skontaktować się z nami w celu ustalenia szczegółów
Unified Batch and Stream Processing with Apache Beam
14 godzinApache Beam to otwarty, zunifikowany model programowania do definiowania i wykonywania równoległych potoków przetwarzania danych. Jego moc polega na możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, przy czym wykonanie jest przeprowadzane przez jeden z obsługiwanych przez Beam back-endów przetwarzania rozproszonego: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow. Rozwiązanie Apache Beam jest przydatne w zadaniach ETL (Extract, Transform, and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych w bardziej pożądany format i ładowanie danych do nowego systemu.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować Apache Beam SDK w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zbioru danych na mniejsze fragmenty w celu niezależnego, równoległego przetwarzania.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Apache Beam.
- Używać pojedynczego modelu programowania do przeprowadzania zarówno przetwarzania wsadowego, jak i strumieniowego z poziomu aplikacji Java lub Python.
- Wykonywać potoki w wielu środowiskach.
Format kursu
- Wykład częściowy, dyskusja częściowa, ćwiczenia i ciężka praktyka praktyczna
Uwaga
- Ten kurs będzie dostępny Scala w przyszłości. Prosimy o kontakt w celu ustalenia szczegółów.
Building Kafka Solutions with Confluent
14 godzinTo prowadzone przez instruktora szkolenie na żywo (w trybie online lub na miejscu) jest przeznaczone dla inżynierów, którzy chcą korzystać z Confluent (dystrybucji Kafka) do budowania i zarządzania platformą przetwarzania danych w czasie rzeczywistym dla swoich aplikacji.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalować i konfigurować platformę Confluent.
- Korzystać z narzędzi i usług zarządzania Confluent do łatwiejszego uruchamiania Kafka.
- Przechowywać i przetwarzać nadchodzące dane strumieniowe.
- Optymalizować i zarządzać klasterami Kafka.
- Zabezpieczać strumienie danych.
Format kursu
- Interaktywne wykłady i dyskusje.
- Wiele ćwiczeń i praktyki.
- Przykładowa implementacja w środowisku live-lab.
Opcje dostosowywania kursu
- Ten kurs oparty jest na wersji open source Confluent: Confluent Open Source.
- Aby poprosić o dostosowane szkolenie dla tego kursu, skontaktuj się z nami w celu umówienia.
Confluent KSQL
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą wdrożyć przetwarzanie strumieniowe Apache Kafka bez pisania kodu.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Confluent KSQL.
- Skonfigurować potok przetwarzania strumieniowego przy użyciu tylko SQL poleceń (bez kodowania Java lub Python).
- Przeprowadzać filtrowanie danych, transformacje, agregacje, łączenia, okienkowanie i sesjonowanie w całości w SQL.
- Projektowanie i wdrażanie interaktywnych, ciągłych zapytań dla strumieniowego ETL i analiz w czasie rzeczywistym.
Apache Ignite for Administrators
7 godzinFormat kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku laboratoryjnym na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami.
Apache Kafka for Python Programmers
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, naukowców zajmujących się danymi i programistów, którzy chcą korzystać z funkcji Apache Kafka w strumieniowym przesyłaniu danych z Python.
Pod koniec tego szkolenia uczestnicy będą mogli używać Apache Kafka do monitorowania i zarządzania warunkami w ciągłych strumieniach danych przy użyciu Python programowania.
Spark Streaming with Python and Kafka
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, naukowców zajmujących się danymi i programistów, którzy chcą korzystać z funkcji Spark Streaming w przetwarzaniu i analizowaniu danych w czasie rzeczywistym.
Pod koniec tego szkolenia uczestnicy będą mogli używać Spark Streaming do przetwarzania strumieni danych na żywo do użytku w bazach danych, systemach plików i pulpitach nawigacyjnych na żywo.