Data Streaming and Real Time Data Processing - Plan Szkolenia
Course Overview
This course provides a practical and structured introduction to building real time data streaming systems. It covers core concepts, architecture patterns, and industry tools used to process continuous data at scale. Participants will learn how to design, implement, and optimize streaming pipelines using modern frameworks. The course progresses from foundational ideas to hands on applications, enabling learners to confidently build production ready real time solutions.
Format of Training
• Instructor led sessions with guided explanations
• Concept walkthroughs with real world examples
• Hands on demonstrations and coding exercises
• Progressive labs aligned with daily topics
• Interactive discussions and Q and A
Course Objectives
• Understand real time data streaming concepts and system architecture
• Differentiate between batch and streaming data processing models
• Design scalable and fault tolerant streaming pipelines
• Work with distributed streaming tools and frameworks
• Apply event time processing, windowing, and stateful operations
Build and optimize real time data solutions for business use cases
Plan Szkolenia
Course Outline Day 1
• Introduction to data streaming concepts
• Batch vs real time processing fundamentals
• Event driven architecture basics
• Common use cases in industry
• Overview of streaming ecosystem
Day 2
• Streaming architecture design patterns
• Fundamentals of distributed messaging systems
• Producers and consumers
• Topics, partitions, and data flow
• Data ingestion strategies
Day 3
• Stream processing concepts and frameworks
• Event time vs processing time
• Windowing techniques and use cases
• Stateful stream processing
• Fault tolerance and checkpointing basics
Day 4
• Data transformation in streaming pipelines
• ETL and ELT in real time systems
• Schema management and evolution
• Stream joins and enrichment
• Introduction to cloud based streaming services
Day 5
• Monitoring and observability in streaming systems
• Security and access control basics
• Performance tuning and optimization
• End to end pipeline design review
• Real world use cases such as fraud detection and IoT processing
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Data Streaming and Real Time Data Processing - Plan Szkolenia - Rezerwacja
Data Streaming and Real Time Data Processing - Plan Szkolenia - Zapytanie
Data Streaming and Real Time Data Processing - Zapytanie o Konsultacje
Opinie uczestników (1)
Ćwiczenia praktyczne. Kurs powinien trwać 5 dni, ale 3 dni pomogły rozstrzygnąć wiele pytań, które miałem związanymi z pracą w NiFi.
James - BHG Financial
Szkolenie - Apache NiFi for Administrators
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Administrator Training for Apache Hadoop
35 godzinGrupa docelowa:
Kurs jest przeznaczony dla specjalistów IT poszukujących rozwiązania do przechowywania i przetwarzania dużych zbiorów danych w środowisku systemów rozproszonych.
Cel:
Pogłębienie wiedzy na temat administracji klastrem Hadoop.
Analiza dużych danych z wykorzystaniem Google Colab i Apache Spark
14 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do średnio zaawansowanych naukowców zajmujących się danymi oraz inżynierów, którzy chcą wykorzystać Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować środowisko do pracy z dużymi danymi przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Integrować Apache Spark z narzędziami chmurowymi.
Analiza Danych Dużych Objętości w Zdrowiu
21 godzinAnaliza danych dużych objętości obejmuje proces badania dużych ilości różnorodnych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych użytecznych informacji.
Branża zdrowia generuje ogromne ilości złożonych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy danych dużych objętości w danych zdrowotnych stwarza ogromny potencjał w uzyskiwaniu informacji mających na celu poprawę jakości opieki zdrowotnej. Jednak ogrom tych zbiorów danych stanowi duże wyzwanie w analizach i praktycznych zastosowaniach w środowisku klinicznym.
Podczas tego szkolenia prowadzonego przez instruktora (zdalnie), uczestnicy nauczą się, jak przeprowadzać analizę danych dużych objętości w dziedzinie zdrowia, przechodząc przez serię praktycznych ćwiczeń w laboratorium.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować narzędzia do analizy danych dużych objętości, takie jak Hadoop MapReduce i Spark
- Zrozumieć charakterystykę danych medycznych
- Zastosować techniki danych dużych objętości do pracy z danymi medycznymi
- Poznać systemy i algorytmy danych dużych objętości w kontekście zastosowań w zdrowiu
Grupa docelowa
- Programiści
- Analitycy danych
Format kursu
- Część wykładowa, część dyskusyjna, ćwiczenia i intensywna praktyka.
Uwaga
- Aby zamówić szkolenie dostosowane do potrzeb, prosimy o kontakt w celu uzgodnienia szczegółów.
Hadoop dla Administratorów
21 godzinApache Hadoop to najpopularniejsze framework do przetwarzania Big Data na klastrach serwerów. W tym trzydniowym (opcjonalnie czterodniowym) kursie uczestnicy dowiedzą się, jakie korzyści biznesowe i przypadki użycia oferuje Hadoop oraz jego ekosystem, jak planować wdrożenie i rozwój klastra, jak instalować, utrzymywać, monitorować, rozwiązywać problemy i optymalizować Hadoop. Będą również ćwiczyć masowe ładowanie danych do klastra, zapoznają się z różnymi dystrybucjami Hadoop oraz będą ćwiczyć instalację i zarządzanie narzędziami ekosystemu Hadoop. Kurs kończy się omówieniem zabezpieczania klastra za pomocą Kerberosa.
“…Materiały były bardzo dobrze przygotowane i szczegółowo omówione. Laboratorium było bardzo pomocne i dobrze zorganizowane”
— Andrew Nguyen, Główny Inżynier Integracji DW, Microsoft Online Advertising
Grupa docelowa
Administratorzy Hadoop
Format
Wykłady i praktyczne laboratoria, w przybliżeniu 60% wykładów, 40% laboratoriów.
Hadoop dla programistów (4 dni)
28 godzinApache Hadoop to najbardziej popularne framework do przetwarzania Big Data na klastrach serwerów. Ten kurs wprowadzi programistę w różne komponenty (HDFS, MapReduce, Pig, Hive i HBase) ekosystemu Hadoop.
Zaawansowany Hadoop dla programistów
21 godzinApache Hadoop to jedna z najpopularniejszych platform do przetwarzania Big Data na klastrach serwerów. Ten kurs zagłębia się w zarządzanie danymi w HDFS oraz zaawansowane techniki pracy z Pig, Hive i HBase. Te zaawansowane techniki programowania będą korzystne dla doświadczonych programistów Hadoop.
Grupa docelowa: programiści
Czas trwania: trzy dni
Format: wykłady (50%) i warsztaty praktyczne (50%).
Administracja Hadoop na MapR
28 godzinGrupa docelowa:
Ten kurs ma na celu demistyfikację technologii big data/hadoop i pokazanie, że nie jest trudna do zrozumienia.
Hadoop i Spark dla administratorów
35 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów, którzy chcą nauczyć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Hadoop.
- Zrozumieć cztery główne komponenty ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używać Hadoop Distributed File System (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Skonfigurować HDFS jako silnik magazynowania dla lokalnych wdrożeń Spark.
- Skonfigurować Spark do korzystania z alternatywnych rozwiązań magazynowych, takich jak Amazon S3, oraz systemów bazodanowych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywać zadania administracyjne, takie jak provisionowanie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
HBase dla programistów
21 godzinTen kurs wprowadza HBase – magazyn NoSQL oparty na Hadoop. Kurs jest przeznaczony dla programistów, którzy będą używać HBase do tworzenia aplikacji, oraz administratorów, którzy będą zarządzać klastrami HBase.
Przeprowadzimy programistę przez architekturę HBase, modelowanie danych oraz rozwój aplikacji na HBase. Omówimy również użycie MapReduce z HBase oraz niektóre tematy administracyjne związane z optymalizacją wydajności. Kurs jest bardzo praktyczny, z wieloma ćwiczeniami laboratoryjnymi.
Czas trwania: 3 dni
Grupa docelowa: Programiści i administratorzy
Apache NiFi dla administratorów
21 godzinApache NiFi to platforma do integracji danych i przetwarzania zdarzeń oparta na przepływach, dostępna jako oprogramowanie open-source. Umożliwia automatyczne, w czasie rzeczywistym, routowanie, transformację i mediację danych między różnymi systemami, oferując interfejs webowy oraz szczegółową kontrolę.
To szkolenie prowadzone przez instruktora (na miejscu lub zdalnie) jest skierowane do administratorów i inżynierów na poziomie średniozaawansowanym, którzy chcą wdrażać, zarządzać, zabezpieczać i optymalizować przepływy danych NiFi w środowiskach produkcyjnych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Instalować, konfigurować i utrzymywać klastry Apache NiFi.
- Projektować i zarządzać przepływami danych z różnych źródeł i miejsc docelowych.
- Implementować automatyzację przepływów, routowanie i logikę transformacji.
- Optymalizować wydajność, monitorować operacje i rozwiązywać problemy.
Format kursu
- Interaktywny wykład z omówieniem architektury w oparciu o rzeczywiste przypadki.
- Praktyczne laboratoria: budowanie, wdrażanie i zarządzanie przepływami.
- Ćwiczenia oparte na scenariuszach w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, prosimy o kontakt w celu uzgodnienia szczegółów.
Apache NiFi dla programistów
7 godzinW tym szkoleniu prowadzonym przez instruktora, uczestnicy nauczą się podstaw programowania opartego na przepływie, tworząc szereg demonstracyjnych rozszerzeń, komponentów i procesorów przy użyciu Apache NiFi.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę NiFi oraz koncepcje przepływu danych.
- Tworzyć rozszerzenia przy użyciu NiFi i zewnętrznych API.
- Samodzielnie opracować własny procesor Apache NiFi.
- Pozyskiwać i przetwarzać dane w czasie rzeczywistym z różnych i nietypowych formatów plików oraz źródeł danych.
PySpark i Uczenie Maszynowe
21 godzinSzkolenie to zapewnia praktyczne wprowadzenie do budowania skalowalnych procesów przetwarzania danych i przepływów pracy w zakresie uczenia maszynowego przy użyciu PySpark. Uczestnicy dowiedzą się, jak Apache Spark działa w ramach nowoczesnych ekosystemów Big Data oraz jak efektywnie przetwarzać duże zbiory danych, korzystając z zasad obliczeń rozproszonych.
Python i Spark dla Big Data (PySpark)
21 godzinPodczas tego szkolenia prowadzonego przez instruktora na żywo w Polsce, uczestnicy nauczą się, jak używać Pythona i Sparka razem do analizy dużych zbiorów danych, pracując nad praktycznymi ćwiczeniami.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Nauczyć się, jak używać Sparka z Pythonem do analizy dużych zbiorów danych.
- Pracować nad ćwiczeniami, które odzwierciedlają rzeczywiste przypadki.
- Stosować różne narzędzia i techniki do analizy dużych zbiorów danych za pomocą PySpark.
Python, Spark i Hadoop dla Big Data
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do programistów, którzy chcą wykorzystywać i integrować Spark, Hadoop i Python do przetwarzania, analizy i transformacji dużych i złożonych zbiorów danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Skonfigurować niezbędne środowisko do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, główne komponenty i architekturę Spark i Hadoop.
- Nauczyć się, jak integrować Spark, Hadoop i Python do przetwarzania dużych zbiorów danych.
- Poznać narzędzia w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Budować systemy rekomendacji oparte na filtrowaniu współpracującym, podobne do tych używanych przez Netflix, YouTube, Amazon, Spotify i Google.
- Wykorzystać Apache Mahout do skalowania algorytmów uczenia maszynowego.
Stratio: Moduły Rocket i Intelligence z PySpark
14 godzinStratio to platforma zorientowana na dane, która integruje big data, sztuczną inteligencję i zarządzanie w jednym rozwiązaniu. Jej moduły Rocket i Intelligence umożliwiają szybkie eksplorowanie, przekształcanie i zaawansowaną analizę danych w środowiskach przedsiębiorstw.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów od danych na poziomie średniozaawansowanym, którzy chcą efektywnie korzystać z modułów Rocket i Intelligence w Stratio z wykorzystaniem PySpark, koncentrując się na strukturach pętlowych, funkcjach zdefiniowanych przez użytkownika oraz zaawansowanej logice danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Poruszać się i pracować w platformie Stratio, korzystając z modułów Rocket i Intelligence.
- Stosować PySpark w kontekście pozyskiwania, przekształcania i analizy danych.
- Używać pętli i logiki warunkowej do kontrolowania przepływów danych i zadań inżynierii cech.
- Tworzyć i zarządzać funkcjami zdefiniowanymi przez użytkownika (UDF) do wielokrotnego wykorzystania operacji na danych w PySpark.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.