Talend Big Data Integration - Plan Szkolenia
Talend Open Studio for Big Data to narzędzie ETL typu open source do przetwarzania dużych zbiorów danych. Zawiera środowisko programistyczne do interakcji ze źródłami i celami Big Data oraz uruchamiania zadań bez konieczności pisania kodu.
To szkolenie prowadzone przez instruktora, na żywo (online lub na miejscu) jest skierowane do osób technicznych, które chcą wdrożyć Talend Open Studio for Big Data w celu uproszczenia procesu odczytywania i przetwarzania dużych zbiorów danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Talend Open Studio for Big Data.
- Połączyć się z systemami Big Data, takimi jak Cloudera, HortonWorks, MapR, Amazon EMR i Apache.
- Zrozumieć i skonfigurować komponenty i złącza Big Data w Open Studio.
- Skonfigurować parametry do automatycznego generowania kodu MapReduce.
- Wykorzystać interfejs typu drag-and-drop w Open Studio do uruchamiania zadań Hadoop.
- Tworzyć prototypy potoków danych Big Data.
- Automatyzować projekty integracji danych Big Data.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie dla tego kursu, prosimy o kontakt w celu ustalenia szczegółów.
Plan Szkolenia
Wprowadzenie
Przegląd funkcji i architektury "Open Studio for Big Data"
Konfiguracja Open Studio for Big Data
Nawigacja w interfejsie użytkownika
Zrozumienie komponentów i złączy Big Data
Łączenie się z klastrem Hadoop
Odczytywanie i zapisywanie danych
Przetwarzanie danych za pomocą Hive i MapReduce
Analiza wyników
Poprawa jakości danych Big Data
Budowanie potoku danych Big Data
Zarządzanie użytkownikami, grupami, rolami i projektami
Wdrażanie Open Studio do produkcji
Monitorowanie Open Studio
Rozwiązywanie problemów
Podsumowanie i zakończenie
Wymagania
- Zrozumienie relacyjnych baz danych
- Zrozumienie magazynowania danych
- Zrozumienie koncepcji ETL (Extract, Transform, Load)
Grupa docelowa
- Specjaliści ds. analizy biznesowej
- Specjaliści ds. baz danych
- Deweloperzy SQL
- Deweloperzy ETL
- Architekci rozwiązań
- Architekci danych
- Specjaliści ds. magazynowania danych
- Administratorzy i integratorzy systemów
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Talend Big Data Integration - Plan Szkolenia - Rezerwacja
Talend Big Data Integration - Plan Szkolenia - Zapytanie
Talend Big Data Integration - Zapytanie o Konsultacje
Opinie uczestników (1)
Ćwiczenia praktyczne. Kurs powinien trwać 5 dni, ale 3 dni pomogły rozstrzygnąć wiele pytań, które miałem związanymi z pracą w NiFi.
James - BHG Financial
Szkolenie - Apache NiFi for Administrators
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Zaawansowane Apache Iceberg
21 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu), jest skierowane do zaawansowanych specjalistów ds. danych, którzy chcą optymalizować przepływy pracy związane z przetwarzaniem danych, zapewnić integralność danych oraz wdrażać solidne rozwiązania typu data lakehouse, zdolne poradzić sobie ze złożonością współczesnych aplikacji big data.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zdobyć dogłębną wiedzę na temat architektury Iceberg, w tym zarządzania metadanymi i układu plików.
- Skonfigurować Iceberg w celu uzyskania optymalnej wydajności w różnych środowiskach i zintegrować go z wieloma silnikami przetwarzania danych.
- Zarządzać tabelami Iceberg na dużą skalę, wprowadzać złożone zmiany schematów i zarządzać ewolucją partycji.
- Opanować techniki optymalizacji wydajności zapytań i efektywności skanowania danych dla dużych zbiorów danych.
- Wdrożyć mechanizmy zapewniające spójność danych, zarządzanie gwarancjami transakcyjnymi oraz obsługę awarii w środowiskach rozproszonych.
Podstawy Apache Iceberg
14 godzinTo szkolenie prowadzone przez instruktora, dostępne online lub na miejscu w Polsce, jest skierowane do profesjonalistów zajmujących się danymi na poziomie początkującym, którzy chcą zdobyć wiedzę i umiejętności niezbędne do efektywnego wykorzystania Apache Iceberg do zarządzania dużymi zbiorami danych, zapewnienia integralności danych i optymalizacji przepływów pracy związanych z przetwarzaniem danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zdobyć dogłębną wiedzę na temat architektury, funkcji i zalet Apache Iceberg.
- Poznać formaty tabel, partycjonowanie, ewolucję schematów oraz możliwości podróży w czasie.
- Zainstalować i skonfigurować Apache Iceberg w różnych środowiskach.
- Tworzyć, zarządzać i manipulować tabelami Iceberg.
- Zrozumieć proces migracji danych z innych formatów tabel do Iceberg.
Analiza dużych danych z wykorzystaniem Google Colab i Apache Spark
14 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do średnio zaawansowanych naukowców zajmujących się danymi oraz inżynierów, którzy chcą wykorzystać Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować środowisko do pracy z dużymi danymi przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Integrować Apache Spark z narzędziami chmurowymi.
Apache NiFi dla administratorów
21 godzinApache NiFi to platforma do integracji danych i przetwarzania zdarzeń oparta na przepływach, dostępna jako oprogramowanie open-source. Umożliwia automatyczne, w czasie rzeczywistym, routowanie, transformację i mediację danych między różnymi systemami, oferując interfejs webowy oraz szczegółową kontrolę.
To szkolenie prowadzone przez instruktora (na miejscu lub zdalnie) jest skierowane do administratorów i inżynierów na poziomie średniozaawansowanym, którzy chcą wdrażać, zarządzać, zabezpieczać i optymalizować przepływy danych NiFi w środowiskach produkcyjnych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Instalować, konfigurować i utrzymywać klastry Apache NiFi.
- Projektować i zarządzać przepływami danych z różnych źródeł i miejsc docelowych.
- Implementować automatyzację przepływów, routowanie i logikę transformacji.
- Optymalizować wydajność, monitorować operacje i rozwiązywać problemy.
Format kursu
- Interaktywny wykład z omówieniem architektury w oparciu o rzeczywiste przypadki.
- Praktyczne laboratoria: budowanie, wdrażanie i zarządzanie przepływami.
- Ćwiczenia oparte na scenariuszach w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, prosimy o kontakt w celu uzgodnienia szczegółów.
PySpark i Uczenie Maszynowe
21 godzinSzkolenie to zapewnia praktyczne wprowadzenie do budowania skalowalnych procesów przetwarzania danych i przepływów pracy w zakresie uczenia maszynowego przy użyciu PySpark. Uczestnicy dowiedzą się, jak Apache Spark działa w ramach nowoczesnych ekosystemów Big Data oraz jak efektywnie przetwarzać duże zbiory danych, korzystając z zasad obliczeń rozproszonych.
Podstawy Apache Spark
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark.
- Szybko przetwarzać i analizować bardzo duże zbiory danych.
- Zrozumieć różnicę między Apache Spark a Hadoop MapReduce oraz kiedy używać którego z nich.
- Zintegrować Apache Spark z innymi narzędziami do uczenia maszynowego.
Administracja Apache Spark
35 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów na poziomie podstawowym i średniozaawansowanym, którzy chcą wdrażać, utrzymywać i optymalizować klastry Spark.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark w różnych środowiskach.
- Zarządzać zasobami klastra i monitorować aplikacje Spark.
- Optymalizować wydajność klastrów Spark.
- Wdrażaæ środki bezpieczeństwa i zapewniać wysoką dostępność.
- Debugować i rozwiązywać typowe problemy związane z Spark.
Apache Spark w chmurze
21 godzinKrzywa uczenia się Apache Spark na początku rośnie powoli, wymaga wiele wysiłku, aby uzyskać pierwsze rezultaty. Ten kurs ma na celu przeskoczenie przez tę trudną początkową fazę. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark, będą wyraźnie rozróżniać RDD od DataFrame, nauczą się korzystać z API Pythona i Scali, zrozumieją rolę executorów i zadań itp. Ponadto, zgodnie z najlepszymi praktykami, kurs silnie koncentruje się na wdrożeniu w chmurze, Databricks i AWS. Uczestnicy zrozumieją również różnice między AWS EMR a AWS Glue, jednym z najnowszych usług Spark oferowanych przez AWS.
PUBLICZNOŚĆ:
Inżynierowie danych, DevOps, Data Scientist
Python i Spark dla Big Data (PySpark)
21 godzinPodczas tego szkolenia prowadzonego przez instruktora na żywo w Polsce, uczestnicy nauczą się, jak używać Pythona i Sparka razem do analizy dużych zbiorów danych, pracując nad praktycznymi ćwiczeniami.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Nauczyć się, jak używać Sparka z Pythonem do analizy dużych zbiorów danych.
- Pracować nad ćwiczeniami, które odzwierciedlają rzeczywiste przypadki.
- Stosować różne narzędzia i techniki do analizy dużych zbiorów danych za pomocą PySpark.
Python, Spark i Hadoop dla Big Data
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do programistów, którzy chcą wykorzystywać i integrować Spark, Hadoop i Python do przetwarzania, analizy i transformacji dużych i złożonych zbiorów danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Skonfigurować niezbędne środowisko do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, główne komponenty i architekturę Spark i Hadoop.
- Nauczyć się, jak integrować Spark, Hadoop i Python do przetwarzania dużych zbiorów danych.
- Poznać narzędzia w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Budować systemy rekomendacji oparte na filtrowaniu współpracującym, podobne do tych używanych przez Netflix, YouTube, Amazon, Spotify i Google.
- Wykorzystać Apache Mahout do skalowania algorytmów uczenia maszynowego.
Stratio: Moduły Rocket i Intelligence z PySpark
14 godzinStratio to platforma zorientowana na dane, która integruje big data, sztuczną inteligencję i zarządzanie w jednym rozwiązaniu. Jej moduły Rocket i Intelligence umożliwiają szybkie eksplorowanie, przekształcanie i zaawansowaną analizę danych w środowiskach przedsiębiorstw.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów od danych na poziomie średniozaawansowanym, którzy chcą efektywnie korzystać z modułów Rocket i Intelligence w Stratio z wykorzystaniem PySpark, koncentrując się na strukturach pętlowych, funkcjach zdefiniowanych przez użytkownika oraz zaawansowanej logice danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Poruszać się i pracować w platformie Stratio, korzystając z modułów Rocket i Intelligence.
- Stosować PySpark w kontekście pozyskiwania, przekształcania i analizy danych.
- Używać pętli i logiki warunkowej do kontrolowania przepływów danych i zadań inżynierii cech.
- Tworzyć i zarządzać funkcjami zdefiniowanymi przez użytkownika (UDF) do wielokrotnego wykorzystania operacji na danych w PySpark.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.
Talend Administration Center (TAC)
14 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów, naukowców zajmujących się danymi oraz analityków biznesowych, którzy chcą skonfigurować Talend Administration Center w celu wdrażania i zarządzania rolami oraz zadaniami w organizacji.
Pod koniec szkolenia uczestnicy będą potrafili:
- Zainstalować i skonfigurować Talend Administration Center.
- Zrozumieć i wdrożyć podstawy zarządzania Talend.
- Tworzyć, wdrażać i uruchamiać projekty biznesowe lub zadania w Talend.
- Monitorować bezpieczeństwo zbiorów danych i rozwijać procedury biznesowe oparte na frameworku TAC.
- Zdobyć szersze zrozumienie aplikacji big data.
Talend Data Stewardship
14 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do analityków danych na poziomie podstawowym i średniozaawansowanym, którzy chcą pogłębić swoją wiedzę i umiejętności w zakresie zarządzania i poprawy jakości danych przy użyciu Talend Data Stewardship.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zdobyć kompleksowe zrozumienie roli zarządzania danymi w utrzymaniu jakości danych.
- Korzystać z Talend Data Stewardship do zarządzania zadaniami związanymi z jakością danych.
- Tworzyć, przypisywać i zarządzać zadaniami w Talend Data Stewardship, w tym dostosowywać przepływy pracy.
- Korzystać z funkcji raportowania i monitorowania narzędzia do śledzenia jakości danych i działań związanych z zarządzaniem danymi.
Talend Open Studio for ESB
21 godzinW ramach tego szkolenia prowadzonego przez instruktora na żywo w Polsce, uczestnicy nauczą się, jak używać Talend Open Studio for ESB do tworzenia, łączenia, mediacji i zarządzania usługami oraz ich interakcjami.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Integrować, rozszerzać i dostarczać technologie ESB jako pojedyncze pakiety w różnych środowiskach wdrażania.
- Zrozumieć i wykorzystać najczęściej używane komponenty Talend Open Studio.
- Integrować dowolną aplikację, bazę danych, API lub usługi internetowe.
- Bezproblemowo integrować heterogeniczne systemy i aplikacje.
- Osadzać istniejące biblioteki kodu Java w celu rozszerzenia projektów.
- Wykorzystywać komponenty i kod społecznościowy do rozszerzania projektów.
- Szybko integrować systemy, aplikacje i źródła danych w środowisku Eclipse z funkcją przeciągania i upuszczania.
- Skrócić czas rozwoju i obniżyć koszty utrzymania poprzez generowanie zoptymalizowanego, wielokrotnego użycia kodu.