Talend Big Data Integration - Plan Szkolenia
Talend Open Studio for Big Data to narzędzie ETL typu open source do przetwarzania dużych zbiorów danych. Zawiera środowisko programistyczne do interakcji ze źródłami i celami Big Data oraz uruchamiania zadań bez konieczności pisania kodu.
Szkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla osób technicznych, które chcą wdrożyć Talend Open Studio for Big Data w celu uproszczenia procesu odczytu i analizy Big Data.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Talend Open Studio for Big Data.
- Łączenie się z systemami Big Data, takimi jak Cloudera, HortonWorks, MapR, Amazon EMR i Apache.
- Zrozumieć i skonfigurować komponenty i konektory Big Data w Open Studio.
- Konfigurowanie parametrów do automatycznego generowania kodu MapReduce.
- Korzystanie z interfejsu "przeciągnij i upuść" Open Studio do uruchamiania zadań Hadoop.
- Prototypowanie potoków big data.
- Automatyzacja projektów integracji dużych zbiorów danych.
Format kursu
- Interaktywny wykład i dyskusja.
- Dużo ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku live-lab.
Opcje dostosowywania kursu
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Plan Szkolenia
Wprowadzenie
Przegląd "Open Studio for Big Data" Funkcje i architektura
Konfiguracja Open Studio dla Big Data
Poruszanie się po interfejsie użytkownika
Zrozumienie Big Data Komponenty i złącza
Łączenie z klastrem Hadoop
Odczyt i zapis danych
Przetwarzanie danych za pomocą Hive i MapReduce
Analiza wyników
Poprawa jakości Big Data
Tworzenie rurociągu Big Data
Zarządzanie użytkownikami, grupami, rolami i projektami
Wdrażanie Open Studio do produkcji
Monitorowanie Open Studio
Rozwiązywanie problemów
Podsumowanie i wnioski
Wymagania
- Zrozumienie relacyjnych baz danych
- Zrozumienie hurtowni danych
- Zrozumienie koncepcji ETL (Extract, Transform, Load)
Uczestnicy
- Specjaliści ds. analityki biznesowej
- Specjaliści ds. baz danych
- SQL Programiści
- Deweloperzy ETL
- Architekci rozwiązań
- Architekci danych
- Specjaliści ds. hurtowni danych
- Administratorzy i integratorzy systemów
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Talend Big Data Integration - Plan Szkolenia - Booking
Talend Big Data Integration - Plan Szkolenia - Enquiry
Talend Big Data Integration - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (5)
Dużo praktycznych przykładów, różne sposoby podejścia do tego samego problemu i czasem nie tak oczywiste triki, jak poprawić obecne rozwiązanie
Rafal - Nordea
Szkolenie - Apache Spark MLlib
Przetłumaczone przez sztuczną inteligencję
jak trener prezentuje swoją wiedzę z tematu, który uczy
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Szkolenie - Data Vault: Building a Scalable Data Warehouse
Przetłumaczone przez sztuczną inteligencję
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
To have it from the beginning.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
Przetłumaczone przez sztuczną inteligencję
praktyczne zadania
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Szkolenie - Python and Spark for Big Data (PySpark)
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Apache Ignite for Administrators
7 godzinFormat kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku laboratoryjnym na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Unified Batch and Stream Processing with Apache Beam
14 godzinApache Beam to otwarty, zunifikowany model programowania do definiowania i wykonywania równoległych potoków przetwarzania danych. Jego moc polega na możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, przy czym wykonanie jest przeprowadzane przez jeden z obsługiwanych przez Beam back-endów przetwarzania rozproszonego: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow. Rozwiązanie Apache Beam jest przydatne w zadaniach ETL (Extract, Transform, and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych w bardziej pożądany format i ładowanie danych do nowego systemu.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować Apache Beam SDK w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zbioru danych na mniejsze fragmenty w celu niezależnego, równoległego przetwarzania.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Apache Beam.
- Używać pojedynczego modelu programowania do przeprowadzania zarówno przetwarzania wsadowego, jak i strumieniowego z poziomu aplikacji Java lub Python.
- Wykonywać potoki w wielu środowiskach.
Format kursu
- Wykład częściowy, dyskusja częściowa, ćwiczenia i ciężka praktyka praktyczna
Uwaga
- Ten kurs będzie dostępny Scala w przyszłości. Prosimy o kontakt w celu ustalenia szczegółów.
Data Vault: Building a Scalable Data Warehouse
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak zbudować Data Vault.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę i koncepcje projektowe stojące za Data Vault 2.0 oraz jego interakcję z Big Data, NoSQL i AI.
- Korzystać z technik przechowywania danych w celu umożliwienia audytu, śledzenia i inspekcji danych historycznych w hurtowni danych.
- Opracowanie spójnego i powtarzalnego procesu ETL (Extract, Transform, Load).
- Tworzenie i wdrażanie wysoce skalowalnych i powtarzalnych hurtowni.
Apache Flink Fundamentals
28 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza zasady i podejścia stojące za rozproszonym przetwarzaniem danych strumieniowych i wsadowych oraz prowadzi uczestników przez proces tworzenia aplikacji do strumieniowego przesyłania danych w czasie rzeczywistym w Apache Flink.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko do tworzenia aplikacji do analizy danych.
- Zrozumieć, jak działa biblioteka przetwarzania grafów Apache Flink (Gelly).
- Pakować, wykonywać i monitorować oparte na Flink, odporne na błędy aplikacje do strumieniowego przesyłania danych.
- Zarządzanie różnorodnymi obciążeniami.
- Wykonywanie zaawansowanych analiz.
- Konfigurowanie wielowęzłowego klastra Flink.
- Mierzyć i optymalizować wydajność.
- Integracja Flink z różnymi Big Data systemami.
- Porównywanie możliwości Flink z możliwościami innych platform przetwarzania dużych zbiorów danych.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczynamy od szerokiego przeglądu i zawężamy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zrozumieć, w jaki sposób dane wykresu są utrwalane i przemierzane.
- Wybrać najlepszą platformę dla danego zadania (od grafowych baz danych po ramy przetwarzania wsadowego).
- Zaimplementować Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Postrzeganie rzeczywistych problemów związanych z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Hortonworks Data Platform (HDP) for Administrators
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza Hortonworks Data Platform (HDP) i przeprowadza uczestników przez wdrożenie rozwiązania Spark + Hadoop.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Używać Hortonworks do niezawodnego uruchamiania Hadoop na dużą skalę.
- Ujednolicić możliwości Hadoop w zakresie bezpieczeństwa, zarządzania i operacji ze zwinnymi analitycznymi przepływami pracy Spark.
- Wykorzystanie Hortonworks do badania, walidacji, certyfikacji i wsparcia każdego z komponentów projektu Spark.
- Przetwarzanie różnych typów danych, w tym ustrukturyzowanych, nieustrukturyzowanych, w ruchu i w spoczynku.
Data Analysis with Hive/HiveQL
7 godzinTen kurs obejmuje sposób korzystania z języka Hive SQL (AKA: Hive HQL, SQL on Hive, HiveQL) dla osób, które wyodrębniają dane z Hive
Impala for Business Intelligence
21 godzinCloudera Impala to silnik zapytań typu open source do masowego przetwarzania równoległego (MPP) SQL dla klastrów Apache Hadoop.
Cloudera Impala umożliwia użytkownikom wysyłanie zapytań o niskim opóźnieniu SQL do danych przechowywanych w Hadoop Distributed File System i Apache Hbase bez konieczności przenoszenia lub przekształcania danych.
Odbiorcy
Ten kurs jest skierowany do analityków i badaczy danych przeprowadzających analizy danych przechowywanych w Hadoop za pośrednictwem narzędzi Business Intelligence lub SQL.
Po ukończeniu tego kursu uczestnicy będą w stanie
- Wyodrębniać znaczące informacje z klastrów Hadoop za pomocą Impala.
- Pisać specjalne programy ułatwiające Business Intelligence w Impala SQL dialekcie.
- Rozwiązywać problemy Impala.
Confluent KSQL
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą wdrożyć przetwarzanie strumieniowe Apache Kafka bez pisania kodu.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Confluent KSQL.
- Skonfigurować potok przetwarzania strumieniowego przy użyciu tylko SQL poleceń (bez kodowania Java lub Python).
- Przeprowadzać filtrowanie danych, transformacje, agregacje, łączenia, okienkowanie i sesjonowanie w całości w SQL.
- Projektowanie i wdrażanie interaktywnych, ciągłych zapytań dla strumieniowego ETL i analiz w czasie rzeczywistym.
Apache NiFi for Administrators
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak wdrożyć i zarządzać Apache NiFi w środowisku laboratoryjnym na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apachi NiFi.
- Pozyskiwać, przekształcać i zarządzać danymi z różnych, rozproszonych źródeł danych, w tym baz danych i dużych jezior danych.
- Automatyzować przepływy danych.
- Włączać analitykę strumieniową.
- Stosowanie różnych podejść do pozyskiwania danych.
- Przekształcanie danych Big Data w informacje biznesowe.
Apache NiFi for Developers
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy poznają podstawy programowania opartego na przepływie, opracowując szereg rozszerzeń demonstracyjnych, komponentów i procesorów przy użyciu Apache NiFi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę NiFi i koncepcje przepływu danych.
- Rozwijać rozszerzenia przy użyciu NiFi i interfejsów API innych firm.
- Rozwijać własny procesor Apache Nifi.
- Pozyskiwać i przetwarzać dane w czasie rzeczywistym z różnych i nietypowych formatów plików i źródeł danych.
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Spark Streaming with Python and Kafka
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, naukowców zajmujących się danymi i programistów, którzy chcą korzystać z funkcji Spark Streaming w przetwarzaniu i analizowaniu danych w czasie rzeczywistym.
Pod koniec tego szkolenia uczestnicy będą mogli używać Spark Streaming do przetwarzania strumieni danych na żywo do użytku w bazach danych, systemach plików i pulpitach nawigacyjnych na żywo.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Uczestnicy
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark