Big Data & Database Systems Fundamentals - Plan Szkolenia
Kurs jest częścią zestawu umiejętności Data Scientist (Domena: Dane i technologia).
Plan Szkolenia
Koncepcje hurtowni danych
- Co to jest Data Ware House?
- Różnica między OLTP a obudową Data Ware
- Pozyskiwanie danych
- Ekstrakcja danych
- Transformacja danych.
- Ładowanie danych
- Data Marty
- Dane zależne i niezależne Mart
- Projekt bazy danych
Koncepcje testowania ETL:
- Wstęp.
- Cykl życia oprogramowania.
- Metodologie testowania.
- Proces przepływu pracy podczas testowania ETL.
- Obowiązki testowania ETL na etapie danych.
Podstawy Big Data
- Big Data i jego rola w świecie korporacji
- Fazy rozwoju strategii Big Data w korporacji
- Wyjaśnij przesłanki leżące u podstaw holistycznego podejścia do Big Data
- Komponenty potrzebne w Big Data platformie
- Rozwiązanie do przechowywania dużych ilości danych
- Granice tradycyjnych technologii
- Przegląd typów baz danych
NoSQL Database s
Hadoop
Mapa Zmniejsz
Apache Spark
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Big Data & Database Systems Fundamentals - Plan Szkolenia - Booking
Big Data & Database Systems Fundamentals - Plan Szkolenia - ZAPYTANIE O SZKOLENIE
Big Data & Database Systems Fundamentals - Zapytanie o Konsultacje
Opinie uczestników (5)
A lot of practical examples, different ways to approach the same problem, and sometimes not so obvious tricks how to improve the current solution
Rafał - Nordea
Szkolenie - Apache Spark MLlib
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Szkolenie - Data Vault: Building a Scalable Data Warehouse
That I had it in the first place.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Szkolenie - Python and Spark for Big Data (PySpark)
Koleżeńska komunikacja z osobami biorących udział w szkoleniu.
Andrzej Szewczuk - Izba Administracji Skarbowej w Lublinie
Szkolenie - Apache NiFi for Administrators
Nadchodzące szkolenia
Szkolenia Powiązane
NoSQL Database with Microsoft Azure Cosmos DB
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla administratorów baz danych lub programistów, którzy chcą używać Microsoft Azure Cosmos DB do tworzenia i zarządzania wysoce responsywnymi aplikacjami o niskim opóźnieniu.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zapewnienie niezbędnych zasobów Cosmos DB, aby rozpocząć tworzenie baz danych i aplikacji.
- Skalowanie wydajności aplikacji i pamięci masowej poprzez wykorzystanie interfejsów API w Cosmos DB.
- Zarządzanie operacjami baz danych i redukcja kosztów poprzez optymalizację zasobów Cosmos DB.
Data Vault: Building a Scalable Data Warehouse
28 godzinW tym instruktażowym szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak zbudować Data Vault.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumienie architektury i koncepcji projektowych stojących za Data Vault 2.0 oraz jego interakcji z Big Data, NoSQL i AI.
- Używanie technik składowania danych w celu umożliwienia audytu, śledzenia i inspekcji danych historycznych w hurtowni danych.
- Rozwijanie spójnego i powtarzalnego procesu ETL (Extract, Transform, Load).
- Budowanie i wdrażanie wysoce skalowalnych i powtarzalnych hurtowni.
Spark Streaming with Python and Kafka
7 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, analityków danych i programistów, którzy chcą korzystać z funkcji Spark Streaming w przetwarzaniu i analizowaniu danych w czasie rzeczywistym.
Pod koniec tego szkolenia uczestnicy będą mogli używać Spark Streaming do przetwarzania strumieni danych na żywo do wykorzystania w bazach danych, systemach plików i pulpitach nawigacyjnych na żywo.
Confluent KSQL
7 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą wdrożyć przetwarzanie strumieniowe Apache Kafka bez pisania kodu.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Confluent KSQL.
- Ustawienie potoku przetwarzania strumieniowego przy użyciu tylko poleceń SQL (bez kodowania Java lub Python).
- Przeprowadzanie filtrowania danych, transformacji, agregacji, łączenia, okienkowania i sesjonowania całkowicie w SQL.
- Projektowanie i wdrażanie interaktywnych, ciągłych zapytań dla strumieniowego ETL i analizy w czasie rzeczywistym.
Apache Ignite for Developers
14 godzinTo prowadzone przez instruktora szkolenie na żywo (online lub na miejscu) jest przeznaczone dla programistów, którzy chcą poznać zasady działania trwałej i czystej pamięci masowej, przechodząc przez proces tworzenia przykładowego projektu obliczeniowego w pamięci.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
-
Używaj Ignite do utrzymywania danych w pamięci, na dysku, a także jako czysto rozproszonej bazy danych w pamięci.
Osiągnięcie trwałości bez synchronizowania danych z powrotem do relacyjnej bazy danych.
Wykorzystanie Ignite do wykonywania SQL i rozproszonych złączeń.
Poprawa wydajności poprzez przeniesienie danych bliżej procesora, wykorzystując pamięć RAM jako pamięć masową.
Rozproszenie zestawów danych w klastrze w celu osiągnięcia skalowalności poziomej.
Integracja Ignite z RDBMS, NoSQL, Hadoop i procesorami uczenia maszynowego.
Apache Ignite for Administrators
7 godzinFormat kursu
- Interaktywny wykład i dyskusja.
- Dużo ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku laboratoryjnym.
Opcje dostosowywania kursu
- Aby poprosić o niestandardowe szkolenie dla tego kursu, skontaktuj się z nami w celu jego zorganizowania.
Unified Batch and Stream Processing with Apache Beam
14 godzinApache Beam to otwarty, zunifikowany model programowania do definiowania i wykonywania równoległych potoków przetwarzania danych. Jego siła tkwi w możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, przy czym wykonanie jest przeprowadzane przez jeden z obsługiwanych przez Beam back-endów przetwarzania rozproszonego: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow. Apache Beam jest przydatny do zadań ETL (Extract, Transform, and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych w bardziej pożądany format i ładowanie danych do nowego systemu.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować Apache Beam SDK w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zbioru danych na mniejsze fragmenty w celu niezależnego, równoległego przetwarzania.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zainstalować i skonfigurować Apache Beam.
- Wykorzystanie jednego modelu programowania do przetwarzania wsadowego i strumieniowego z poziomu aplikacji Java lub Python.
- Wykonywanie potoków w wielu środowiskach.
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna
Uwaga
- Ten kurs będzie dostępny Scala w przyszłości. Prosimy o kontakt w celu ustalenia szczegółów.
Apache Apex: Processing Big Data-in-Motion
21 godzinApache Apex to natywna platforma YARN, która łączy przetwarzanie strumieniowe i wsadowe. Przetwarza duże ilości danych w ruchu w sposób skalowalny, wydajny, odporny na błędy, stanowy, bezpieczny, rozproszony i łatwy w obsłudze.
To prowadzone przez instruktora szkolenie na żywo wprowadza ujednoliconą architekturę przetwarzania strumieniowego Apache Apex i prowadzi uczestników przez tworzenie rozproszonej aplikacji przy użyciu Apex na Hadoop.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumieć koncepcje potoku przetwarzania danych, takie jak łączniki dla źródeł i zlewów, typowe transformacje danych itp.
- Tworzenie, skalowanie i optymalizacja aplikacji Apex
- Niezawodne przetwarzanie strumieni danych w czasie rzeczywistym z minimalnymi opóźnieniami
- Korzystanie z Apex Core i biblioteki Apex Malhar w celu umożliwienia szybkiego tworzenia aplikacji
- Korzystanie z interfejsu API Apex do pisania i ponownego wykorzystywania istniejącego Java kodu
- Zintegruj Apex z innymi aplikacjami jako silnik przetwarzania
- Dostrajanie, testowanie i skalowanie aplikacji Apex
Format kursu
- Interaktywny wykład i dyskusja.
- Dużo ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku live-lab.
Opcje dostosowywania kursu
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Apache Storm
28 godzinApache Storm to rozproszony silnik obliczeniowy działający w czasie rzeczywistym, wykorzystywany do zapewniania analizy biznesowej w czasie rzeczywistym. Czyni to poprzez umożliwienie aplikacjom niezawodnego przetwarzania nieograniczonych strumieni danych (tzw. przetwarzanie strumieniowe).
"Storm jest dla przetwarzania w czasie rzeczywistym tym, czym Hadoop jest dla przetwarzania wsadowego!";
Podczas tego prowadzonego przez instruktora szkolenia na żywo uczestnicy dowiedzą się, jak zainstalować i skonfigurować Apache Storm, a następnie opracować i wdrożyć aplikację Apache Storm do przetwarzania dużych zbiorów danych w czasie rzeczywistym.
Niektóre z tematów zawartych w tym szkoleniu obejmują:
- Apache Storm w kontekście Hadoop
- Praca z nieograniczonymi danymi
- Obliczenia ciągłe
- Analityka w czasie rzeczywistym
- Rozproszone przetwarzanie RPC i ETL
Zamów ten kurs już teraz!
Publiczność
- Deweloperzy oprogramowania i ETL
- Specjaliści Mainframe
- Naukowcy zajmujący się danymi
- Analitycy dużych zbiorów danych
- Specjaliści Hadoop
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna
Apache NiFi for Administrators
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak wdrożyć i zarządzać Apache NiFi w środowisku laboratoryjnym na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apachi NiFi.
- Pobieranie, przekształcanie i zarządzanie danymi z różnych, rozproszonych źródeł danych, w tym baz danych i dużych jezior danych.
- Automatyzuj przepływy danych.
- Włącz analitykę strumieniową.
- Zastosowanie różnych podejść do pozyskiwania danych.
- Przekształcanie danych Big Data w informacje biznesowe.
Apache NiFi for Developers
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy poznają podstawy programowania opartego na przepływie, opracowując szereg rozszerzeń demonstracyjnych, komponentów i procesorów przy użyciu Apache NiFi.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumienie architektury NiFi i koncepcji przepływu danych.
- Rozwijanie rozszerzeń przy użyciu NiFi i interfejsów API innych firm.
- Rozwijanie własnego procesora Apache Nifi.
- Pozyskiwanie i przetwarzanie danych w czasie rzeczywistym z różnych i nietypowych formatów plików i źródeł danych.
Apache Flink Fundamentals
28 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) wprowadza zasady i podejścia stojące za rozproszonym przetwarzaniem danych strumieniowych i wsadowych oraz prowadzi uczestników przez tworzenie aplikacji do strumieniowego przesyłania danych w czasie rzeczywistym w Apache Flink.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
-
Konfiguracja środowiska do tworzenia aplikacji do analizy danych.
Zrozumienie działania biblioteki przetwarzania grafów (Gelly) Apache Flink.
Pakowanie, wykonywanie i monitorowanie opartych na Flink, odpornych na błędy aplikacji do strumieniowego przesyłania danych.
Zarządzaj różnorodnymi obciążeniami.
Wykonywanie zaawansowanych analiz.
Konfigurowanie wielowęzłowego klastra Flink.
Mierzyć i optymalizować wydajność.
Integracja Flink z różnymi Big Data systemami.
Porównywanie możliwości Flink z możliwościami innych platform przetwarzania dużych zbiorów danych.
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas praktycznych ćwiczeń.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Dowiedz się, jak używać Sparka z Python do analizy Big Data.
- Pracuj nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używaj różnych narzędzi i technik do analizy dużych zbiorów danych za pomocą PySpark.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczniemy od szerokiego przeglądu i zawęzimy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumienie, w jaki sposób dane grafowe są utrwalane i przetwarzane.
- Wybór najlepszego frameworka dla danego zadania (od baz danych grafów do frameworków przetwarzania wsadowego).
- Wdrożenie Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Spojrzenie na rzeczywiste problemy związane z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Publiczność
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark