IBM Datastage dla Administratorów i Programistów - Plan Szkolenia
IBM DataStage to potężne narzędzie do ekstrakcji, transformacji i ładowania danych (ETL) stosowane w hurtowniach danych i analizach biznesowych, które pomaga organizacjom integrować i przekształcać duże ilości danych z różnych źródeł w ujednolicony format.
To szkolenie prowadzone przez instruktora na żywo (online lub na miejscu) jest skierowane do średniozaawansowanych specjalistów IT, którzy chcą zdobyć kompleksową wiedzę na temat IBM DataStage z perspektywy zarówno administracyjnej, jak i programistycznej, umożliwiając im skuteczne zarządzanie i wykorzystywanie tego narzędzia w swoich miejscach pracy.
Po zakończeniu szkolenia uczestnicy będą w stanie:
- Zrozumieć podstawowe koncepcje DataStage.
- Nauczyć się, jak skutecznie instalować, konfigurować i zarządzać środowiskami DataStage.
- Łączyć się z różnymi źródłami danych i efektywnie ekstrahować dane z baz danych, plików płaskich i źródeł zewnętrznych.
- Wdrażać skuteczne techniki ładowania danych.
Format kursu
- Interaktywne wykłady i dyskusje.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrażanie w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami.
Plan Szkolenia
Wprowadzenie do DataStage
- Przegląd procesu ETL
- Zrozumienie architektury DataStage
- Kluczowe komponenty DataStage
Administracja DataStage
- Instalacja i konfiguracja
- Zarządzanie użytkownikami i bezpieczeństwem
- Konfiguracja projektu i zarządzanie środowiskiem
- Planowanie i zarządzanie zadaniami
- Procedury tworzenia kopii zapasowych i odzyskiwania
Techniki ekstrakcji danych
- Łączenie się z różnymi źródłami danych
- Ekstrahowanie danych z baz danych, plików płaskich i źródeł zewnętrznych
- Najlepsze praktyki ekstrakcji danych
Transformacja danych w DataStage
- Zrozumienie projektanta DataStage
- Praca z różnymi typami etapów
- Implementowanie logiki biznesowej w transformacjach
- Zaawansowane techniki transformacji danych
Ładowanie i integracja danych
- Ładowanie danych do systemów docelowych
- Zapewnianie jakości i integralności danych
- Obsługa błędów i logowanie
Optymalizacja wydajności
- Najlepsze praktyki optymalizacji wydajności
- Zarządzanie zasobami
- Sekwencjonowanie zadań i równoległość
Zaawansowane tematy
- Praca z dyrektorem DataStage
- Debugowanie i rozwiązywanie problemów
Podsumowanie i kolejne kroki
Wymagania
- Podstawowa znajomość koncepcji baz danych
- Znajomość SQL i zasad hurtowni danych
Grupa docelowa
- Specjaliści IT
- Administratorzy baz danych
- Programiści
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
IBM Datastage dla Administratorów i Programistów - Plan Szkolenia - Rezerwacja
IBM Datastage dla Administratorów i Programistów - Plan Szkolenia - Zapytanie
IBM Datastage dla Administratorów i Programistów - Zapytanie o Konsultacje
Opinie uczestników (1)
Ćwiczenia praktyczne. Kurs powinien trwać 5 dni, ale 3 dni pomogły rozstrzygnąć wiele pytań, które miałem związanymi z pracą w NiFi.
James - BHG Financial
Szkolenie - Apache NiFi for Administrators
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Zaawansowane Apache Iceberg
21 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu), jest skierowane do zaawansowanych specjalistów ds. danych, którzy chcą optymalizować przepływy pracy związane z przetwarzaniem danych, zapewnić integralność danych oraz wdrażać solidne rozwiązania typu data lakehouse, zdolne poradzić sobie ze złożonością współczesnych aplikacji big data.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zdobyć dogłębną wiedzę na temat architektury Iceberg, w tym zarządzania metadanymi i układu plików.
- Skonfigurować Iceberg w celu uzyskania optymalnej wydajności w różnych środowiskach i zintegrować go z wieloma silnikami przetwarzania danych.
- Zarządzać tabelami Iceberg na dużą skalę, wprowadzać złożone zmiany schematów i zarządzać ewolucją partycji.
- Opanować techniki optymalizacji wydajności zapytań i efektywności skanowania danych dla dużych zbiorów danych.
- Wdrożyć mechanizmy zapewniające spójność danych, zarządzanie gwarancjami transakcyjnymi oraz obsługę awarii w środowiskach rozproszonych.
Podstawy Apache Iceberg
14 godzinTo szkolenie prowadzone przez instruktora, dostępne online lub na miejscu w Polsce, jest skierowane do profesjonalistów zajmujących się danymi na poziomie początkującym, którzy chcą zdobyć wiedzę i umiejętności niezbędne do efektywnego wykorzystania Apache Iceberg do zarządzania dużymi zbiorami danych, zapewnienia integralności danych i optymalizacji przepływów pracy związanych z przetwarzaniem danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zdobyć dogłębną wiedzę na temat architektury, funkcji i zalet Apache Iceberg.
- Poznać formaty tabel, partycjonowanie, ewolucję schematów oraz możliwości podróży w czasie.
- Zainstalować i skonfigurować Apache Iceberg w różnych środowiskach.
- Tworzyć, zarządzać i manipulować tabelami Iceberg.
- Zrozumieć proces migracji danych z innych formatów tabel do Iceberg.
Analiza dużych danych z wykorzystaniem Google Colab i Apache Spark
14 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do średnio zaawansowanych naukowców zajmujących się danymi oraz inżynierów, którzy chcą wykorzystać Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować środowisko do pracy z dużymi danymi przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Integrować Apache Spark z narzędziami chmurowymi.
Big Data Business Intelligence for Govt. Agencies
35 godzinPostęp technologiczny i rosnąca ilość informacji zmieniają sposób prowadzenia biznesu w wielu branżach, w tym w sektorze rządowym. Tempo generowania danych przez rząd i ich cyfrowe archiwizowanie rośnie w związku z szybkim rozwojem urządzeń i aplikacji mobilnych, inteligentnych czujników i urządzeń, rozwiązań chmurowych oraz portali dla obywateli. W miarę jak informacje cyfrowe rozszerzają się i stają się bardziej złożone, zarządzanie, przetwarzanie, przechowywanie, bezpieczeństwo i utylizacja danych również stają się bardziej skomplikowane. Nowe narzędzia do pozyskiwania, wyszukiwania, odkrywania i analizy pomagają organizacjom czerpać wnioski z ich nieustrukturyzowanych danych. Rynek rządowy znajduje się w punkcie zwrotnym, uświadamiając sobie, że informacje są strategicznym aktywem, a rząd musi chronić, wykorzystywać i analizować zarówno dane strukturalne, jak i nieustrukturyzowane, aby lepiej służyć i spełniać wymagania misji. W miarę jak liderzy rządowi dążą do przekształcenia organizacji w oparte na danych, aby skutecznie realizować misje, kładą podwaliny pod korelację zależności między zdarzeniami, ludźmi, procesami i informacjami.
Wysokowartościowe rozwiązania rządowe będą tworzone z połączenia najbardziej innowacyjnych technologii:
- Urządzenia i aplikacje mobilne
- Usługi chmurowe
- Technologie społecznościowe i sieciowe
- Big Data i analityka
Big Data to jedno z inteligentnych rozwiązań przemysłowych, które pozwala rządowi podejmować lepsze decyzje, działając na podstawie wzorców ujawnionych przez analizę dużych ilości danych – powiązanych i niepowiązanych, strukturalnych i nieustrukturyzowanych.
Jednak osiągnięcie tych celów wymaga znacznie więcej niż tylko gromadzenia ogromnych ilości danych. „Zrozumienie tych ilości Big Data wymaga najnowocześniejszych narzędzi i technologii, które mogą analizować i wydobywać użyteczną wiedzę z ogromnych i różnorodnych strumieni informacji” – napisali Tom Kalil i Fen Zhao z Biura Polityki Naukowej i Technologicznej Białego Domu w poście na blogu OSTP.
Biały Dom podjął krok w kierunku pomocy agencjom w znalezieniu tych technologii, ustanawiając w 2012 roku Narodową Inicjatywę Badawczo-Rozwojową Big Data. Inicjatywa ta obejmowała ponad 200 milionów dolarów na maksymalne wykorzystanie eksplozji Big Data i narzędzi potrzebnych do jej analizy.
Wyzwania, jakie stawia Big Data, są niemal tak zniechęcające, jak obiecujące są jej perspektywy. Jednym z tych wyzwań jest efektywne przechowywanie danych. Jak zawsze, budżety są ograniczone, więc agencje muszą minimalizować koszt przechowywania na megabajt i zapewnić łatwy dostęp do danych, aby użytkownicy mogli je uzyskać, kiedy chcą i w potrzebnej formie. Tworzenie kopii zapasowych ogromnych ilości danych dodatkowo zwiększa to wyzwanie.
Skuteczna analiza danych to kolejne duże wyzwanie. Wiele agencji wykorzystuje komercyjne narzędzia, które pozwalają im przeszukiwać góry danych, wykrywając trendy, które mogą pomóc im działać bardziej efektywnie. (Ostatnie badanie przeprowadzone przez MeriTalk wykazało, że federalni dyrektorzy IT uważają, że Big Data może pomóc agencjom zaoszczędzić ponad 500 miliardów dolarów, jednocześnie realizując cele misji.).
Niestandardowe narzędzia Big Data również pozwalają agencjom zaspokoić potrzebę analizy ich danych. Na przykład, Grupa Analityki Danych Obliczeniowych Oak Ridge National Laboratory udostępniła swój system analizy danych Piranha innym agencjom. System ten pomógł badaczom medycznym znaleźć związek, który może ostrzegać lekarzy o tętniakach aorty, zanim one wystąpią. Jest również używany do bardziej przyziemnych zadań, takich jak przeszukiwanie życiorysów w celu połączenia kandydatów z menedżerami ds. zatrudnienia.
Praktyczne wprowadzenie do analizy danych i Big Data - 3 dni
21 godzinUczestnicy, którzy ukończą to szkolenie prowadzone przez instruktora w Polsce, zdobędą praktyczną, rzeczywistą wiedzę na temat Big Data oraz powiązanych technologii, metodologii i narzędzi.
Uczestnicy będą mieli okazję zastosować tę wiedzę w praktyce poprzez ćwiczenia praktyczne. Interakcja w grupie i feedback od instruktora stanowią ważny element zajęć.
Kurs rozpoczyna się od wprowadzenia do podstawowych pojęć Big Data, następnie przechodzi do języków programowania i metodologii używanych do analizy danych. Na koniec omawiamy narzędzia i infrastrukturę umożliwiające przechowywanie Big Data, przetwarzanie rozproszone i skalowalność.
Apache NiFi dla administratorów
21 godzinApache NiFi to platforma do integracji danych i przetwarzania zdarzeń oparta na przepływach, dostępna jako oprogramowanie open-source. Umożliwia automatyczne, w czasie rzeczywistym, routowanie, transformację i mediację danych między różnymi systemami, oferując interfejs webowy oraz szczegółową kontrolę.
To szkolenie prowadzone przez instruktora (na miejscu lub zdalnie) jest skierowane do administratorów i inżynierów na poziomie średniozaawansowanym, którzy chcą wdrażać, zarządzać, zabezpieczać i optymalizować przepływy danych NiFi w środowiskach produkcyjnych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Instalować, konfigurować i utrzymywać klastry Apache NiFi.
- Projektować i zarządzać przepływami danych z różnych źródeł i miejsc docelowych.
- Implementować automatyzację przepływów, routowanie i logikę transformacji.
- Optymalizować wydajność, monitorować operacje i rozwiązywać problemy.
Format kursu
- Interaktywny wykład z omówieniem architektury w oparciu o rzeczywiste przypadki.
- Praktyczne laboratoria: budowanie, wdrażanie i zarządzanie przepływami.
- Ćwiczenia oparte na scenariuszach w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, prosimy o kontakt w celu uzgodnienia szczegółów.
PySpark i Uczenie Maszynowe
21 godzinSzkolenie to zapewnia praktyczne wprowadzenie do budowania skalowalnych procesów przetwarzania danych i przepływów pracy w zakresie uczenia maszynowego przy użyciu PySpark. Uczestnicy dowiedzą się, jak Apache Spark działa w ramach nowoczesnych ekosystemów Big Data oraz jak efektywnie przetwarzać duże zbiory danych, korzystając z zasad obliczeń rozproszonych.
Podstawy Apache Spark
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark.
- Szybko przetwarzać i analizować bardzo duże zbiory danych.
- Zrozumieć różnicę między Apache Spark a Hadoop MapReduce oraz kiedy używać którego z nich.
- Zintegrować Apache Spark z innymi narzędziami do uczenia maszynowego.
Administracja Apache Spark
35 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów na poziomie podstawowym i średniozaawansowanym, którzy chcą wdrażać, utrzymywać i optymalizować klastry Spark.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark w różnych środowiskach.
- Zarządzać zasobami klastra i monitorować aplikacje Spark.
- Optymalizować wydajność klastrów Spark.
- Wdrażaæ środki bezpieczeństwa i zapewniać wysoką dostępność.
- Debugować i rozwiązywać typowe problemy związane z Spark.
Apache Spark w chmurze
21 godzinKrzywa uczenia się Apache Spark na początku rośnie powoli, wymaga wiele wysiłku, aby uzyskać pierwsze rezultaty. Ten kurs ma na celu przeskoczenie przez tę trudną początkową fazę. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark, będą wyraźnie rozróżniać RDD od DataFrame, nauczą się korzystać z API Pythona i Scali, zrozumieją rolę executorów i zadań itp. Ponadto, zgodnie z najlepszymi praktykami, kurs silnie koncentruje się na wdrożeniu w chmurze, Databricks i AWS. Uczestnicy zrozumieją również różnice między AWS EMR a AWS Glue, jednym z najnowszych usług Spark oferowanych przez AWS.
PUBLICZNOŚĆ:
Inżynierowie danych, DevOps, Data Scientist
Python i Spark dla Big Data (PySpark)
21 godzinPodczas tego szkolenia prowadzonego przez instruktora na żywo w Polsce, uczestnicy nauczą się, jak używać Pythona i Sparka razem do analizy dużych zbiorów danych, pracując nad praktycznymi ćwiczeniami.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Nauczyć się, jak używać Sparka z Pythonem do analizy dużych zbiorów danych.
- Pracować nad ćwiczeniami, które odzwierciedlają rzeczywiste przypadki.
- Stosować różne narzędzia i techniki do analizy dużych zbiorów danych za pomocą PySpark.
Python, Spark i Hadoop dla Big Data
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do programistów, którzy chcą wykorzystywać i integrować Spark, Hadoop i Python do przetwarzania, analizy i transformacji dużych i złożonych zbiorów danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Skonfigurować niezbędne środowisko do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, główne komponenty i architekturę Spark i Hadoop.
- Nauczyć się, jak integrować Spark, Hadoop i Python do przetwarzania dużych zbiorów danych.
- Poznać narzędzia w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Budować systemy rekomendacji oparte na filtrowaniu współpracującym, podobne do tych używanych przez Netflix, YouTube, Amazon, Spotify i Google.
- Wykorzystać Apache Mahout do skalowania algorytmów uczenia maszynowego.
Apache Spark SQL
7 godzinSpark SQL to moduł Apache Spark do pracy ze strukturalnymi i niestrukturalnymi danymi. Spark SQL dostarcza informacji o strukturze danych oraz o wykonywanych obliczeniach. Informacje te mogą być wykorzystane do optymalizacji. Dwa najczęstsze zastosowania Spark SQL to:
- wykonywanie zapytań SQL.
- odczytywanie danych z istniejącej instalacji Hive.
W tym szkoleniu prowadzonym przez instruktora (na miejscu lub zdalnie), uczestnicy nauczą się, jak analizować różne typy zbiorów danych za pomocą Spark SQL.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Spark SQL.
- Wykonywać analizę danych za pomocą Spark SQL.
- Przeprowadzać zapytania na zbiorach danych w różnych formatach.
- Wizualizować dane i wyniki zapytań.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie z tego kursu, prosimy o kontakt w celu ustalenia szczegółów.
Stratio: Moduły Rocket i Intelligence z PySpark
14 godzinStratio to platforma zorientowana na dane, która integruje big data, sztuczną inteligencję i zarządzanie w jednym rozwiązaniu. Jej moduły Rocket i Intelligence umożliwiają szybkie eksplorowanie, przekształcanie i zaawansowaną analizę danych w środowiskach przedsiębiorstw.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów od danych na poziomie średniozaawansowanym, którzy chcą efektywnie korzystać z modułów Rocket i Intelligence w Stratio z wykorzystaniem PySpark, koncentrując się na strukturach pętlowych, funkcjach zdefiniowanych przez użytkownika oraz zaawansowanej logice danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Poruszać się i pracować w platformie Stratio, korzystając z modułów Rocket i Intelligence.
- Stosować PySpark w kontekście pozyskiwania, przekształcania i analizy danych.
- Używać pętli i logiki warunkowej do kontrolowania przepływów danych i zadań inżynierii cech.
- Tworzyć i zarządzać funkcjami zdefiniowanymi przez użytkownika (UDF) do wielokrotnego wykorzystania operacji na danych w PySpark.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.