Apache Iceberg Fundamentals - Plan Szkolenia
Apache Iceberg to otwarty format tabel dla dużych zbiorów danych, który zapewnia niezawodność i prostotę tabel SQL do dużych zbiorów danych. Został zaprojektowany w celu rozwiązania wyzwań związanych z zarządzaniem dużymi zbiorami danych w jeziorach danych, które często wymagają obsługi złożonych schematów, dużych plików i różnych źródeł danych.
To prowadzone przez instruktora szkolenie na żywo (na miejscu lub zdalnie) jest przeznaczone dla początkujących specjalistów od danych, którzy chcą zdobyć wiedzę i umiejętności niezbędne do efektywnego wykorzystania Apache Iceberg do zarządzania dużymi zbiorami danych, zapewnienia integralności danych i optymalizacji przepływów pracy przetwarzania danych.
Pod koniec tego szkolenia uczestnicy będą mogli
- Dokładnie zrozumieć architekturę, funkcje i zalety Apache Iceberg.
- Dowiedzieć się o formatach tabel, partycjonowaniu, ewolucji schematu i możliwościach podróży w czasie.
- Zainstalować i skonfigurować Apache Iceberg w różnych środowiskach.
- Tworzenie, zarządzanie i manipulowanie tabelami Iceberg.
- Zrozumieć proces migracji danych z innych formatów tabel do Iceberg.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku laboratoryjnym na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami.
Plan Szkolenia
Wprowadzenie do Apache Iceberg
- Przegląd Apache Iceberg
- Znaczenie i przypadki użycia w nowoczesnej architekturze danych
- Kluczowe funkcje i korzyści
Podstawowe koncepcje
- Format i architektura tabeli Iceberg
- Porównanie z innymi formatami tabel
- Partycjonowanie i ewolucja schematu
- Podróż w czasie i wersjonowanie danych
Konfiguracja Apache Iceberg
- Instalacja i konfiguracja
- Integracja Iceberg z różnymi silnikami przetwarzania danych
- Konfiguracja środowiska Iceberg na komputerze lokalnym
Podstawowe operacje
- Tworzenie i zarządzanie tabelami Iceberg
- Zapisywanie i odczytywanie danych z tabel Iceberg
- Podstawowe operacje CRUD
Migracja i integracja danych
- Migracja danych z Hive i innych systemów do Iceberg
- Integracja z narzędziami BI
- Migracja przykładowego zestawu danych do Iceberg
Optymalizacja wydajności
- Techniki dostrajania wydajności
- Optymalizacja zapytań i skanowania danych
- Optymalizacja wydajności w Iceberg
Przegląd funkcji zaawansowanych
- Ewolucja partycji i partycjonowanie ukryte
- Ewolucja tabel i zmiany schematu
- Funkcje podróży w czasie i wycofywania
- Wdrażanie zaawansowanych funkcji w Iceberg
Podsumowanie i kolejne kroki
Wymagania
- Znajomość pojęć takich jak tabele, schematy, partycje i pozyskiwanie danych
- Podstawowa znajomość SQL
Odbiorcy
- Inżynierowie danych
- Architekci danych
- Analitycy danych
- Programiści
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Apache Iceberg Fundamentals - Plan Szkolenia - Booking
Apache Iceberg Fundamentals - Plan Szkolenia - Enquiry
Apache Iceberg Fundamentals - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (4)
Trener dobrze zrozumiał koncepty
Josheel - Verizon Connect
Szkolenie - Amazon Redshift
Przetłumaczone przez sztuczną inteligencję
funkcje analityczne
khusboo dassani - Tech Northwest Skillnet
Szkolenie - SQL Advanced
Przetłumaczone przez sztuczną inteligencję
jak trener prezentuje swoją wiedzę z tematu, który uczy
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Szkolenie - Data Vault: Building a Scalable Data Warehouse
Przetłumaczone przez sztuczną inteligencję
zakres wiedzy szkolącego
Marcin Szymkowiak - SoftForYou Sp. z o.o. Sp. k.
Szkolenie - Greenplum Database
Propozycje terminów
Szkolenia Powiązane
Big Data & Database Systems Fundamentals
14 godzinKurs jest częścią zestawu umiejętności Data Scientist (Domena: Dane i technologia).
SQL Advanced
14 godzinTo szkolenie prowadzone przez instruktora w Polsce (online lub na miejscu) jest skierowane do administratorów baz danych, developerów i analityków o średnim poziomie zaawansowania, którzy chcą opanować zaawansowane funkcje SQL do wykonywania skomplikowanych operacji na danych i zarządzania bazami danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Wykonywać zaawansowane techniki zapytania za pomocą unii, podzapytania i skomplikowanych łączeń.
- Dodawać, aktualizować i usuwać dane, tabele, widoki i indeksy z precyzją.
- Zapewniać integralność danych poprzez transakcje i manipulować strukturami bazy danych.
- Tworzyć i zarządzać bazami danych efektywnie dla niezawodnego przechowywania i pobierania danych.
Apache Druid for Real-Time Data Analysis
21 godzinApache Druid to open-source'owy, kolumnowy, rozproszony magazyn danych napisany w języku Java. Został zaprojektowany do szybkiego pozyskiwania ogromnych ilości danych o zdarzeniach i wykonywania zapytań OLAP o niskim opóźnieniu na tych danych. Druid jest powszechnie stosowany w aplikacjach analityki biznesowej do analizowania dużych ilości danych w czasie rzeczywistym i danych historycznych. Doskonale nadaje się również do zasilania szybkich, interaktywnych, analitycznych pulpitów nawigacyjnych dla użytkowników końcowych. Druid jest używany przez takie firmy jak Alibaba, Airbnb, Cisco, eBay, Netflix, Paypal i Yahoo.
W tym prowadzonym przez instruktora kursie na żywo badamy niektóre ograniczenia rozwiązań hurtowni danych i omawiamy, w jaki sposób Druid może uzupełniać te technologie, tworząc elastyczny i skalowalny stos analityki strumieniowej. Przechodzimy przez wiele przykładów, oferując uczestnikom możliwość wdrożenia i przetestowania rozwiązań opartych na Druidzie w środowisku laboratoryjnym.
Format kursu
- Część wykładu, część dyskusji, ciężka praktyka praktyczna, okazjonalne testy w celu oceny zrozumienia
Apache Kylin: Real-Time OLAP on Big Data
14 godzinTo szkolenie prowadzone przez instruktora w trybie Polsce (online lub na miejscu) jest skierowane do profesjonalistów big data o poziomie średnim, którzy chcą wykorzystywać Apache Kylin do budowy magazynów danych w czasie rzeczywistym i wykonywania wielowymiarowej analizy na dużych zbiorach danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Konfigurować i uruchamiać Apache Kylin z źródłami strumieniowymi danych w czasie rzeczywistym.
- Projektować i budować sześciany OLAP dla danych zarówno paczkowych, jak i strumieniowych.
- Wykonywać złożone zapytania z opóźnieniem mniejszym niż sekundę za pomocą interfejsu SQL Kylin.
- Integrować Kylin z narzędziami BI do interaktywnej wizualizacji danych.
- Optymalizować wydajność i zarządzać zasobami w Kylin.
Data Vault: Building a Scalable Data Warehouse
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak zbudować Data Vault.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę i koncepcje projektowe stojące za Data Vault 2.0 oraz jego interakcję z Big Data, NoSQL i AI.
- Korzystać z technik przechowywania danych w celu umożliwienia audytu, śledzenia i inspekcji danych historycznych w hurtowni danych.
- Opracowanie spójnego i powtarzalnego procesu ETL (Extract, Transform, Load).
- Tworzenie i wdrażanie wysoce skalowalnych i powtarzalnych hurtowni.
Amazon Redshift
21 godzinAmazon Redshift to oparta na chmurze usługa hurtowni danych w skali petabajtów w AWS.
W tym prowadzonym przez instruktora szkoleniu na żywo uczestnicy poznają podstawy Amazon Redshift.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Amazon Redshift
- Ładować, konfigurować, wdrażać, wysyłać zapytania i wizualizować dane za pomocą Amazon Redshift.
Uczestnicy
- Programiści
- Specjaliści IT
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna
Uwaga
- Aby poprosić o niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Greenplum Database
14 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla administratorów, którzy chcą skonfigurować Greenplum dla rozwiązań i hurtowni danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zaspokajać potrzeby przetwarzania z użyciem Greenplum.
- Wykonuję operacje ETL do przetwarzania danych.
- Wykorzystują istniejące infrastruktury przetwarzania zapytań.
IBM Datastage For Administrators and Developers
35 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla średniozaawansowanych specjalistów IT, którzy chcą mieć kompleksową wiedzę na temat IBM DataStage zarówno z perspektywy administracyjnej, jak i programistycznej, umożliwiając im efektywne zarządzanie i wykorzystywanie tego narzędzia w swoich miejscach pracy.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumieć podstawowe koncepcje DataStage.
- Dowiedz się, jak skutecznie instalować, konfigurować i zarządzać środowiskami DataStage.
- Łączyć się z różnymi źródłami danych i skutecznie wyodrębniać dane z baz danych, plików płaskich i źródeł zewnętrznych.
- Wdrożyć skuteczne techniki ładowania danych.
Snowflake - poziom zaawansowany
14 godzinSnowflake to platforma przechowywania danych w chmurze, która oferuje szerokie możliwości przetwarzania i analizy dużych zbiorów danych. Jest to rozwiązanie typu Software-as-a-Service (SaaS), które łączy w sobie elastyczność i skalowalność chmury z możliwościami zaawansowanego magazynu danych. Kluczowe cechy i funkcje Snowflake obejmują:
Architektura oparta na chmurze: Snowflake jest zbudowany w chmurze i zoptymalizowany pod kątem elastyczności i wydajności, co pozwala na łatwą skalowalność zasobów do przechowywania i przetwarzania danych.
Rozdzielenie obciążenia magazynowania i przetwarzania: Unikalna architektura Snowflake rozdziela obciążenie magazynowania danych od obciążenia przetwarzania, co pozwala na niezależne skalowanie i optymalizację tych dwóch aspektów.
Wsparcie dla różnorodnych danych: Snowflake umożliwia przechowywanie i analizę różnorodnych typów danych, w tym danych strukturalnych, półstrukturalnych (np. JSON, XML) i niestrukturalnych.
Wysoka wydajność i optymalizacja zapytań: System oferuje szybkie przetwarzanie zapytań i automatyczną optymalizację, co pozwala na efektywne wykonywanie złożonych analiz na dużych zbiorach danych.
Zabezpieczenia i zarządzanie dostępem: Snowflake zapewnia zaawansowane funkcje bezpieczeństwa, w tym szyfrowanie danych, zarządzanie dostępem na poziomie ról i audytowanie.
Łatwość integracji: Platforma łatwo integruje się z popularnymi narzędziami i usługami ETL, BI oraz analizy danych, co pozwala na tworzenie kompleksowych rozwiązań analitycznych.
Elastyczność i skalowalność kosztów: Model płatności oparty na użyciu pozwala na optymalizację kosztów i płacenie tylko za faktycznie wykorzystane zasoby.
Uniwersalność zastosowań: Snowflake jest odpowiedni dla różnych przypadków użycia, od prostych analiz BI po zaawansowane przetwarzanie danych, w tym analizy big data, machine learning i inne.
Snowflake jest popularnym wyborem wśród organizacji każdej wielkości ze względu na swoją elastyczność, wydajność, łatwość obsługi i możliwość dostosowania do różnych potrzeb biznesowych i technologicznych.
Azure Data Lake Storage Gen2
14 godzinThis instructor-led, live training in Polsce (online or onsite) is aimed at intermediate-level data engineers who wish to learn how to use Azure Data Lake Storage Gen2 for effective data analytics solutions.
By the end of this training, participants will be able to:
- Understand the architecture and key features of Azure Data Lake Storage Gen2.
- Optimize data storage and access for cost and performance.
- Integrate Azure Data Lake Storage Gen2 with other Azure services for analytics and data processing.
- Develop solutions using the Azure Data Lake Storage Gen2 API.
- Troubleshoot common issues and optimize storage strategies.
Big Data Consulting
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla średniozaawansowanych specjalistów IT, którzy chcą podnieść swoje umiejętności w zakresie architektury danych, zarządzania, przetwarzania w chmurze i technologii Big Data, aby skutecznie zarządzać i analizować duże zbiory danych w celu migracji danych w swoich organizacjach.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumieć podstawowe pojęcia i komponenty różnych architektur danych.
- Uzyskać kompleksowe zrozumienie zasad zarządzania danymi i ich znaczenia w środowiskach regulacyjnych.
- Wdrażać i zarządzać strukturami zarządzania danymi, takimi jak Dama i Togaf.
- Wykorzystać platformy chmurowe do wydajnego przechowywania, przetwarzania i zarządzania danymi.
Advanced Apache Iceberg
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla zaawansowanych specjalistów ds. danych, którzy chcą zoptymalizować przepływy pracy przetwarzania danych, zapewnić integralność danych i wdrożyć solidne rozwiązania data lakehouse, które mogą obsługiwać złożoność nowoczesnych aplikacji big data.
Pod koniec tego szkolenia uczestnicy będą mogli
- Uzyskać dogłębne zrozumienie architektury Iceberg, w tym zarządzania metadanymi i układu plików.
- Skonfigurować Iceberg dla optymalnej wydajności w różnych środowiskach i zintegrować go z wieloma silnikami przetwarzania danych.
- Zarządzać wielkoskalowymi tabelami Iceberg, wykonywać złożone zmiany schematu i obsługiwać ewolucję partycji.
- Opanowanie technik optymalizacji wydajności zapytań i wydajności skanowania danych dla dużych zbiorów danych.
- Wdrożenie mechanizmów zapewniających spójność danych, zarządzanie gwarancjami transakcyjnymi i obsługę awarii w środowiskach rozproszonych.
Greenplum Administration: Installation, Updates, and Libraries
21 godzinGreenplum jest otwartą platformą do przetwarzania danych w dużych skalach opartą na PostgreSQL, zaprojektowaną do zaawansowanej analizy i dużej skalności magazynów danych.
Ten kurs prowadzony przez instruktora (online lub na miejscu) jest skierowany do administratorów średniego poziomu, którzy chcą zainstalować, skonfigurować i zarządzać środowiskami Greenplum skutecznie, w tym zarządzać aktualizacjami systemu i bibliotekami.
Po zakończeniu tego kursu uczestnicy będą mogli:
- Zainstalować i skonfigurować gotowy do produkcji klaster Greenplum.
- Zarządzać aktualizacjami systemu i bezpiecznie stosować poprawki.
- Zarządzać bibliotekami Greenplum do analizy i rozszerzeń.
- Rozwiązywać problemy i monitorować systemy Greenplum.
Format kursu
- Interaktywna wykład i dyskusja.
- Praktyczne użycie Greenplum w kontrolowanym środowisku laboratoryjnym.
- Przewodowane ćwiczenia skupione na konfiguracji klastra, przepływach aktualizacji i rozszerzeniach systemu.
Opcje dostosowania kursu
- Aby poprosić o dostosowany kurs dla tego kursu na podstawie Twojego środowiska lub platformy danych, skontaktuj się z nami, aby to zorganizować.
Greenplum Architecture and Data Modeling
21 godzinGreenplum to otwarta platforma przetwarzania masowo równoległego (MPP) przeznaczona dla analityki i dużej skali danych.
Ten prowadzony przez instruktora kurs (online lub na miejscu) jest skierowany do użytkowników technicznych o poziomie zaawansowanym do bardzo zaawansowanym, którzy chcą zrozumieć wewnętrzną architekturę Greenplum, budować optymalizowane modele danych i stosować wysokowydajne SQL w rozproszonych środowiskach.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Zrozumieć architekturę shared-nothing Greenplum i model równoległości.
- Projektować rozproszone struktury tabel i partycje optymalizowane dla wydajności zapytań.
- Używać strategii indeksowania, formatów przechowywania i technik projektowania fizycznego.
- Interpretować plany EXPLAIN i optymalizować zapytania za pomocą najlepszych praktyk.
Format kursu
- Interaktywne wykłady i dyskusje.
- Wiele ćwiczeń i praktyki.
- Ręczne wdrażanie w środowisku labora-torium na żywo.
Opcje dostosowania kursu
- Aby zapytać o dostosowany kurs dla tego szkolenia, prosimy o kontakt, aby umówić się.