Programowanie z Big Data w R - Plan Szkolenia
Big Data to termin odnoszący się do rozwiązań przeznaczonych do przechowywania i przetwarzania dużych zbiorów danych. Rozwiązania te, początkowo opracowane przez Google, ewoluowały i zainspirowały inne podobne projekty, z których wiele jest dostępnych jako oprogramowanie open-source. R jest popularnym językiem programowania w branży finansowej.
Plan Szkolenia
Wprowadzenie do programowania Big Data w R (bpdR)
- Konfiguracja środowiska do korzystania z pbdR
- Zakres i dostępne narzędzia w pbdR
- Pakiety często używane z Big Data obok pbdR
Interfejs Przekazywania Wiadomości (MPI)
- Korzystanie z pbdR MPI 5
- Przetwarzanie równoległe
- Komunikacja punkt-punkt
- Wysyłanie macierzy
- Sumowanie macierzy
- Komunikacja zbiorowa
- Sumowanie macierzy z użyciem Reduce
- Scatter / Gather
- Inne komunikaty MPI
Macierze rozproszone
- Tworzenie rozproszonej macierzy diagonalnej
- SVD rozproszonej macierzy
- Budowanie rozproszonej macierzy równolegle
Zastosowania statystyczne
- Całkowanie Monte Carlo
- Odczyt zbiorów danych
- Odczyt na wszystkich procesach
- Rozgłaszanie z jednego procesu
- Odczyt partycjonowanych danych
- Regresja rozproszona
- Rozproszony Bootstrap
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Programowanie z Big Data w R - Plan Szkolenia - Rezerwacja
Programowanie z Big Data w R - Plan Szkolenia - Zapytanie
Programowanie z Big Data w R - Zapytanie o Konsultacje
Opinie uczestników (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Szkolenie - Programming with Big Data in R
Przetłumaczone przez sztuczną inteligencję
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Szkolenie - Programming with Big Data in R
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Analiza dużych danych z wykorzystaniem Google Colab i Apache Spark
14 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do średnio zaawansowanych naukowców zajmujących się danymi oraz inżynierów, którzy chcą wykorzystać Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować środowisko do pracy z dużymi danymi przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Integrować Apache Spark z narzędziami chmurowymi.
Big Data Analiza zdrowia
21 godzinBig data analytics obejmuje proces analizowania dużych ilości zróżnicowanych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych użytecznych wniosków.
Branża zdrowotna posiada masywne ilości skomplikowanych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy big data na danych zdrowotnych daje ogromny potencjał do wyciągania wniosków mających na celu poprawę dostarczania opieki zdrowotnej. Jednakże ogrom tych zestawów danych stwarza duże wyzwania w analizie i praktycznym zastosowaniu w środowisku klinicznym.
W tym prowadzonym przez instruktora, żywym szkoleniu (zdalne), uczestnicy nauczą się wykonywania analizy big data w dziedzinie zdrowia, przechodząc przez serię ćwiczeń w żywych laboratoriach.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Zainstalować i skonfigurować narzędzia do analizy big data, takie jak Hadoop MapReduce i Spark
- Zrozumieć cechy danych medycznych
- Zastosować techniki big data do pracy z danymi medycznymi
- Badac systemy i algorytmy big data w kontekście aplikacji zdrowotnych
Grupa docelowa
- Programiści
- Naukowcy danych
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i intensywna praktyka ręczna.
Uwaga
- Aby zapytać o spersonalizowane szkolenie dla tego kursu, prosimy o kontakt z nami w celu uzgodnienia.
Hadoop i Spark dla administratorów
35 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów, którzy chcą nauczyć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Hadoop.
- Zrozumieć cztery główne komponenty ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używać Hadoop Distributed File System (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Skonfigurować HDFS jako silnik magazynowania dla lokalnych wdrożeń Spark.
- Skonfigurować Spark do korzystania z alternatywnych rozwiązań magazynowych, takich jak Amazon S3, oraz systemów bazodanowych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywać zadania administracyjne, takie jak provisionowanie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
Praktyczne wprowadzenie do przetwarzania strumieniowego
21 godzinW tym szkoleniu prowadzonym przez instruktora, na żywo w Polsce (stacjonarnie lub zdalnie), uczestnicy nauczą się, jak skonfigurować i zintegrować różne frameworki do przetwarzania strumieniowego z istniejącymi systemami przechowywania danych big data oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować różne frameworki do przetwarzania strumieniowego, takie jak Spark Streaming i Kafka Streaming.
- Zrozumieć i wybrać najbardziej odpowiedni framework do danego zadania.
- Przetwarzać dane w sposób ciągły, równoległy i rekord po rekordzie.
- Zintegrować rozwiązania do przetwarzania strumieniowego z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Zintegrować najbardziej odpowiednią bibliotekę do przetwarzania strumieniowego z aplikacjami przedsiębiorstwa i mikrousługami.
SMACK Stack dla Data Science
14 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do data scientistów, którzy chcą wykorzystać stos SMACK do budowy platform przetwarzania danych dla rozwiązań big data.
Pod koniec szkolenia uczestnicy będą w stanie:
- Zaimplementować architekturę potoku danych do przetwarzania big data.
- Rozwinąć infrastrukturę klastrową z wykorzystaniem Apache Mesos i Dockera.
- Analizować dane za pomocą Spark i Scala.
- Zarządzać danymi niestrukturyzowanymi za pomocą Apache Cassandra.
Podstawy Apache Spark
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark.
- Szybko przetwarzać i analizować bardzo duże zbiory danych.
- Zrozumieć różnicę między Apache Spark a Hadoop MapReduce oraz kiedy używać którego z nich.
- Zintegrować Apache Spark z innymi narzędziami do uczenia maszynowego.
Administracja Apache Spark
35 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów na poziomie podstawowym i średniozaawansowanym, którzy chcą wdrażać, utrzymywać i optymalizować klastry Spark.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark w różnych środowiskach.
- Zarządzać zasobami klastra i monitorować aplikacje Spark.
- Optymalizować wydajność klastrów Spark.
- Wdrażaæ środki bezpieczeństwa i zapewniać wysoką dostępność.
- Debugować i rozwiązywać typowe problemy związane z Spark.
Apache Spark w chmurze
21 godzinKrzywa uczenia się Apache Spark na początku rośnie powoli, wymaga wiele wysiłku, aby uzyskać pierwsze rezultaty. Ten kurs ma na celu przeskoczenie przez tę trudną początkową fazę. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark, będą wyraźnie rozróżniać RDD od DataFrame, nauczą się korzystać z API Pythona i Scali, zrozumieją rolę executorów i zadań itp. Ponadto, zgodnie z najlepszymi praktykami, kurs silnie koncentruje się na wdrożeniu w chmurze, Databricks i AWS. Uczestnicy zrozumieją również różnice między AWS EMR a AWS Glue, jednym z najnowszych usług Spark oferowanych przez AWS.
PUBLICZNOŚĆ:
Inżynierowie danych, DevOps, Data Scientist
Spark dla Programistów
21 godzinCEL:
Ten kurs wprowadzi Apache Spark. Studenci dowiedzą się, jak Spark pasuje do ekosystemu Big Data i jak używać Spark do analizy danych. Kurs obejmuje powłokę Spark do interaktywnej analizy danych, elementy wewnętrzne Spark, interfejsy API Spark, Spark SQL, przesyłanie strumieniowe Spark oraz uczenie maszynowe i graphX.
AUDIENCJA :
Programiści / analitycy danych
Skalowanie Pipelines Danych z Spark NLP
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi i programistów, którzy chcą używać Spark NLP, zbudowanego na bazie Apache Spark, do opracowywania, wdrażania i skalowania modeli i potoków przetwarzania tekstu w języku naturalnym.
Pod koniec tego szkolenia uczestnicy będą mogli
- Skonfigurować niezbędne środowisko programistyczne, aby rozpocząć tworzenie potoków NLP za pomocą Spark NLP.
- Zrozumieć funkcje, architekturę i zalety korzystania z Spark NLP.
- Używać wstępnie wytrenowanych modeli dostępnych w Spark NLP do implementacji przetwarzania tekstu.
- Dowiedz się, jak budować, trenować i skalować modele Spark NLP dla projektów klasy produkcyjnej.
- Zastosuj klasyfikację, wnioskowanie i analizę nastrojów w rzeczywistych przypadkach użycia (dane kliniczne, spostrzeżenia dotyczące zachowań klientów itp.)
Python i Spark dla Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Python, Spark i Hadoop dla Big Data
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do programistów, którzy chcą wykorzystywać i integrować Spark, Hadoop i Python do przetwarzania, analizy i transformacji dużych i złożonych zbiorów danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Skonfigurować niezbędne środowisko do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, główne komponenty i architekturę Spark i Hadoop.
- Nauczyć się, jak integrować Spark, Hadoop i Python do przetwarzania dużych zbiorów danych.
- Poznać narzędzia w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Budować systemy rekomendacji oparte na filtrowaniu współpracującym, podobne do tych używanych przez Netflix, YouTube, Amazon, Spotify i Google.
- Wykorzystać Apache Mahout do skalowania algorytmów uczenia maszynowego.
Apache Spark SQL
7 godzinSpark SQL to moduł Apache Spark do pracy ze strukturalnymi i niestrukturalnymi danymi. Spark SQL dostarcza informacji o strukturze danych oraz o wykonywanych obliczeniach. Informacje te mogą być wykorzystane do optymalizacji. Dwa najczęstsze zastosowania Spark SQL to:
- wykonywanie zapytań SQL.
- odczytywanie danych z istniejącej instalacji Hive.
W tym szkoleniu prowadzonym przez instruktora (na miejscu lub zdalnie), uczestnicy nauczą się, jak analizować różne typy zbiorów danych za pomocą Spark SQL.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Spark SQL.
- Wykonywać analizę danych za pomocą Spark SQL.
- Przeprowadzać zapytania na zbiorach danych w różnych formatach.
- Wizualizować dane i wyniki zapytań.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie z tego kursu, prosimy o kontakt w celu ustalenia szczegółów.
Stratio: Moduły Rocket i Intelligence z PySpark
14 godzinStratio to platforma zorientowana na dane, która integruje big data, sztuczną inteligencję i zarządzanie w jednym rozwiązaniu. Jej moduły Rocket i Intelligence umożliwiają szybkie eksplorowanie, przekształcanie i zaawansowaną analizę danych w środowiskach przedsiębiorstw.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów od danych na poziomie średniozaawansowanym, którzy chcą efektywnie korzystać z modułów Rocket i Intelligence w Stratio z wykorzystaniem PySpark, koncentrując się na strukturach pętlowych, funkcjach zdefiniowanych przez użytkownika oraz zaawansowanej logice danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Poruszać się i pracować w platformie Stratio, korzystając z modułów Rocket i Intelligence.
- Stosować PySpark w kontekście pozyskiwania, przekształcania i analizy danych.
- Używać pętli i logiki warunkowej do kontrolowania przepływów danych i zadań inżynierii cech.
- Tworzyć i zarządzać funkcjami zdefiniowanymi przez użytkownika (UDF) do wielokrotnego wykorzystania operacji na danych w PySpark.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.
Wprowadzenie do wizualizacji danych z użyciem Tidyverse i R
7 godzinGrupa docelowa
Format kursu
Pod koniec szkolenia uczestnicy będą w stanie:
W tym prowadzonym przez instruktora, live szkoleniu, uczestnicy nauczą się, jak manipulować i wizualizować dane przy użyciu narzędzi zawartych w Tidyverse.
Tidyverse to zbiór wszechstronnych pakietów R do czyszczenia, przetwarzania, modelowania i wizualizacji danych. Niektóre z wchodzących w skład pakietów to: ggplot2, dplyr, tidyr, readr, purrr i tibble.
- Początkujący w języku R
- Początkujący w analizie i wizualizacji danych
- Część wykładowa, część dyskusyjna, ćwiczenia i intensywna praktyka
- Przeprowadzać analizę danych i tworzyć atrakcyjne wizualizacje
- Wyciągać użyteczne wnioski z różnych zestawów danych przykładowych
- Filtrować, sortować i podsumowywać dane, aby odpowiadać na pytania eksploracyjne
- Przekształcać przetworzone dane w informacyjne wykresy liniowe, słupkowe, histogramy
- Importować i filtrować dane z różnych źródeł, w tym z plików Excel, CSV i SPSS