Analiza Danych Dużych Objętości w Zdrowiu - Plan Szkolenia
Analiza danych dużych objętości obejmuje proces badania dużych ilości różnorodnych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych użytecznych informacji.
Branża zdrowia generuje ogromne ilości złożonych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy danych dużych objętości w danych zdrowotnych stwarza ogromny potencjał w uzyskiwaniu informacji mających na celu poprawę jakości opieki zdrowotnej. Jednak ogrom tych zbiorów danych stanowi duże wyzwanie w analizach i praktycznych zastosowaniach w środowisku klinicznym.
Podczas tego szkolenia prowadzonego przez instruktora (zdalnie), uczestnicy nauczą się, jak przeprowadzać analizę danych dużych objętości w dziedzinie zdrowia, przechodząc przez serię praktycznych ćwiczeń w laboratorium.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować narzędzia do analizy danych dużych objętości, takie jak Hadoop MapReduce i Spark
- Zrozumieć charakterystykę danych medycznych
- Zastosować techniki danych dużych objętości do pracy z danymi medycznymi
- Poznać systemy i algorytmy danych dużych objętości w kontekście zastosowań w zdrowiu
Grupa docelowa
- Programiści
- Analitycy danych
Format kursu
- Część wykładowa, część dyskusyjna, ćwiczenia i intensywna praktyka.
Uwaga
- Aby zamówić szkolenie dostosowane do potrzeb, prosimy o kontakt w celu uzgodnienia szczegółów.
Plan Szkolenia
Wprowadzenie do analizy danych dużych objętości w zdrowiu
Przegląd technologii analizy danych dużych objętości
- Apache Hadoop MapReduce
- Apache Spark
Instalacja i konfiguracja Apache Hadoop MapReduce
Instalacja i konfiguracja Apache Spark
Stosowanie modelowania predykcyjnego dla danych zdrowotnych
Wykorzystanie Apache Hadoop MapReduce do danych zdrowotnych
Przeprowadzanie fenotypowania i grupowania na danych zdrowotnych
- Metryki oceny klasyfikacji
- Metody zespołowe klasyfikacji
Wykorzystanie Apache Spark do danych zdrowotnych
Praca z ontologią medyczną
Stosowanie analizy grafów na danych zdrowotnych
Redukcja wymiarowości na danych zdrowotnych
Praca z metrykami podobieństwa pacjentów
Rozwiązywanie problemów
Podsumowanie i zakończenie
Wymagania
- Zrozumienie pojęć związanych z uczeniem maszynowym i eksploracją danych
- Zaawansowane doświadczenie w programowaniu (Python, Java, Scala)
- Biegłość w procesach danych i ETL
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Analiza Danych Dużych Objętości w Zdrowiu - Plan Szkolenia - Rezerwacja
Analiza Danych Dużych Objętości w Zdrowiu - Plan Szkolenia - Zapytanie
Analiza Danych Dużych Objętości w Zdrowiu - Zapytanie o Konsultacje
Opinie uczestników (1)
Bardzo polubiłem maszynę wirtualną. Nauczyciel był bardzo kompetentny nie tylko w temacie zajęć, ale także w innych dziedzinach, a ponadto był miły i przyjazny. Polubiłem też obiekt w Dubaju.
Safar Alqahtani - Elm Information Security
Szkolenie - Big Data Analytics in Health
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Administrator Training for Apache Hadoop
35 godzinGrupa docelowa:
Kurs jest przeznaczony dla specjalistów IT poszukujących rozwiązania do przechowywania i przetwarzania dużych zbiorów danych w środowisku systemów rozproszonych.
Cel:
Pogłębienie wiedzy na temat administracji klastrem Hadoop.
Analiza dużych danych z wykorzystaniem Google Colab i Apache Spark
14 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do średnio zaawansowanych naukowców zajmujących się danymi oraz inżynierów, którzy chcą wykorzystać Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować środowisko do pracy z dużymi danymi przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Integrować Apache Spark z narzędziami chmurowymi.
Hadoop i Spark dla administratorów
35 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów, którzy chcą nauczyć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Hadoop.
- Zrozumieć cztery główne komponenty ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używać Hadoop Distributed File System (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Skonfigurować HDFS jako silnik magazynowania dla lokalnych wdrożeń Spark.
- Skonfigurować Spark do korzystania z alternatywnych rozwiązań magazynowych, takich jak Amazon S3, oraz systemów bazodanowych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywać zadania administracyjne, takie jak provisionowanie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
Praktyczne wprowadzenie do przetwarzania strumieniowego
21 godzinW tym szkoleniu prowadzonym przez instruktora, na żywo w Polsce (stacjonarnie lub zdalnie), uczestnicy nauczą się, jak skonfigurować i zintegrować różne frameworki do przetwarzania strumieniowego z istniejącymi systemami przechowywania danych big data oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować różne frameworki do przetwarzania strumieniowego, takie jak Spark Streaming i Kafka Streaming.
- Zrozumieć i wybrać najbardziej odpowiedni framework do danego zadania.
- Przetwarzać dane w sposób ciągły, równoległy i rekord po rekordzie.
- Zintegrować rozwiązania do przetwarzania strumieniowego z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Zintegrować najbardziej odpowiednią bibliotekę do przetwarzania strumieniowego z aplikacjami przedsiębiorstwa i mikrousługami.
PySpark and Machine Learning
21 godzinThis training provides a practical introduction to building scalable data processing and Machine Learning workflows using PySpark. Participants learn how Apache Spark operates within modern Big Data ecosystems and how to efficiently process large datasets using distributed computing principles.
SMACK Stack dla Data Science
14 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do data scientistów, którzy chcą wykorzystać stos SMACK do budowy platform przetwarzania danych dla rozwiązań big data.
Pod koniec szkolenia uczestnicy będą w stanie:
- Zaimplementować architekturę potoku danych do przetwarzania big data.
- Rozwinąć infrastrukturę klastrową z wykorzystaniem Apache Mesos i Dockera.
- Analizować dane za pomocą Spark i Scala.
- Zarządzać danymi niestrukturyzowanymi za pomocą Apache Cassandra.
Podstawy Apache Spark
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark.
- Szybko przetwarzać i analizować bardzo duże zbiory danych.
- Zrozumieć różnicę między Apache Spark a Hadoop MapReduce oraz kiedy używać którego z nich.
- Zintegrować Apache Spark z innymi narzędziami do uczenia maszynowego.
Administracja Apache Spark
35 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do administratorów systemów na poziomie podstawowym i średniozaawansowanym, którzy chcą wdrażać, utrzymywać i optymalizować klastry Spark.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apache Spark w różnych środowiskach.
- Zarządzać zasobami klastra i monitorować aplikacje Spark.
- Optymalizować wydajność klastrów Spark.
- Wdrażaæ środki bezpieczeństwa i zapewniać wysoką dostępność.
- Debugować i rozwiązywać typowe problemy związane z Spark.
Apache Spark w chmurze
21 godzinKrzywa uczenia się Apache Spark na początku rośnie powoli, wymaga wiele wysiłku, aby uzyskać pierwsze rezultaty. Ten kurs ma na celu przeskoczenie przez tę trudną początkową fazę. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark, będą wyraźnie rozróżniać RDD od DataFrame, nauczą się korzystać z API Pythona i Scali, zrozumieją rolę executorów i zadań itp. Ponadto, zgodnie z najlepszymi praktykami, kurs silnie koncentruje się na wdrożeniu w chmurze, Databricks i AWS. Uczestnicy zrozumieją również różnice między AWS EMR a AWS Glue, jednym z najnowszych usług Spark oferowanych przez AWS.
PUBLICZNOŚĆ:
Inżynierowie danych, DevOps, Data Scientist
Spark dla programistów
21 godzinCELE:
Ten kurs wprowadzi uczestników w Apache Spark. Uczestnicy dowiedzą się, jak Spark wpisuje się w ekosystem Big Data oraz jak wykorzystywać Sparka do analizy danych. Kurs obejmuje powłokę Spark do interaktywnej analizy danych, wewnętrzne mechanizmy Sparka, interfejsy API Sparka, Spark SQL, przetwarzanie strumieniowe w Sparku, a także uczenie maszynowe i GraphX.
ADRESACI:
Programiści / Analitycy danych
Skalowanie potoków danych z Spark NLP
14 godzinTo szkolenie prowadzone przez instruktora, na żywo w Polsce (online lub na miejscu) jest skierowane do naukowców zajmujących się danymi oraz programistów, którzy chcą używać Spark NLP, zbudowanego na bazie Apache Spark, do opracowywania, wdrażania i skalowania modeli oraz potoków przetwarzania tekstu w języku naturalnym.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować niezbędne środowisko programistyczne do rozpoczęcia budowania potoków NLP z użyciem Spark NLP.
- Zrozumieć funkcje, architekturę i korzyści wynikające z używania Spark NLP.
- Wykorzystać wstępnie wytrenowane modele dostępne w Spark NLP do implementacji przetwarzania tekstu.
- Nauczyć się, jak budować, trenować i skalować modele Spark NLP dla projektów produkcyjnych.
- Stosować klasyfikację, wnioskowanie i analizę sentymentu w rzeczywistych przypadkach użycia (dane kliniczne, analiza zachowań klientów itp.).
Python i Spark dla Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Python, Spark i Hadoop dla Big Data
21 godzinTo szkolenie prowadzone przez instruktora na żywo w Polsce (online lub na miejscu) jest skierowane do programistów, którzy chcą wykorzystywać i integrować Spark, Hadoop i Python do przetwarzania, analizy i transformacji dużych i złożonych zbiorów danych.
Pod koniec szkolenia uczestnicy będą mogli:
- Skonfigurować niezbędne środowisko do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, główne komponenty i architekturę Spark i Hadoop.
- Nauczyć się, jak integrować Spark, Hadoop i Python do przetwarzania dużych zbiorów danych.
- Poznać narzędzia w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Budować systemy rekomendacji oparte na filtrowaniu współpracującym, podobne do tych używanych przez Netflix, YouTube, Amazon, Spotify i Google.
- Wykorzystać Apache Mahout do skalowania algorytmów uczenia maszynowego.
Apache Spark SQL
7 godzinSpark SQL to moduł Apache Spark do pracy ze strukturalnymi i niestrukturalnymi danymi. Spark SQL dostarcza informacji o strukturze danych oraz o wykonywanych obliczeniach. Informacje te mogą być wykorzystane do optymalizacji. Dwa najczęstsze zastosowania Spark SQL to:
- wykonywanie zapytań SQL.
- odczytywanie danych z istniejącej instalacji Hive.
W tym szkoleniu prowadzonym przez instruktora (na miejscu lub zdalnie), uczestnicy nauczą się, jak analizować różne typy zbiorów danych za pomocą Spark SQL.
Pod koniec szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Spark SQL.
- Wykonywać analizę danych za pomocą Spark SQL.
- Przeprowadzać zapytania na zbiorach danych w różnych formatach.
- Wizualizować dane i wyniki zapytań.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie z tego kursu, prosimy o kontakt w celu ustalenia szczegółów.
Stratio: Moduły Rocket i Intelligence z PySpark
14 godzinStratio to platforma zorientowana na dane, która integruje big data, sztuczną inteligencję i zarządzanie w jednym rozwiązaniu. Jej moduły Rocket i Intelligence umożliwiają szybkie eksplorowanie, przekształcanie i zaawansowaną analizę danych w środowiskach przedsiębiorstw.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów od danych na poziomie średniozaawansowanym, którzy chcą efektywnie korzystać z modułów Rocket i Intelligence w Stratio z wykorzystaniem PySpark, koncentrując się na strukturach pętlowych, funkcjach zdefiniowanych przez użytkownika oraz zaawansowanej logice danych.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Poruszać się i pracować w platformie Stratio, korzystając z modułów Rocket i Intelligence.
- Stosować PySpark w kontekście pozyskiwania, przekształcania i analizy danych.
- Używać pętli i logiki warunkowej do kontrolowania przepływów danych i zadań inżynierii cech.
- Tworzyć i zarządzać funkcjami zdefiniowanymi przez użytkownika (UDF) do wielokrotnego wykorzystania operacji na danych w PySpark.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.