Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Wprowadzenie do nauk o danych dla analizy Big Data
- Przegląd nauk o danych
- Przegląd Big Data
- Struktury danych
- Czynniki napędzające i złożoność Big Data
- Ekosystem Big Data i nowy sposób analizy
- Kluczowe technologie w Big Data
- Proces i problemy data mining
- Wykrywanie wzorców zależności
- Klasteryzacja danych
- Wykrywanie wariancji
- Klasyfikacja danych
Wprowadzenie do cyklu życia analizy danych
- Odkrywanie
- Przygotowanie danych
- Planowanie modeli
- Budowanie modeli
- Prezentacja/Komunikacja wyników
- Operacjonalizacja
- Ćwiczenie: Studium przypadku
Od tego punktu większość czasu szkoleniowego (80%) zostanie poświęcona przykładom i ćwiczeniom w języku R i związanej z nim technologii Big Data.
Wprowadzenie do R
- Instalowanie R i RStudio
- Cechy języka R
- Obiekty w R
- Dane w R
- Manipulacja danymi
- Problemy z Big Data
- Ćwiczenia
Wprowadzenie do Hadoop
- Instalowanie Hadoop
- Zrozumienie trybów Hadoop
- HDFS
- Architektura MapReduce
- Przegląd projektów związanych z Hadoop
- Pisanie programów w Hadoop MapReduce
- Ćwiczenia
Integrowanie R i Hadoop z RHadoop
- Składniki RHadoop
- Instalowanie RHadoop i łączenie z Hadoop
- Architektura RHadoop
- Strumieniowanie Hadoop z R
- Rozwiązywanie problemów analizy danych z RHadoop
- Ćwiczenia
Przetwarzanie i przygotowywanie danych
- Kroki przygotowania danych
- Ekstrakcja cech
- Czyszczenie danych
- Integracja i transformacja danych
- Redukcja danych – próbkowanie, wybór podzbioru cech
- Redukcja wymiarowości
- Dyskretyzacja i grupowanie
- Ćwiczenia i studium przypadku
Metody eksploracyjnej analizy danych w R
- Statystyka opisowa
- Eksploracyjna analiza danych
- Wizualizacja – kroki wstępne
- Wizualizacja pojedynczej zmiennej
- Badanie wielu zmiennych
- Statystyczne metody oceny
- Testowanie hipotez
- Ćwiczenia i studium przypadku
Wizualizacje danych
- Podstawowe wizualizacje w R
- Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice
- Formatowanie wykresów w R
- Zaawansowane wykresy
- Ćwiczenia
Regresja (Szacowanie przyszłych wartości)
- Regresja liniowa
- Przypadki użycia
- Opis modelu
- Diagnoza
- Problemy z regresją liniową
- Metody skracania, regresja ridge, lasso
- Uogólnienia i nieliniowość
- Splajny regresji
- Lokalna regresja wielomianowa
- Uogólnione modele addytywne
- Regresja z RHadoop
- Ćwiczenia i studium przypadku
Klasyfikacja
- Problemy związane z klasyfikacją
- Przypomnienie Bayesa
- Naïve Bayes
- Logistyczna regresja
- K-najbliższych sąsiadów
- Algoritm drzew decyzyjnych
- Sieci neuronowe
- Maszyny wektorów nośnych
- Diagnoza klasyfikatorów
- Porównanie metod klasyfikacji
- Skalowalne algorytmy klasyfikacji
- Ćwiczenia i studium przypadku
Ocena wydajności modelu i wybór
- Przesadne podejście, wariancja i złożoność modelu
- Dokładność vs interpretowalność
- Ocena klasyfikatorów
- Miary wydajności modelu/algorytmu
- Metoda walidacji hold-out
- Walidacja krzyżowa
- Dostrajanie algorytmów uczenia maszynowego z pakietem caret
- Wizualizacja wydajności modelu z wykresami Profit ROC i Lift
Metody ensemblowe
- Bagging
- Lasy losowe
- Boosting
- Gradient boosting
- Ćwiczenia i studium przypadku
Maszyny wektorów nośnych do klasyfikacji i regresji
- Klasyfikatory maksymalnego marginesu
- Maszyny wektorów nośnych
- Klasyfikatory wektorów nośnych
- SVM do problemów klasyfikacji
- SVM do problemów regresji
- Ćwiczenia i studium przypadku
Wykrywanie nieznanych grupowania w zbiorze danych
- Wybór cech do klasteryzacji
- Algoritmy opierające się na reprezentacji: k-means, k-medoidy
- Hierarchiczne algorytmy: metody agglomeracyjne i dywizyjne
- Algoritmy o podstawie probabilistycznej: EM
- Algoritmy o podstawie gęstości: DBSCAN, DENCLUE
- Weryfikacja klasterów
- Zaawansowane koncepcje klasteryzacji
- Klasteryzacja z RHadoop
- Ćwiczenia i studium przypadku
Odkrywanie połączeń z analizą linków
- Koncepcje analizy linków
- Metryki do analizy sieci
- Algorytm PageRank
- Hyperlink-Induced Topic Search
- Predykcja połączeń
- Ćwiczenia i studium przypadku
Wykrywanie wzorców zależności
- Model częstotliwości wzorców
- Problemy skalowalności w częstotliwości wzorców
- Algoritmy brute force
- Algorytm Apriori
- Metoda FP growth
- Ocena reguł kandydackich
- Zastosowania reguł zależności
- Weryfikacja i testowanie
- Diagnoza
- Reguły zależności z R i Hadoop
- Ćwiczenia i studium przypadku
Budowanie silników rekomendacji
- Zrozumienie systemów rekomendacji
- Techniki data mining używane w systemach rekomendacji
- Systemy rekomendacji z pakietem recommenderlab
- Ocena systemów rekomendacji
- Rekomendacje z RHadoop
- Ćwiczenie: Budowanie silnika rekomendacji
Analiza tekstu
- Kroki analizy tekstu
- Zbieranie surowych tekstów
- Bag of words
- Częstotliwość terminów – odwrotna częstotliwość dokumentów
- Określanie nastrojów
- Ćwiczenia i studium przypadku
35 godzin
Opinie uczestników (2)
Intensywność, Materiały szkoleniowe i ekspertyza, Jasność, Excelszybka komunikacja z Alessandrą
Marija Hornis Dmitrovic - Marija Hornis
Szkolenie - Data Science for Big Data Analytics
Przetłumaczone przez sztuczną inteligencję
The example and training material were sufficient and made it easy to understand what you are doing. Przykłady i materiały szkoleniowe były wystarczające i ułatwiły zrozumienie, co się robi.
Teboho Makenete
Szkolenie - Data Science for Big Data Analytics
Przetłumaczone przez sztuczną inteligencję