Plan Szkolenia

spark.mllib: typy danych, algorytmy i narzędzia

  • Typy danych
  • Podstawowe statystyki
    • statystyki podsumowujące
    • korelacje
    • próbkowanie warstwowe
    • testowanie hipotez
    • strumieniowe testowanie istotności
    • losowe generowanie danych
  • Klasyfikacja i regresja
    • modele liniowe (SVM, regresja logistyczna, regresja liniowa)
    • naiwny Bayes
    • drzewa decyzyjne
    • zespoły drzew (Random Forests i Gradient-Boosted Trees)
    • regresja izotoniczna
  • Filtrowanie oparte na współpracy
    • naprzemienne najmniejsze kwadraty (ALS)
  • Klasteryzacja
    • k-średnich
    • Mieszanka gaussowska
    • klastrowanie z iteracją mocy (PIC)
    • ukryta alokacja Dirichleta (LDA)
    • dwusieczna metoda k-średnich
    • k-średnich strumieniowych
  • Redukcja wymiarowości
    • dekompozycja wartości pojedynczej (SVD)
    • analiza składowych głównych (PCA)
  • Ekstrakcja i transformacja cech
  • Eksploracja częstych wzorców
    • Wzrost FP
    • reguły asocjacyjne
    • PrefixSpan
  • Metryki oceny
  • Eksport modelu PMML
  • Optymalizacja (deweloper)
    • stochastyczne zejście gradientowe
    • BFGS z ograniczoną pamięcią (L-BFGS)

spark.ml: API wysokiego poziomu dla potoków ML

  • Przegląd: estymatory, transformatory i potoki
  • Wyodrębnianie, przekształcanie i wybieranie cech
  • Klasyfikacja i regresja
  • Klasteryzacja
  • Tematy zaawansowane

Wymagania

Znajomość jednego z poniższych:

  • Java
  • Scala
  • Python
  • SparkR
 35 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie