Plan Szkolenia

Wprowadzenie do nauk o danych dla analizy Big Data

  • Przegląd nauk o danych
  • Przegląd Big Data
  • Struktury danych
  • Czynniki napędzające i złożoność Big Data
  • Ekosystem Big Data i nowy sposób analizy
  • Kluczowe technologie w Big Data
  • Proces i problemy data mining
    • Wykrywanie wzorców zależności
    • Klasteryzacja danych
    • Wykrywanie wariancji
    • Klasyfikacja danych

Wprowadzenie do cyklu życia analizy danych

  • Odkrywanie
  • Przygotowanie danych
  • Planowanie modeli
  • Budowanie modeli
  • Prezentacja/Komunikacja wyników
  • Operacjonalizacja
  • Ćwiczenie: Studium przypadku

Od tego punktu większość czasu szkoleniowego (80%) zostanie poświęcona przykładom i ćwiczeniom w języku R i związanej z nim technologii Big Data.

Wprowadzenie do R

  • Instalowanie R i RStudio
  • Cechy języka R
  • Obiekty w R
  • Dane w R
  • Manipulacja danymi
  • Problemy z Big Data
  • Ćwiczenia

Wprowadzenie do Hadoop

  • Instalowanie Hadoop
  • Zrozumienie trybów Hadoop
  • HDFS
  • Architektura MapReduce
  • Przegląd projektów związanych z Hadoop
  • Pisanie programów w Hadoop MapReduce
  • Ćwiczenia

Integrowanie R i Hadoop z RHadoop

  • Składniki RHadoop
  • Instalowanie RHadoop i łączenie z Hadoop
  • Architektura RHadoop
  • Strumieniowanie Hadoop z R
  • Rozwiązywanie problemów analizy danych z RHadoop
  • Ćwiczenia

Przetwarzanie i przygotowywanie danych

  • Kroki przygotowania danych
  • Ekstrakcja cech
  • Czyszczenie danych
  • Integracja i transformacja danych
  • Redukcja danych – próbkowanie, wybór podzbioru cech
  • Redukcja wymiarowości
  • Dyskretyzacja i grupowanie
  • Ćwiczenia i studium przypadku

Metody eksploracyjnej analizy danych w R

  • Statystyka opisowa
  • Eksploracyjna analiza danych
  • Wizualizacja – kroki wstępne
  • Wizualizacja pojedynczej zmiennej
  • Badanie wielu zmiennych
  • Statystyczne metody oceny
  • Testowanie hipotez
  • Ćwiczenia i studium przypadku

Wizualizacje danych

  • Podstawowe wizualizacje w R
  • Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice
  • Formatowanie wykresów w R
  • Zaawansowane wykresy
  • Ćwiczenia

Regresja (Szacowanie przyszłych wartości)

  • Regresja liniowa
  • Przypadki użycia
  • Opis modelu
  • Diagnoza
  • Problemy z regresją liniową
  • Metody skracania, regresja ridge, lasso
  • Uogólnienia i nieliniowość
  • Splajny regresji
  • Lokalna regresja wielomianowa
  • Uogólnione modele addytywne
  • Regresja z RHadoop
  • Ćwiczenia i studium przypadku

Klasyfikacja

  • Problemy związane z klasyfikacją
  • Przypomnienie Bayesa
  • Naïve Bayes
  • Logistyczna regresja
  • K-najbliższych sąsiadów
  • Algoritm drzew decyzyjnych
  • Sieci neuronowe
  • Maszyny wektorów nośnych
  • Diagnoza klasyfikatorów
  • Porównanie metod klasyfikacji
  • Skalowalne algorytmy klasyfikacji
  • Ćwiczenia i studium przypadku

Ocena wydajności modelu i wybór

  • Przesadne podejście, wariancja i złożoność modelu
  • Dokładność vs interpretowalność
  • Ocena klasyfikatorów
  • Miary wydajności modelu/algorytmu
  • Metoda walidacji hold-out
  • Walidacja krzyżowa
  • Dostrajanie algorytmów uczenia maszynowego z pakietem caret
  • Wizualizacja wydajności modelu z wykresami Profit ROC i Lift

Metody ensemblowe

  • Bagging
  • Lasy losowe
  • Boosting
  • Gradient boosting
  • Ćwiczenia i studium przypadku

Maszyny wektorów nośnych do klasyfikacji i regresji

  • Klasyfikatory maksymalnego marginesu
    • Maszyny wektorów nośnych
    • Klasyfikatory wektorów nośnych
    • SVM do problemów klasyfikacji
    • SVM do problemów regresji
  • Ćwiczenia i studium przypadku

Wykrywanie nieznanych grupowania w zbiorze danych

  • Wybór cech do klasteryzacji
  • Algoritmy opierające się na reprezentacji: k-means, k-medoidy
  • Hierarchiczne algorytmy: metody agglomeracyjne i dywizyjne
  • Algoritmy o podstawie probabilistycznej: EM
  • Algoritmy o podstawie gęstości: DBSCAN, DENCLUE
  • Weryfikacja klasterów
  • Zaawansowane koncepcje klasteryzacji
  • Klasteryzacja z RHadoop
  • Ćwiczenia i studium przypadku

Odkrywanie połączeń z analizą linków

  • Koncepcje analizy linków
  • Metryki do analizy sieci
  • Algorytm PageRank
  • Hyperlink-Induced Topic Search
  • Predykcja połączeń
  • Ćwiczenia i studium przypadku

Wykrywanie wzorców zależności

  • Model częstotliwości wzorców
  • Problemy skalowalności w częstotliwości wzorców
  • Algoritmy brute force
  • Algorytm Apriori
  • Metoda FP growth
  • Ocena reguł kandydackich
  • Zastosowania reguł zależności
  • Weryfikacja i testowanie
  • Diagnoza
  • Reguły zależności z R i Hadoop
  • Ćwiczenia i studium przypadku

Budowanie silników rekomendacji

  • Zrozumienie systemów rekomendacji
  • Techniki data mining używane w systemach rekomendacji
  • Systemy rekomendacji z pakietem recommenderlab
  • Ocena systemów rekomendacji
  • Rekomendacje z RHadoop
  • Ćwiczenie: Budowanie silnika rekomendacji

Analiza tekstu

  • Kroki analizy tekstu
  • Zbieranie surowych tekstów
  • Bag of words
  • Częstotliwość terminów – odwrotna częstotliwość dokumentów
  • Określanie nastrojów
  • Ćwiczenia i studium przypadku
 35 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie