Plan Szkolenia

Szczegółowy plan szkolenia

  1. Wprowadzenie do NLP
    • Zrozumienie NLP
    • Ramki NLP
    • Komercyjne zastosowania NLP
    • Druczek danych z internetu
    • Praca z różnymi API w celu pobierania danych tekstowych
    • Praca i przechowywanie korpusów tekstowych, zapisywanie zawartości i relevantnych metadanych
    • Zalety użycia Pythona i wprowadzenie do NLTK
  2. Prawdziwe zrozumienie korpusu i zestawu danych
    • Dlaczego potrzebujemy korpusu?
    • Analiza korpusu
    • Typy atrybutów danych
    • Różne formaty plików dla korpusów
    • Przygotowanie zestawu danych do zastosowań NLP
  3. Zrozumienie struktury zdania
    • Komponenty NLP
    • Naturalna interpretacja języka
    • Morfologiczna analiza - stem, słowo, token, tagi mowy
    • Składowa analiza
    • Analiza semantyczna
    • Obsługa niejednoznaczności
  4. Przetwarzanie danych tekstowych
    • Korpus - surowy tekst
      • Dzielenie na zdania
      • Stemming dla surowego tekstu
      • Lemmatyzacja surowego tekstu
      • Usuwanie słów nieznaczących
    • Korpus - surowe zdania
      • Dzielenie na słowa
      • Lemmatyzacja słów
    • Praca z macierzami termin-dokument/dokument-termin
    • Dzielenie tekstu na n-gramy i zdania
    • Prawdziwe i dostosowane przetwarzanie
  5. Analiza danych tekstowych
    • Podstawowe cechy NLP
      • Arytmetycyki i analiza
      • Tagi części mowy (POS) i tagery
      • Rozpoznawanie nazwanych jednostek
      • N-gramy
      • Torba słów (bag of words)
    • Statystyczne cechy NLP
      • Koncepcje algebry liniowej dla NLP
      • Teoria probabilistyczna dla NLP
      • TF-IDF
      • Wektoryzacja
      • Kodery i dekodery
      • Normalizacja
      • Modele probabilistyczne
    • Zaawansowane inżynieria cech i NLP
      • Podstawy word2vec
      • Komponenty modelu word2vec
      • Logika modelu word2vec
      • Rozszerzenie koncepcji word2vec
      • Zastosowanie modelu word2vec
    • Przypadek studium: Zastosowanie torby słów (bag of words): automatyczne streszczenie tekstu za pomocą uproszczonego i prawdziwego algorytmu Luhna
  6. Klasterowanie, klasyfikacja i modelowanie tematów dokumentów
    • Klasterowanie dokumentów i wydobywanie wzorców (klasterowanie hierarchiczne, k-means, itp.)
    • Porównywanie i klasyfikowanie dokumentów za pomocą miar odległości TFIDF, Jaccard i cosinusowej
    • Klasyfikacja dokumentów przy użyciu Naïve Bayes i Maximum Entropy
  7. Identyfikacja ważnych elementów tekstu
    • Redukcja wymiarowości: Analiza głównych składowych (PCA), rozkład wartości singularnych (SVD), faktoryzacja macierzy nieujemnej (NMF)
    • Modelowanie tematów i wyszukiwanie informacji za pomocą Analizy Semantycznej Łatentnej (LSA)
  8. Wyciąganie jednostek, analiza nastroju i zaawansowane modelowanie tematów
    • Pozitif vs. negatyf: stopień sentymentu
    • Teoria odpowiedzi na elementy (Item Response Theory)
    • Tagi części mowy (POS) i ich zastosowanie: wykrywanie osób, miejsc i organizacji wymienionych w tekście
    • Zaawansowane modelowanie tematów: Łatentna alokacja Dirichleta (LDA)
  9. Przypadki studium
    • Wydobywanie nieuporządkowanych opinii użytkowników
    • Klasyfikacja i wizualizacja danych ocen produktów
    • Wydobywanie wzorców użycia z dzienników wyszukiwania
    • Klasyfikacja tekstu
    • Modelowanie tematów

Wymagania

Znajomość i świadoma korzystanie z zasad NLP oraz docenianie zastosowań AI w biznesie

 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie