Plan Szkolenia

Szczegółowy plan szkolenia

  1. Wprowadzenie do NLP
    • Zrozumienie NLP
    • Ramy NLP
    • Komercyjne zastosowania NLP
    • Pobieranie danych z sieci
    • Praca z różnymi API do pobierania danych tekstowych
    • Praca i przechowywanie korpusów tekstowych - zapisywanie zawartości i odpowiedniej metadanych
    • Zalety kursu szybkiego Python i NLTK
  2. Praktyczne zrozumienie korpusu i zbioru danych
    • Dlaczego potrzebny jest korpus?
    • Analiza korpusu
    • Rodzaje atrybutów danych
    • Różne formaty plików dla korpusów
    • Przygotowanie zbioru danych do zastosowań NLP
  3. Zrozumienie struktury zdania
    • Składniki NLP
    • Zrozumienie języka naturalnego
    • Analiza morfologiczna - rdzeń, słowo, token, etykiety mówienia
    • Analiza składniowa
    • Analiza semantyczna
    • Obsługa dwuznaczności
  4. Przetwarzanie wstępne danych tekstowych
    • Korpus - surowy tekst
      • Tokenizacja zdania
      • Stemming dla surowego tekstu
      • Lematyzacja surowego tekstu
      • Usuwanie stop-wordów
    • Korpus - surowe zdania
      • Word tokenization
      • Word lemmatization
    • Praca z macierzą Term-Document/Document-Term
    • Tokenizacja tekstu na n-gramy i zdania
    • Praktyczne i spersonalizowane przetwarzanie wstępne
  5. Analiza danych tekstowych
    • Podstawowe cechy NLP
      • Parsery i parsowanie
      • Tagowanie części mowy i taggery
      • Wykrywanie encji nazwanych
      • N-gramy
      • Bag of words
    • Statystyczne cechy NLP
      • Pojęcia algebry liniowej dla NLP
      • Teoria probabilistyczna dla NLP
      • TF-IDF
      • Wektoryzacja
      • Kodery i dekodery
      • Normalizacja
      • Modele probabilistyczne
    • Zaawansowane inżynieria cech i NLP
      • Podstawy word2vec
      • Składniki modelu word2vec
      • Logika modelu word2vec
      • Rozszerzenie koncepcji word2vec
      • Zastosowanie modelu word2vec
    • Przykład zastosowania bag of words: automatyczne streszczenie tekstu za pomocą uproszczonych i prawdziwych algorytmów Luhn'a
  6. Klasyfikacja, klasyfikacja dokumentów i modelowanie tematów
    • Klasyfikacja dokumentów i wydobywanie wzorców (hierarchiczna klasyfikacja, k-means, klasyfikacja, itp.)
    • Porównywanie i klasyfikowanie dokumentów za pomocą miar TFIDF, Jaccard i cosinus
    • Klasyfikacja dokumentów za pomocą Naïve Bayes i Maximum Entropy
  7. Wykrywanie ważnych tekstów Element
    • Redukcja wymiarowości: Analiza składowych głównych, rozkład wartości singularnych, rozkład macierzy nieujemnej
    • Modelowanie tematów i wyszukiwanie informacji za pomocą analizy semantycznej latentnej
  8. Wykrywanie encji, Sentiment Analysis i zaawansowane modelowanie tematów
    • Pozytywne vs. negatywne: stopień sentymentu
    • Teoria odpowiedzi na elementy
    • Tagowanie części mowy i jego zastosowanie: wyszukiwanie osób, miejsc i organizacji wspomnianych w tekście
    • Zaawansowane modelowanie tematów: Latent Dirichlet Allocation
  9. Przykłady zastosowań
    • Wydobywanie niestrukturyzowanych opinii użytkowników
    • Klasyfikacja i wizualizacja sentymentu danych recenzji produktów
    • Wydobywanie logów wyszukiwania w celu wyodrębnienia wzorców użytkowania
    • Klasyfikacja tekstu
    • Modelowanie tematów

Wymagania

Znajomość i świadomość zasad NLP oraz docenienie zastosowania sztucznej inteligencji w biznesie
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie