Bądźmy w kontakcie

Plan Szkolenia

Szczegółowy program szkolenia

  1. Wprowadzenie do NLP
    • Zrozumienie NLP
    • Frameworki NLP
    • Komercyjne zastosowania NLP
    • Pobieranie danych z internetu
    • Praca z różnymi API w celu pozyskiwania danych tekstowych
    • Praca i przechowywanie korpusów tekstowych, zapisywanie treści i odpowiednich metadanych
    • Zalety korzystania z Pythona i szybki kurs NLTK
  2. Praktyczne zrozumienie korpusu i zbioru danych
    • Dlaczego potrzebujemy korpusu?
    • Analiza korpusu
    • Typy atrybutów danych
    • Różne formaty plików dla korpusów
    • Przygotowywanie zbioru danych do zastosowań NLP
  3. Zrozumienie struktury zdania
    • Składniki NLP
    • Zrozumienie języka naturalnego
    • Analiza morfologiczna - rdzeń, słowo, token, tagi mowy
    • Analiza składniowa
    • Analiza semantyczna
    • Radzenie sobie z niejednoznacznością
  4. Wstępne przetwarzanie danych tekstowych
    • Korpus - surowy tekst
      • Tokenizacja zdań
      • Stemming dla surowego tekstu
      • Lemmatyzacja surowego tekstu
      • Usuwanie słów stop
    • Korpus - surowe zdania
      • Tokenizacja słów
      • Lemmatyzacja słów
    • Praca z macierzami Term-Dokument/Dokument-Term
    • Tokenizacja tekstu na n-gramy i zdania
    • Praktyczne i dostosowane przetwarzanie wstępne
  5. Analiza danych tekstowych
    • Podstawowe cechy NLP
      • Parsery i parsowanie
      • Tagowanie części mowy i tagery
      • Rozpoznawanie nazwanych encji
      • N-gramy
      • Worek słów
    • Statystyczne cechy NLP
      • Pojęcia algebry liniowej dla NLP
      • Teoria prawdopodobieństwa dla NLP
      • TF-IDF
      • Wektoryzacja
      • Enkodery i dekodery
      • Normalizacja
      • Modele probabilistyczne
    • Zaawansowane inżynieria cech i NLP
      • Podstawy word2vec
      • Składniki modelu word2vec
      • Logika modelu word2vec
      • Rozszerzenie koncepcji word2vec
      • Zastosowanie modelu word2vec
    • Studium przypadku: Zastosowanie worka słów: automatyczne podsumowywanie tekstu przy użyciu uproszczonego i prawdziwego algorytmu Luhna
  6. Grupowanie dokumentów, klasyfikacja i modelowanie tematów
    • Grupowanie dokumentów i wydobywanie wzorców (grupowanie hierarchiczne, k-średnich itp.)
    • Porównywanie i klasyfikowanie dokumentów przy użyciu miar TFIDF, Jaccarda i odległości cosinusowej
    • Klasyfikacja dokumentów przy użyciu naiwnego Bayesa i maksymalnej entropii
  7. Identyfikowanie ważnych elementów tekstu
    • Redukcja wymiarowości: Analiza głównych składowych, dekompozycja wartości osobliwych, nienegatywna faktoryzacja macierzy
    • Modelowanie tematów i wyszukiwanie informacji przy użyciu analizy latentnej semantycznej
  8. Ekstrakcja encji, analiza sentymentu i zaawansowane modelowanie tematów
    • Pozytywne vs. negatywne: stopień sentymentu
    • Teoria odpowiedzi na pozycje
    • Tagowanie części mowy i jego zastosowanie: znajdowanie osób, miejsc i organizacji wymienionych w tekście
    • Zaawansowane modelowanie tematów: Latent Dirichlet Allocation
  9. Studia przypadków
    • Wydobywanie nieustrukturyzowanych recenzji użytkowników
    • Klasyfikacja sentymentu i wizualizacja danych z recenzji produktów
    • Wydobywanie wzorców użycia z logów wyszukiwania
    • Klasyfikacja tekstu
    • Modelowanie tematów

Wymagania

Wiedza i świadomość zasad NLP oraz zrozumienie zastosowania AI w biznesie

 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie