Plan Szkolenia

Wprowadzenie

  • Nauka poprzez pozytywne wzmocnienie

Elementy Reinforcement Learning

Ważne terminy (akcje, stany, nagrody, polityka, wartość, wartość Q itp.)

Przegląd metod rozwiązań tabelarycznych

Tworzenie agenta oprogramowania

Zrozumienie podejść opartych na wartościach, polityce i modelach

Praca z procesem decyzyjnym Markowa (MDP)

Jak zasady definiują sposób zachowania agenta?

Korzystanie z metod Monte Carlo

Uczenie się różnic czasowych

n-step Bootstrapping

Metody rozwiązania przybliżonego

Przewidywanie na podstawie polityki z aproksymacją

Kontrola bieżącej polityki z aproksymacją

Metody poza polityką z aproksymacją

Zrozumienie zasad śledzenia uprawnień

Korzystanie z metod gradientu polityki

Podsumowanie i wnioski

Wymagania

  • Doświadczenie w uczeniu maszynowym
  • Programming doświadczenia

Publiczność

  • Naukowcy danych
 21 godzin

Liczba uczestników



Cena za uczestnika

Opinie uczestników (1)

Powiązane Kategorie