Plan Szkolenia
Wprowadzenie
- Nauka poprzez pozytywne wzmocnienie
Elementy Reinforcement Learning
Ważne terminy (akcje, stany, nagrody, polityka, wartość, wartość Q itp.)
Przegląd metod rozwiązań tabelarycznych
Tworzenie agenta oprogramowania
Zrozumienie podejść opartych na wartościach, polityce i modelach
Praca z procesem decyzyjnym Markowa (MDP)
Jak zasady definiują sposób zachowania agenta?
Korzystanie z metod Monte Carlo
Uczenie się różnic czasowych
n-step Bootstrapping
Metody rozwiązania przybliżonego
Przewidywanie na podstawie polityki z aproksymacją
Kontrola bieżącej polityki z aproksymacją
Metody poza polityką z aproksymacją
Zrozumienie zasad śledzenia uprawnień
Korzystanie z metod gradientu polityki
Podsumowanie i wnioski
Wymagania
- Doświadczenie w uczeniu maszynowym
- Programming doświadczenia
Publiczność
- Naukowcy danych
Opinie uczestników (1)
Poziom szkolenia był na wysokim poziomie. Prowadzący nie bał się używać matematycznych formalizmów.