Plan Szkolenia

1. Wprowadzenie do Uczenia się z Wzmocnieniem z Użyciem Sieci Nerwowych

  • Co to jest Uczenie się z Wzmocnieniem?
  • Różnice między uczeniem nadzorowanym, nieznajomym i uczeniem się z wzmocnieniem
  • Zastosowania DRL w 2025 (robotyka, opieka zdrowotna, finanse, logistyka)
  • Zrozumienie pętli interakcji pomiędzy agentem a środowiskiem

2. Podstawy Uczenia się z Wzmocnieniem

  • Procesy decyzyjne Markowa (MDP)
  • Stan, Akcja, Nagroda, Polityka i Funkcje wartości
  • Równowaga między eksploracją a eksploatacją
  • Metody Monte Carlo i uczenie się Temporal-Difference (TD)

3. Implementacja podstawowych algorytmów RL

  • Metody tablicowe: Programowanie dynamiczne, ocena polityki i iteracja
  • Q-Learning i SARSA
  • Epsilon-greedy eksploracja i strategie zaniku
  • Implementacja środowisk RL z OpenAI Gymnasium

4. Przejście do głębokiego uczenia się z wzmocnieniem

  • Ograniczenia metod tablicowych
  • Używanie sieci neuronowych do aproksymacji funkcji
  • Architektura i przepływ pracy sieci głębokiego Q-Network (DQN)
  • Przechowywanie doświadczeń i sieci docelowe

5. Zaawansowane algorytmy DRL

  • Double DQN, Dueling DQN i Prioritized Experience Replay
  • Metody gradientów polityki: Algorytm REINFORCE
  • Architektury Actor-Critic (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Praca z przestrzenią ciągłych działań

  • Wyzwania w ciągłym sterowaniu
  • Używanie DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Praktyczne narzędzia i frameworki

  • Używanie Stable-Baselines3 i Ray RLlib
  • Logowanie i monitorowanie z TensorBoard
  • Dostrajanie hiperparametrów dla modeli DRL

8. Inżynieria nagród i projektowanie środowiska

  • Kształtowanie nagród i bilansowanie kar
  • Koncepcje uczenia się transferowego z symulacji do rzeczywistości
  • Tworzenie niestandardowych środowisk w Gymnasium

9. Częściowo obserwowalne środowiska i ogólnienie

  • Obsługa niepełnej informacji o stanie (POMDPs)
  • Metody oparte na pamięci z użyciem LSTMs i RNNs
  • Poprawa odporności agenta i ogólnienia

10. Teoria gier i wieloagentowe uczenie się z wzmocnieniem

  • Wprowadzenie do środowisk wieloagentowych
  • Współpraca vs. konkurencja
  • Zastosowania w przeciwdziałaniu uczeniu się i optymalizacji strategii

11. Studia przypadków i zastosowania w rzeczywistym świecie

  • Symulacje jazdy autonomicznej
  • Dynamiczne ceny i strategie handlu finansowego
  • Robotyka i automatyzacja przemysłowa

12. Diagnostyka i optymalizacja

  • Rozpoznawanie niestabilnego treningu
  • Zarządzanie rzadkością nagród i przeuczaniem
  • Skalowanie modeli DRL na GPU i systemach rozproszonych

13. Podsumowanie i następne kroki

  • Przegląd architektury DRL i kluczowych algorytmów
  • Tendencje przemysłowe i kierunki badań (np. RLHF, hybrydowe modele)
  • Dodatkowe zasoby i materiały do czytania

Wymagania

  • Biegłość w programowaniu w języku Python
  • Zrozumienie Rachunku Różniczkowego i Algebry Liniowej
  • Podstawowa wiedza z zakresu Rachunku Prawdopodobieństwa i Statystyki
  • Dozwolona znajomość tworzenia modeli uczenia maszynowego za pomocą Python i NumPy lub TensorFlow/PyTorch

Grupa docelowa

  • Developers zainteresowani sztuczną inteligencją i inteligentnymi systemami
  • Naukowcy danych eksplorujący ramki uczenia wzmacniającego
  • Inżynierowie uczenia maszynowego pracujący z autonomicznymi systemami
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie