Bądźmy w kontakcie

Plan Szkolenia

1. Wprowadzenie do Głębokiego Uczenia przez Wzmocnienie

  • Czym jest Uczenie przez Wzmocnienie?
  • Różnica między uczeniem nadzorowanym, nienadzorowanym i uczeniem przez wzmacnianie
  • Zastosowania DRL w 2025 roku (robotyka, opieka zdrowotna, finanse, logistyka)
  • Zrozumienie pętli interakcji agent-środowisko

2. Podstawy Uczenia przez Wzmocnienie

  • Procesy decyzyjne Markowa (MDP)
  • Funkcje stanu, akcji, nagrody, polityki i wartości
  • Kompromis między eksploracją a eksploatacją
  • Metody Monte Carlo i uczenie Temporal-Difference (TD)

3. Implementacja podstawowych algorytmów RL

  • Metody tabelaryczne: Programowanie dynamiczne, ocena i iteracja polityki
  • Q-Learning i SARSA
  • Strategie eksploracji epsilon-zachłanne i ich zmniejszanie
  • Implementacja środowisk RL z użyciem OpenAI Gymnasium

4. Przejście do Głębokiego Uczenia przez Wzmocnienie

  • Ograniczenia metod tabelarycznych
  • Wykorzystanie sieci neuronowych do aproksymacji funkcji
  • Architektura i przepływ pracy Deep Q-Network (DQN)
  • Powtórzenie doświadczeń i sieci docelowe

5. Zaawansowane algorytmy DRL

  • Double DQN, Dueling DQN i Priorytetowe Powtórzenie Doświadczeń
  • Metody Gradientu Polityki: Algorytm REINFORCE
  • Architektury Actor-Critic (A2C, A3C)
  • Optymalizacja Proksymalnej Polityki (PPO)
  • Soft Actor-Critic (SAC)

6. Praca z ciągłymi przestrzeniami akcji

  • Wyzwania w ciągłym sterowaniu
  • Wykorzystanie DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Praktyczne narzędzia i frameworki

  • Wykorzystanie Stable-Baselines3 i Ray RLlib
  • Logowanie i monitorowanie za pomocą TensorBoard
  • Strojenie hiperparametrów dla modeli DRL

8. Inżynieria nagród i projektowanie środowisk

  • Kształtowanie nagród i równoważenie kar
  • Koncepcje transferu uczenia z symulacji do rzeczywistości
  • Tworzenie własnych środowisk w Gymnasium

9. Środowiska częściowo obserwowalne i generalizacja

  • Obsługa niepełnych informacji o stanie (POMDPs)
  • Podejścia oparte na pamięci z użyciem LSTMs i RNNs
  • Poprawa odporności i generalizacji agenta

10. Teoria gier i wieloagentowe uczenie przez wzmacnianie

  • Wprowadzenie do środowisk wieloagentowych
  • Współpraca vs. konkurencja
  • Zastosowania w szkoleniu antagonistycznym i optymalizacji strategii

11. Studia przypadków i rzeczywiste zastosowania

  • Symulacje jazdy autonomicznej
  • Dynamiczne ustalanie cen i strategie handlu finansowego
  • Robotyka i automatyzacja przemysłowa

12. Rozwiązywanie problemów i optymalizacja

  • Diagnozowanie niestabilnego treningu
  • Zarządzanie rzadkością nagród i nadmiernym dopasowaniem
  • Skalowanie modeli DRL na GPU i systemach rozproszonych

13. Podsumowanie i kolejne kroki

  • Podsumowanie architektury DRL i kluczowych algorytmów
  • Trendy branżowe i kierunki badań (np. RLHF, modele hybrydowe)
  • Dodatkowe zasoby i materiały do czytania

Wymagania

  • Biegłość w programowaniu w Pythonie
  • Zrozumienie rachunku różniczkowego i algebry liniowej
  • Podstawowa wiedza z zakresu prawdopodobieństwa i statystyki
  • Doświadczenie w budowaniu modeli uczenia maszynowego przy użyciu Pythona i NumPy lub TensorFlow/PyTorch

Grupa docelowa

  • Programiści zainteresowani AI i inteligentnymi systemami
  • Naukowcy zajmujący się danymi, badający frameworki uczenia przez wzmacnianie
  • Inżynierowie uczenia maszynowego pracujący z systemami autonomicznymi
 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (4)

Propozycje terminów

Powiązane Kategorie