Plan Szkolenia
1. Wprowadzenie do Głębokiego Uczenia przez Wzmocnienie
- Czym jest Uczenie przez Wzmocnienie?
- Różnica między uczeniem nadzorowanym, nienadzorowanym i uczeniem przez wzmacnianie
- Zastosowania DRL w 2025 roku (robotyka, opieka zdrowotna, finanse, logistyka)
- Zrozumienie pętli interakcji agent-środowisko
2. Podstawy Uczenia przez Wzmocnienie
- Procesy decyzyjne Markowa (MDP)
- Funkcje stanu, akcji, nagrody, polityki i wartości
- Kompromis między eksploracją a eksploatacją
- Metody Monte Carlo i uczenie Temporal-Difference (TD)
3. Implementacja podstawowych algorytmów RL
- Metody tabelaryczne: Programowanie dynamiczne, ocena i iteracja polityki
- Q-Learning i SARSA
- Strategie eksploracji epsilon-zachłanne i ich zmniejszanie
- Implementacja środowisk RL z użyciem OpenAI Gymnasium
4. Przejście do Głębokiego Uczenia przez Wzmocnienie
- Ograniczenia metod tabelarycznych
- Wykorzystanie sieci neuronowych do aproksymacji funkcji
- Architektura i przepływ pracy Deep Q-Network (DQN)
- Powtórzenie doświadczeń i sieci docelowe
5. Zaawansowane algorytmy DRL
- Double DQN, Dueling DQN i Priorytetowe Powtórzenie Doświadczeń
- Metody Gradientu Polityki: Algorytm REINFORCE
- Architektury Actor-Critic (A2C, A3C)
- Optymalizacja Proksymalnej Polityki (PPO)
- Soft Actor-Critic (SAC)
6. Praca z ciągłymi przestrzeniami akcji
- Wyzwania w ciągłym sterowaniu
- Wykorzystanie DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktyczne narzędzia i frameworki
- Wykorzystanie Stable-Baselines3 i Ray RLlib
- Logowanie i monitorowanie za pomocą TensorBoard
- Strojenie hiperparametrów dla modeli DRL
8. Inżynieria nagród i projektowanie środowisk
- Kształtowanie nagród i równoważenie kar
- Koncepcje transferu uczenia z symulacji do rzeczywistości
- Tworzenie własnych środowisk w Gymnasium
9. Środowiska częściowo obserwowalne i generalizacja
- Obsługa niepełnych informacji o stanie (POMDPs)
- Podejścia oparte na pamięci z użyciem LSTMs i RNNs
- Poprawa odporności i generalizacji agenta
10. Teoria gier i wieloagentowe uczenie przez wzmacnianie
- Wprowadzenie do środowisk wieloagentowych
- Współpraca vs. konkurencja
- Zastosowania w szkoleniu antagonistycznym i optymalizacji strategii
11. Studia przypadków i rzeczywiste zastosowania
- Symulacje jazdy autonomicznej
- Dynamiczne ustalanie cen i strategie handlu finansowego
- Robotyka i automatyzacja przemysłowa
12. Rozwiązywanie problemów i optymalizacja
- Diagnozowanie niestabilnego treningu
- Zarządzanie rzadkością nagród i nadmiernym dopasowaniem
- Skalowanie modeli DRL na GPU i systemach rozproszonych
13. Podsumowanie i kolejne kroki
- Podsumowanie architektury DRL i kluczowych algorytmów
- Trendy branżowe i kierunki badań (np. RLHF, modele hybrydowe)
- Dodatkowe zasoby i materiały do czytania
Wymagania
- Biegłość w programowaniu w Pythonie
- Zrozumienie rachunku różniczkowego i algebry liniowej
- Podstawowa wiedza z zakresu prawdopodobieństwa i statystyki
- Doświadczenie w budowaniu modeli uczenia maszynowego przy użyciu Pythona i NumPy lub TensorFlow/PyTorch
Grupa docelowa
- Programiści zainteresowani AI i inteligentnymi systemami
- Naukowcy zajmujący się danymi, badający frameworki uczenia przez wzmacnianie
- Inżynierowie uczenia maszynowego pracujący z systemami autonomicznymi
Opinie uczestników (4)
Interaktywność szkolenia. Dużo eksperymentowaliśmy.
Lidia Opuchlik - Orange Szkolenia
Szkolenie - Deep Reinforcement Learning with Python
przejście po kolei od podstaw po zagadnieniach RL, tak by użycie framework'ów i customizowanych środowisk było finalnie w pełni zrozumiałe
Magdalena Dziwiszewska - Orange Szkolenia
Szkolenie - Deep Reinforcement Learning with Python
Dużo przykładów, interaktywny styl prowadzenia, odpowiedni czas na przerwy i rozwiązywanie zadań, gotowe maszyny ze środowiskiem i materiałami
Wojciech Bogucki - Orange Szkolenia
Szkolenie - Deep Reinforcement Learning with Python
wiedza trenera i sposób jej przekazania, możliwość dyskusji i zadawania pytań