Plan Szkolenia

Wprowadzenie do uczenia się ze wzmocnieniem i AI agencjalnej

  • Podejmowanie decyzji w warunkach niepewności i planowanie sekwencyjne
  • Kluczowe komponenty RL: agenci, środowiska, stany i nagrody
  • Rola RL w systemach AI adaptacyjnych i agencjalnych

Procesy Decyzyjne Markowa (MDPs)

  • Formalna definicja i właściwości MDPs
  • Funkcje wartości, równania Bellmana i programowanie dynamiczne
  • Ocena, poprawa i iteracja polityki

Modelowe uczenie się ze wzmocnieniem

  • Uczenie Monte Carlo i Temporal-Difference (TD)
  • Q-learning i SARSA
  • Praktyczne ćwiczenie: implementacja metod tabularnych RL w Pythonie

Głębokie uczenie się ze wzmocnieniem

  • Kombinowanie sieci neuronowych z RL do aproksymacji funkcji
  • Sieci Q-głębokie (DQN) i powtórzenie doświadczeń
  • Architektury Actor-Critic i gradienty polityki
  • Praktyczne ćwiczenie: trening agenta za pomocą DQN i PPO z użyciem Stable-Baselines3

Strategie eksploracji i kształtowanie nagród

  • Balansowanie między eksploracją a wyzyskiwaniem (ε-greedy, UCB, metody entropii)
  • Projektowanie funkcji nagrody i unikanie niepożądanych zachowań
  • kształtowanie nagród i nauka krok po kroku (curriculum learning)

Zaawansowane tematy w RL i podejmowaniu decyzji

  • Uczenie się ze wzmocnieniem wieloagentowe i strategie współpracy
  • Hierarchiczne uczenie się ze wzmocnieniem i ramy opcji
  • Uczenie się offline i imitacyjne dla bezpieczniejszego wdrożenia

Środowiska symulacyjne i ocena

  • Użycie OpenAI Gym i niestandardowych środowisk
  • Przestrzenie akcji ciągłe vs. dyskretne
  • Metryki dla wydajności agenta, stabilności i efektywności próbkowania

Integracja RL do systemów AI agencjalnych

  • Kombinowanie rozumowania i RL w hybrydowych architekturach agentów
  • Integracja uczenia się ze wzmocnieniem z agentami korzystającymi z narzędzi
  • Operacyjne rozważania dotyczące skalowania i wdrożenia

Projekt kunsztowy

  • Projekcja i implementacja agenta uczenia się ze wzmocnieniem dla zadania symulowanego
  • Analiza wydajności treningowej i optymalizacja hiperparametrów
  • Demonstracja zachowania adaptacyjnego i podejmowania decyzji w kontekście agencjalnym

Podsumowanie i dalsze kroki

Wymagania

  • Silne znajomość programowania w Pythonie
  • Twarda zrozumienie pojęć uczenia maszynowego i glebowego uczenia
  • Znajomość algebry liniowej, rachunku prawdopodobieństwa i podstawowych metod optymalizacji

Odbiorcy

  • Inżynierowie uczenia ze wzmocnieniem i badacze AI stosowanej
  • Programiści robotyki i automatyzacji
  • Zespoły inżynierskie pracujące nad systemami AI adaptacyjnymi i agencjalnymi
 28 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (3)

Propozycje terminów

Powiązane Kategorie