Bądźmy w kontakcie

Plan Szkolenia

Wprowadzenie do uczenia ze wzmocnieniem i agentowych systemów AI

  • Podejmowanie decyzji w warunkach niepewności i planowanie sekwencyjne
  • Kluczowe składniki RL: agenty, środowiska, stany i nagrody
  • Rola RL w adaptacyjnych i agentowych systemach AI

Procesy decyzyjne Markowa (MDPs)

  • Formalna definicja i właściwości MDPs
  • Funkcje wartości, równania Bellmana i programowanie dynamiczne
  • Ocena, poprawa i iteracja polityki

Uczenie ze wzmocnieniem bez modelu

  • Metoda Monte Carlo i uczenie Temporal-Difference (TD)
  • Q-learning i SARSA
  • Praktyczne ćwiczenie: implementacja metod tablicowych RL w Pythonie

Głębokie uczenie ze wzmocnieniem

  • Łączenie sieci neuronowych z RL w celu aproksymacji funkcji
  • Głębokie sieci Q (DQN) i bufor doświadczeń
  • Architektury Actor-Critic i gradienty polityki
  • Praktyczne ćwiczenie: trenowanie agenta przy użyciu DQN i PPO z Stable-Baselines3

Strategie eksploracji i kształtowania nagród

  • Balans między eksploracją a eksploatacją (ε-zachłanne, UCB, metody entropii)
  • Projektowanie funkcji nagród i unikanie niepożądanych zachowań
  • Kształtowanie nagród i uczenie z planem

Zaawansowane tematy w RL i podejmowaniu decyzji

  • Uczenie ze wzmocnieniem wieloagentowe i strategie kooperacyjne
  • Hierarchiczne uczenie ze wzmocnieniem i framework opcji
  • Offline RL i uczenie przez naśladownictwo dla bezpieczniejszego wdrożenia

Środowiska symulacyjne i ocena

  • Korzystanie z OpenAI Gym i niestandardowych środowisk
  • Ciągłe vs. dyskretne przestrzenie akcji
  • Metryki wydajności, stabilności i efektywności próbkowania agenta

Integracja RL w agentowe systemy AI

  • Łączenie rozumowania i RL w hybrydowych architekturach agentów
  • Integracja uczenia ze wzmocnieniem z agentami korzystającymi z narzędzi
  • Zagadnienia operacyjne związane ze skalowaniem i wdrażaniem

Projekt końcowy

  • Zaprojektuj i zaimplementuj agenta uczenia ze wzmocnieniem do symulowanego zadania
  • Przeanalizuj wydajność treningu i zoptymalizuj hiperparametry
  • Zademonstruj adaptacyjne zachowanie i podejmowanie decyzji w kontekście agentowym

Podsumowanie i kolejne kroki

Wymagania

  • Zaawansowana znajomość programowania w Pythonie
  • Solidne zrozumienie koncepcji uczenia maszynowego i głębokiego uczenia
  • Znajomość algebry liniowej, prawdopodobieństwa i podstawowych metod optymalizacji

Grupa docelowa

  • Inżynierowie zajmujący się uczeniem ze wzmocnieniem i badacze AI
  • Programiści robotyki i automatyzacji
  • Zespoły inżynieryjne pracujące nad adaptacyjnymi i agentowymi systemami AI
 28 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie