Plan Szkolenia

Wprowadzenie do Uczenia przez Wzmocnienie na Podstawie Opinii Ludzkich (RLHF)

  • Czym jest RLHF i dlaczego ma znaczenie
  • Porównanie z metodami dostrajania nadzorowanego
  • Zastosowania RLHF w nowoczesnych systemach AI

Modelowanie Nagród na Podstawie Opinii Ludzkich

  • Zbieranie i strukturyzowanie opinii ludzkich
  • Budowanie i trenowanie modeli nagród
  • Ocena skuteczności modeli nagród

Trenowanie z Wykorzystaniem Optymalizacji Polityki Proksymalnej (PPO)

  • Przegląd algorytmów PPO dla RLHF
  • Implementacja PPO z modelami nagród
  • Iteracyjne i bezpieczne dostrajanie modeli

Praktyczne Dostrajanie Modeli Językowych

  • Przygotowywanie zbiorów danych dla procesów RLHF
  • Praktyczne dostrajanie małego LLM z wykorzystaniem RLHF
  • Wyzwania i strategie ich łagodzenia

Skalowanie RLHF do Systemów Produkcyjnych

  • Uwzględnienie infrastruktury i mocy obliczeniowej
  • Zapewnienie jakości i ciągłe pętle sprzężenia zwrotnego
  • Najlepsze praktyki wdrażania i utrzymania

Zagadnienia Etyczne i Łagodzenie Błędów

  • Rozwiązywanie problemów etycznych związanych z opiniami ludzkimi
  • Strategie wykrywania i korygowania błędów
  • Zapewnienie zgodności i bezpiecznych wyników

Studia Przypadków i Przykłady z Rzeczywistego Świata

  • Studium przypadku: Dostrajanie ChatGPT z wykorzystaniem RLHF
  • Inne udane wdrożenia RLHF
  • Wnioski i spostrzeżenia z branży

Podsumowanie i Kolejne Kroki

Wymagania

  • Zrozumienie podstaw uczenia nadzorowanego i uczenia przez wzmocnienie
  • Doświadczenie w dostrajaniu modeli i architekturach sieci neuronowych
  • Znajomość programowania w Pythonie i frameworków do głębokiego uczenia (np. TensorFlow, PyTorch)

Odbiorcy

  • Inżynierowie uczenia maszynowego
  • Badacze AI
 14 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie