Plan Szkolenia

Podstawy debugowania i oceny w Mastra

  • Zrozumienie modeli zachowania agentów i trybów awarii
  • Podstawowe zasady debugowania w Mastra
  • Ocena deterministycznych i niedeterministycznych działań agentów

Ustawianie środowisk do testowania agentów

  • Konfigurowanie piaskownic testowych i izolowanych przestrzeni oceny
  • Zbieranie logów, śladów i telemetrycznych danych do szczegółowej analizy
  • Przygotowywanie zestawów danych i podpowiedzi do strukturalnego testowania

Debugowanie zachowania agentów AI

  • Śledzenie ścieżek decyzyjnych i sygnałów wewnętrznej rozumowania
  • Identyfikowanie halucynacji, błędów i niepożądanych zachowań
  • Używanie tablic do obserwowalności do badania przyczyn podstawowych

Metryki oceny i ramy benchmarkingowe

  • Definiowanie kwantytywnych i kwalifikacyjnych metryk oceny
  • Mierzenie dokładności, spójności i zgodności kontekstowej
  • Stosowanie zestawów danych benchmarkowych do powtarzalnej oceny

Inżynieria niezawodności dla agentów AI

  • Projektowanie testów niezawodnościowych dla długotrwałych agentów
  • Wykrywanie odchylenia i degradacji w działaniu agentów
  • Wdrażanie zabezpieczeń dla kluczowych przepływów pracy

Procesy i automatyzacja gwarancji jakości (QA)

  • Budowanie potoków QA dla ciągłej oceny
  • Automatyzacja testów regresyjnych dla aktualizacji agentów
  • Integracja QA z CI/CD i przepływami pracy przedsiębiorstwa

Zaawansowane techniki redukcji halucynacji

  • Strategie podpowiadania do redukcji niepożądanych wyników
  • Pętle walidacyjne i mechanizmy samokontroli
  • Eksperymentowanie z kombinacjami modeli w celu poprawy niezawodności

Raportowanie, monitorowanie i ciągłe doskonalenie

  • Tworzenie raportów QA i kart agentów
  • Monitorowanie długoterminowego zachowania i wzorców błędów
  • Iteracje nad ramkami oceny dla ewoluujących systemów

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie zachowania agentów AI i interakcji modeli
  • Doświadczenie w debugowaniu lub testowaniu złożonych systemów oprogramowania
  • Znajomość narzędzi do obserwowalności lub logowania

Grupa docelowa

  • Inżynierowie QA
  • Inżynierowie niezawodności AI
  • Deweloperzy odpowiedzialni za jakość i wydajność agentów
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie