Bądźmy w kontakcie

Plan Szkolenia

Podstawy produkcji Tencent Hunyuan

  • Przegląd scenariuszy obsługi modeli Tencent Hunyuan
  • Charakterystyka produkcyjna dużych modeli i modeli MoE
  • Typowe wąskie gardła związane z opóźnieniami, przepustowością i kosztami
  • Definiowanie celów na poziomie usług dla obciążeń inferencyjnych

Architektura wdrażania i przepływ obsługi

  • Główne komponenty stosu inferencyjnego w produkcji
  • Wybór między modelami wdrażania w kontenerach, lokalnie i w chmurze
  • Podstawy ładowania modeli, routingu żądań i alokacji GPU
  • Projektowanie pod kątem niezawodności i prostoty operacyjnej

Optymalizacja opóźnień w praktyce

  • Wykorzystanie zoptymalizowanych silników inferencji, takich jak TensorRT, tam gdzie to możliwe
  • Pojęcia związane z pamięcią podręczną KV i praktyczne strojenie pamięci podręcznej
  • Redukcja narzutu związanego z uruchamianiem, rozgrzewaniem i odpowiedziami
  • Pomiar czasu do pierwszego tokena i szybkości generowania tokenów

Przepustowość, grupowanie i efektywność GPU

  • Strategie ciągłego grupowania i grupowania żądań
  • Zarządzanie współbieżnością i zachowaniem kolejki
  • Poprawa wykorzystania GPU bez szkody dla doświadczenia użytkownika
  • Obsługa żądań o długim kontekście i mieszanych obciążeń

Kwantyzacja i kontrola kosztów

  • Dlaczego kwantyzacja ma znaczenie w produkcji
  • Praktyczne kompromisy między FP16, INT8 i innymi opcjami precyzji
  • Równoważenie jakości modelu, opóźnień i kosztów infrastruktury
  • Tworzenie prostej listy kontrolnej optymalizacji kosztów

Operacje, monitorowanie i przegląd gotowości

  • Mechanizmy automatycznego skalowania dla usług inferencyjnych
  • Monitorowanie opóźnień, przepustowości, wykorzystania pamięci podręcznej i stanu GPU
  • Podstawy logowania, alertów i reakcji na incydenty
  • Przegląd referencyjnego wdrożenia i tworzenie planu poprawy

Wymagania

  • Podstawowa znajomość wdrażania dużych modeli językowych i przepływów pracy związanych z inferencją
  • Doświadczenie z kontenerami, infrastrukturą chmurową lub lokalną oraz usługami opartymi na API
  • Praktyczna znajomość Pythona lub zadań inżynierskich systemowych

Grupa docelowa

  • Inżynierowie ML wdrażający LLM-y do produkcji
  • Inżynierowie platform odpowiedzialni za usługi inferencji oparte na GPU
  • Architekci rozwiązań projektujący skalowalne platformy do obsługi AI
 14 godzin

Liczba uczestników


Cena za uczestnika (netto)

Propozycje terminów

Powiązane Kategorie