Plan Szkolenia

Wprowadzenie do modeli multimodalnych

  • Przegląd multimodalnego uczenia maszynowego
  • Zastosowania modeli multimodalnych
  • Wyzwania związane z obsługą wielu typów danych

Architektury dla modeli multimodalnych

  • Badanie modeli takich jak CLIP, Flamingo i BLIP
  • Zrozumienie intermodalnych mechanizmów uwagi
  • Rozważania architektoniczne dotyczące skalowalności i wydajności

Przygotowanie multimodalnych zestawów danych

  • Gromadzenie danych i techniki adnotacji
  • Wstępne przetwarzanie tekstu, obrazów i materiałów wideo
  • Równoważenie zestawów danych dla zadań multimodalnych

Techniki dostrajania dla modeli multimodalnych

  • Konfigurowanie potoków szkoleniowych dla modeli multimodalnych
  • Zarządzanie pamięcią i ograniczeniami obliczeniowymi
  • Obsługa wyrównania między modalnościami

Zastosowania dostrojonych modeli multimodalnych

  • Odpowiadanie na pytania wizualne
  • Napisy do obrazów i filmów
  • Generowanie treści przy użyciu multimodalnych danych wejściowych

Optymalizacja i ocena wydajności

  • Metryki oceny dla zadań multimodalnych
  • Optymalizacja opóźnień i przepustowości na potrzeby produkcji
  • Zapewnienie solidności i spójności różnych modalności

Wdrażanie modeli multimodalnych

  • Pakowanie modeli do wdrożenia
  • Wnioskowanie Scalable na platformach chmurowych
  • Aplikacje i integracje w czasie rzeczywistym

Studia przypadków i praktyczne laboratoria

  • Dostrajanie CLIP do wyszukiwania obrazów na podstawie treści
  • Szkolenie multimodalnego chatbota z wykorzystaniem tekstu i wideo
  • Wdrażanie intermodalnych systemów wyszukiwania

Podsumowanie i kolejne kroki

Wymagania

  • Biegłość w programowaniu Python
  • Zrozumienie koncepcji głębokiego uczenia
  • Doświadczenie w dostrajaniu wstępnie wytrenowanych modeli

Uczestnicy

  • Badacze sztucznej inteligencji
  • Naukowcy zajmujący się danymi
  • Praktycy uczenia maszynowego
 28 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie