Plan Szkolenia

Wprowadzenie do modeli wizyjno-językowych

  • Przegląd VLMs i ich roli w wielomodalnym AI
  • Popularne architektury: CLIP, Flamingo, BLIP itp.
  • Przykłady zastosowań: wyszukiwanie, opisywanie obrazów, systemy autonomiczne, analiza treści

Przygotowanie środowiska do dostrajania

  • Konfiguracja OpenCLIP i innych bibliotek VLMs
  • Formaty zbiorów danych dla par obraz-tekst
  • Potoki przetwarzania wstępnego dla danych wizualnych i językowych

Dostrajanie modeli CLIP i podobnych

  • Funkcja straty kontrastowej i wspólne przestrzenie osadzania
  • Praktyczne ćwiczenie: dostrajanie CLIP na niestandardowych zbiorach danych
  • Obsługa danych specyficznych dla domeny i wielojęzycznych

Zaawansowane techniki dostrajania

  • Wykorzystanie metod LoRA i adapterowych w celu zwiększenia efektywności
  • Dostrajanie promptów i wstrzykiwanie wizualnych promptów
  • Kompensacje między oceną zero-shot a dostrojoną

Ocena i benchmarkowanie

  • Metryki dla VLMs: dokładność wyszukiwania, BLEU, CIDEr, recall
  • Diagnostyka dopasowania wizualno-tekstowego
  • Wizualizacja przestrzeni osadzania i błędnych klasyfikacji

Wdrażanie i wykorzystanie w rzeczywistych aplikacjach

  • Eksportowanie modeli do wnioskowania (TorchScript, ONNX)
  • Integracja VLMs z potokami lub API
  • Rozważenia dotyczące zasobów i skalowanie modeli

Studia przypadków i zastosowania praktyczne

  • Analiza mediów i moderacja treści
  • Wyszukiwanie i pobieranie w e-commerce i bibliotekach cyfrowych
  • Wielomodalna interakcja w robotyce i systemach autonomicznych

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie głębokiego uczenia w dziedzinie przetwarzania obrazu i NLP
  • Doświadczenie w pracy z PyTorch i modelami opartymi na transformatorach
  • Znajomość architektur modeli wielomodalnych

Grupa docelowa

  • Inżynierowie przetwarzania obrazu
  • Deweloperzy AI
 14 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie