Plan Szkolenia

Wprowadzenie do Modeli Wizji-Języka

  • Przegląd VLMs i ich roli w wielomodowych sztucznych inteligencjach
  • Popularne architektury: CLIP, Flamingo, BLIP, itd.
  • Przykłady zastosowań: wyszukiwanie, opisywanie, autonomiczne systemy, analiza treści

Przygotowanie środowiska do dopasowywania

  • Konfiguracja OpenCLIP i innych bibliotek VLMs
  • Formaty zbiorów danych dla par obraz-tekst
  • Przetwarzanie wstępne dla wejść wizyjnych i językowych

Dopasowywanie CLIP i podobnych modeli

  • Strata kontrastowa i wspólne przestrzenie wbudowań
  • Praktyczne: dopasowywanie CLIP do niestandardowych zbiorów danych
  • Obsługa danych specyficznych dla dziedziny i wielojęzycznych

Zaawansowane techniki dopasowywania

  • Używanie metod LoRA i adapterów dla efektywności
  • Dopasowywanie promptów i wstrzykiwanie wizualnych promptów
  • Zalety i wady oceny zero-shot vs. dopasowanej

Ewaluacja i benchmarking

  • Metryki dla VLMs: dokładność wyszukiwania, BLEU, CIDEr, odzyskanie
  • Diagnozowanie wizualnego-tekstowego wyrównania
  • Wizualizacja przestrzeni wbudowań i błędu klasyfikacji

Wdrażanie i używanie w rzeczywistych aplikacjach

  • Eksportowanie modeli do inferencji (TorchScript, ONNX)
  • Integrowanie VLMs w linie lub API
  • Rozważania dotyczące zasobów i skalowania modeli

Przykłady zastosowań i scenariusze praktyczne

  • Analiza mediów i moderacja treści
  • Wyszukiwanie i odzyskiwanie w handlu elektronicznym i bibliotekach cyfrowych
  • Wielomodowe interakcje w robotyce i autonomicznych systemach

Podsumowanie i następne kroki

Wymagania

  • Zrozumienie uczenia głębokiego dla wzroku i NLP
  • Doświadczenie z PyTorch i modelami opartymi na transformatorach
  • Znałość architektur multimodalnych modeli

Grupa docelowa

  • Inżynierowie komputerowego wzroku
  • Deweloperzy AI
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie