Plan Szkolenia

Wprowadzenie do Multimodal AI

  • Przegląd multimodalnej sztucznej inteligencji i rzeczywistych zastosowań
  • Wyzwania związane z integracją danych tekstowych, graficznych i dźwiękowych
  • Najnowocześniejsze badania i postępy

Przetwarzanie danych i inżynieria cech

  • Obsługa zbiorów danych tekstowych, graficznych i dźwiękowych
  • Techniki przetwarzania wstępnego dla uczenia multimodalnego
  • Strategie ekstrakcji cech i fuzji danych

Tworzenie modeli multimodalnych za pomocą PyTorch i Hugging Face

  • Wprowadzenie do PyTorch dla uczenia multimodalnego
  • Używanie transformatorów Hugging Face do zadań NLP i wizyjnych
  • Łączenie różnych modalności w ujednoliconym modelu AI

Wdrażanie fuzji mowy, wizji i tekstu

  • Integracja OpenAI Whisper do rozpoznawania mowy
  • Zastosowanie DeepSeek-Vision do przetwarzania obrazu
  • Techniki fuzji dla uczenia się międzymodalnego

Trening i optymalizacja modeli Multimodal AI

  • Strategie szkolenia modeli dla multimodalnej sztucznej inteligencji
  • Techniki optymalizacji i strojenie hiperparametrów
  • Adresowanie stronniczości i poprawa uogólnienia modelu

Wdrażanie Multimodal AI w rzeczywistych aplikacjach

  • Eksportowanie modeli do użytku produkcyjnego
  • Wdrażanie modeli AI na platformach chmurowych
  • Monitorowanie wydajności i konserwacja modeli

Zaawansowane tematy i przyszłe trendy

  • Zero-shot i few-shot learning w multimodalnej sztucznej inteligencji
  • Kwestie etyczne i odpowiedzialny rozwój sztucznej inteligencji
  • Nowe trendy w badaniach nad multimodalną sztuczną inteligencją

Podsumowanie i kolejne kroki

Wymagania

  • Dobre zrozumienie koncepcji uczenia maszynowego i głębokiego uczenia
  • Doświadczenie z frameworkami AI, takimi jak PyTorch lub TensorFlow.
  • Znajomość przetwarzania danych tekstowych, graficznych i dźwiękowych

Uczestnicy

  • Programiści AI
  • Inżynierowie uczenia maszynowego
  • Badacze
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie