Plan Szkolenia

Wprowadzenie do wielomodalnego AI

  • Przegląd wielomodalnego AI i jego zastosowań w rzeczywistych scenariuszach
  • Wyzwania związane z integracją danych tekstowych, obrazów i dźwięku
  • Najnowsze osiągnięcia i badania w tej dziedzinie

Przetwarzanie danych i inżynieria cech

  • Praca z zestawami danych tekstowych, obrazów i dźwięku
  • Techniki wstępnego przetwarzania dla uczenia wielomodalnego
  • Strategie ekstrakcji cech i fuzji danych

Budowanie modeli wielomodalnych z wykorzystaniem PyTorch i Hugging Face

  • Wprowadzenie do PyTorch w kontekście uczenia wielomodalnego
  • Wykorzystanie Hugging Face Transformers do zadań NLP i przetwarzania obrazów
  • Łączenie różnych modalności w jednym modelu AI

Implementacja fuzji mowy, obrazów i tekstu

  • Integracja OpenAI Whisper do rozpoznawania mowy
  • Zastosowanie DeepSeek-Vision do przetwarzania obrazów
  • Techniki fuzji dla uczenia między modalnościami

Trenowanie i optymalizacja wielomodalnych modeli AI

  • Strategie trenowania modeli wielomodalnych
  • Techniki optymalizacji i strojenie hiperparametrów
  • Radzenie sobie z błędami i poprawa generalizacji modeli

Wdrażanie wielomodalnego AI w rzeczywistych aplikacjach

  • Eksportowanie modeli do użycia w produkcji
  • Wdrażanie modeli AI na platformach chmurowych
  • Monitorowanie wydajności i utrzymanie modeli

Zaawansowane tematy i przyszłe trendy

  • Zero-shot i few-shot learning w wielomodalnym AI
  • Etyczne aspekty i odpowiedzialne tworzenie AI
  • Nowe trendy w badaniach nad wielomodalnym AI

Podsumowanie i kolejne kroki

Wymagania

  • Solidne zrozumienie koncepcji uczenia maszynowego i głębokiego uczenia
  • Doświadczenie w pracy z frameworkami AI, takimi jak PyTorch lub TensorFlow
  • Znajomość przetwarzania danych tekstowych, obrazów i dźwięku

Odbiorcy

  • Programiści AI
  • Inżynierowie uczenia maszynowego
  • Badacze
 21 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie