Plan Szkolenia

Wprowadzenie do wielomodalnego AI

  • Przegląd wielomodalnego AI i zastosowań w świecie rzeczywistym
  • Wyzwania związane z integracją danych tekstowych, obrazowych i dźwiękowych
  • Badania i postępy na najwyższym poziomie

Przetwarzanie danych i inżynieria cech

  • Obsługa zbiorów danych tekstowych, obrazowych i dźwiękowych
  • Techniki przetwarzania przeduczania dla uczenia wielomodalnego
  • Strategie ekstrakcji cech i fuzji danych

Budowanie wielomodalnych modeli z użyciem PyTorch i Hugging Face

  • Wprowadzenie do PyTorch dla uczenia wielomodalnego
  • Użycie transformatorów Hugging Face dla zadań NLP i wizyjnych
  • Łączenie różnych modalności w zunifikowanym modelu AI

Wdrażanie fuzji mowy, wzroku i tekstu

  • Integracja OpenAI Whisper dla rozpoznawania mowy
  • Zastosowanie DeepSeek-Vision do przetwarzania obrazów
  • Techniki fuzji dla uczenia wielomodalnego

Trenowanie i optymalizacja wielomodalnych modeli AI

  • Strategie trenowania modeli dla wielomodalnego AI
  • Techniki optymalizacji i dostrajanie hiperparametrów
  • Zwalczanie uprzedzeń i poprawa uogólniania modeli

Wdrażanie wielomodalnego AI w zastosowaniach rzeczywistych

  • Eksportowanie modeli do użycia w produkcji
  • Wdrażanie modeli AI na platformach chmurowych
  • Monitorowanie wydajności i konserwacja modeli

Zaawansowane tematy i przyszłe trendy

  • Uczenie zero-shot i few-shot w wielomodalnym AI
  • Zastosowania etyczne i odpowiedzialne rozwijanie AI
  • Wschodzące trendy w badaniach nad wielomodalnym AI

Podsumowanie i kolejne kroki

Wymagania

  • Silne zrozumienie koncepcji uczenia maszynowego i głębokiego uczenia się
  • Doświadczenie w ramach AI takich jak PyTorch lub TensorFlow
  • Znajomość przetwarzania danych tekstowych, obrazowych i dźwiękowych

Grupa docelowa

  • Programiści AI
  • Inżynierowie uczenia maszynowego
  • Badacze
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie