Plan Szkolenia

Wprowadzenie do wielomodalnego AI

  • Czym jest wielomodalne AI?
  • Kluczowe wyzwania i zastosowania
  • Przegląd wiodących modeli wielomodalnych

Przetwarzanie tekstu i rozumienie języka naturalnego

  • Wykorzystanie LLM do tworzenia agentów AI opartych na tekście
  • Zrozumienie inżynierii promptów dla zadań wielomodalnych
  • Dostosowywanie modeli tekstowych do zastosowań specyficznych dla domeny

Rozpoznawanie i generowanie obrazów

  • Przetwarzanie obrazów za pomocą AI: klasyfikacja, opisywanie i wykrywanie obiektów
  • Generowanie obrazów za pomocą modeli dyfuzyjnych (Stable Diffusion, DALLE)
  • Integracja danych obrazowych z modelami tekstowymi

Przetwarzanie mowy i dźwięku

  • Rozpoznawanie mowy za pomocą Whisper ASR
  • Techniki syntezy tekstu na mowę (TTS)
  • Ulepszanie interakcji użytkownika za pomocą głosowego AI

Integracja wielomodalnych danych wejściowych

  • Budowanie potoków AI do przetwarzania wielu typów danych wejściowych
  • Techniki fuzji łączące dane tekstowe, obrazowe i dźwiękowe
  • Rzeczywiste zastosowania wielomodalnych agentów AI

Wdrażanie wielomodalnych agentów AI

  • Tworzenie rozwiązań wielomodalnego AI opartych na API
  • Optymalizacja modeli pod kątem wydajności i skalowalności
  • Najlepsze praktyki wdrażania wielomodalnego AI w produkcji

Rozważania etyczne i przyszłe trendy

  • Stronniczość i sprawiedliwość w wielomodalnym AI
  • Obawy dotyczące prywatności w danych wielomodalnych
  • Przyszłe rozwinięcia w wielomodalnym AI

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie podstaw uczenia maszynowego
  • Doświadczenie w programowaniu w Pythonie
  • Znajomość frameworków do głębokiego uczenia (np. TensorFlow, PyTorch)

Grupa docelowa

  • Programiści AI
  • Badacze
  • Inżynierowie multimediów
 21 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie