Plan Szkolenia

Wprowadzenie do wielomodowego AI

  • Co to jest wielomodowe AI?
  • Kluczowe wyzwania i zastosowania
  • Przegląd wiodących modeli wielomodowych

Przetwarzanie tekstu i rozumienie języka naturalnego

  • Wykorzystanie dużych modeli językowych dla agentów AI opartych na tekście
  • Zrozumienie inżynierii zapytań dla zadań wielomodowych
  • Dopasowywanie modeli tekstowych do zastosowań w specyficznych dziedzinach

Rozpoznawanie i generowanie obrazów

  • Przetwarzanie obrazów z użyciem AI: klasyfikacja, opisywanie i wykrywanie obiektów
  • Generowanie obrazów za pomocą modeli dyfuzyjnych (Stable Diffusion, DALLE)
  • Integrowanie danych obrazowych z modelami opartymi na tekście

Przetwarzanie mowy i dźwięku

  • Rozpoznawanie mowy z użyciem Whisper ASR
  • Techniki syntezy tekstu w mowę (TTS)
  • Poprawa interakcji użytkownika z AI opartą na głosie

Integrowanie wielomodowych wejść

  • Budowanie potoków AI do przetwarzania wielu typów wejść
  • Techniki fuzji do łączenia danych tekstowych, obrazowych i głosowych
  • Zastosowania wielomodowych agentów AI w świecie rzeczywistym

Wdrażanie wielomodowych agentów AI

  • Budowanie rozwiązań wielomodowych AI napędzanych API
  • Optymalizacja modeli pod kątem wydajności i skalowalności
  • Najlepsze praktyki wdrażania wielomodowego AI w produkcji

Etyczne rozważania i przyszłe trendy

  • Uprzedzenia i sprawiedliwość w wielomodowym AI
  • Zagadnienia dotyczące prywatności danych wielomodowych
  • Przyszłe rozwinięcia wielomodowego AI

Podsumowanie i następne kroki

Wymagania

  • Rozumienie podstaw uczenia maszynowego
  • Doświadczenie w programowaniu w języku Python
  • Znałość frameworków uczenia głębokiego (np. TensorFlow, PyTorch)

Grupa docelowa

  • Programiści AI
  • Badacze
  • Inżynierowie multimediów
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie