Plan Szkolenia

Wprowadzenie do sztucznej inteligencji multimodalnej i Ollamy

  • Przegląd uczenia multimodalnego
  • Głównych wyzwań integracji widzenia i języka
  • Możliwości i architektura Ollamy

Konfiguracja Środowiska Ollama

  • Instalowanie i konfigurowanie Ollamy
  • Pracowanie z lokalnym wdrażaniem modeli
  • Integracja Ollamy z Pythonem i Jupyterem

Pracowanie z Wchodzącymi Dane Multimodalnymi

  • Integracja tekstu i obrazów
  • Włączenie danych audio i strukturowanych
  • Projektowanie ścieżek przetwarzania wstępnego

Aplikacje Rozumienia Dokumentów

  • Wydobywanie strukturowanych informacji z plików PDF i obrazów
  • Połączenie OCR z modelami językowymi
  • Budowanie inteligentnych przepływów pracy analizy dokumentów

Wizualne Odpowiadanie na Pytania (VQA)

  • Konfiguracja zestawów danych i benchmarków VQA
  • Trenowanie i ocena multimodalnych modeli
  • Budowanie interaktywnych aplikacji VQA

Projektowanie Multimodalnych Agentów

  • Zasady projektowania agentów z multimodalnym rozumowaniem
  • Połączenie percepcji, języka i działania
  • Wdrażanie agentów do rzeczywistych przypadków użycia

Zaawansowana Integracja i Optymalizacja

  • Dostrajanie multimodalnych modeli z użyciem Ollamy
  • Optymalizacja wydajności inferencji
  • Rozważania skalowalności i wdrażania

Podsumowanie i Kolejne Kroki

Wymagania

  • Silne zrozumienie koncepcji uczenia maszynowego
  • Doświadczenie z ramami uczenia głębokiego, takimi jak PyTorch lub TensorFlow
  • Znajomość przetwarzania języka naturalnego i wizji komputerowej

Grupa docelowa

  • Inżynierowie uczenia maszynowego
  • Badacze sztucznej inteligencji
  • Deweloperzy produktów integrujący przepływy wizji i tekstu
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie