Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan Szkolenia
Wprowadzenie do sztucznej inteligencji multimodalnej i Ollamy
- Przegląd uczenia multimodalnego
- Głównych wyzwań integracji widzenia i języka
- Możliwości i architektura Ollamy
Konfiguracja Środowiska Ollama
- Instalowanie i konfigurowanie Ollamy
- Pracowanie z lokalnym wdrażaniem modeli
- Integracja Ollamy z Pythonem i Jupyterem
Pracowanie z Wchodzącymi Dane Multimodalnymi
- Integracja tekstu i obrazów
- Włączenie danych audio i strukturowanych
- Projektowanie ścieżek przetwarzania wstępnego
Aplikacje Rozumienia Dokumentów
- Wydobywanie strukturowanych informacji z plików PDF i obrazów
- Połączenie OCR z modelami językowymi
- Budowanie inteligentnych przepływów pracy analizy dokumentów
Wizualne Odpowiadanie na Pytania (VQA)
- Konfiguracja zestawów danych i benchmarków VQA
- Trenowanie i ocena multimodalnych modeli
- Budowanie interaktywnych aplikacji VQA
Projektowanie Multimodalnych Agentów
- Zasady projektowania agentów z multimodalnym rozumowaniem
- Połączenie percepcji, języka i działania
- Wdrażanie agentów do rzeczywistych przypadków użycia
Zaawansowana Integracja i Optymalizacja
- Dostrajanie multimodalnych modeli z użyciem Ollamy
- Optymalizacja wydajności inferencji
- Rozważania skalowalności i wdrażania
Podsumowanie i Kolejne Kroki
Wymagania
- Silne zrozumienie koncepcji uczenia maszynowego
- Doświadczenie z ramami uczenia głębokiego, takimi jak PyTorch lub TensorFlow
- Znajomość przetwarzania języka naturalnego i wizji komputerowej
Grupa docelowa
- Inżynierowie uczenia maszynowego
- Badacze sztucznej inteligencji
- Deweloperzy produktów integrujący przepływy wizji i tekstu
21 godzin