Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Wprowadzenie do sztucznej inteligencji multimodalnej i Ollamy
- Przegląd uczenia multimodalnego
- Głównych wyzwań integracji widzenia i języka
- Możliwości i architektura Ollamy
Konfiguracja Środowiska Ollama
- Instalowanie i konfigurowanie Ollamy
- Pracowanie z lokalnym wdrażaniem modeli
- Integracja Ollamy z Pythonem i Jupyterem
Pracowanie z Wchodzącymi Dane Multimodalnymi
- Integracja tekstu i obrazów
- Włączenie danych audio i strukturowanych
- Projektowanie ścieżek przetwarzania wstępnego
Aplikacje Rozumienia Dokumentów
- Wydobywanie strukturowanych informacji z plików PDF i obrazów
- Połączenie OCR z modelami językowymi
- Budowanie inteligentnych przepływów pracy analizy dokumentów
Wizualne Odpowiadanie na Pytania (VQA)
- Konfiguracja zestawów danych i benchmarków VQA
- Trenowanie i ocena multimodalnych modeli
- Budowanie interaktywnych aplikacji VQA
Projektowanie Multimodalnych Agentów
- Zasady projektowania agentów z multimodalnym rozumowaniem
- Połączenie percepcji, języka i działania
- Wdrażanie agentów do rzeczywistych przypadków użycia
Zaawansowana Integracja i Optymalizacja
- Dostrajanie multimodalnych modeli z użyciem Ollamy
- Optymalizacja wydajności inferencji
- Rozważania skalowalności i wdrażania
Podsumowanie i Kolejne Kroki
Wymagania
- Silne zrozumienie koncepcji uczenia maszynowego
- Doświadczenie z ramami uczenia głębokiego, takimi jak PyTorch lub TensorFlow
- Znajomość przetwarzania języka naturalnego i wizji komputerowej
Grupa docelowa
- Inżynierowie uczenia maszynowego
- Badacze sztucznej inteligencji
- Deweloperzy produktów integrujący przepływy wizji i tekstu
21 godzin