Plan Szkolenia

Wprowadzenie do AI wielomodalnego i Ollama

  • Przegląd uczenia wielomodalnego
  • Kluczowe wyzwania w integracji wizji i języka
  • Możliwości i architektura Ollama

Konfiguracja środowiska Ollama

  • Instalacja i konfiguracja Ollama
  • Praca z lokalnym wdrażaniem modeli
  • Integracja Ollama z Pythonem i Jupyterem

Praca z danymi wielomodalnymi

  • Integracja tekstu i obrazu
  • Włączanie danych dźwiękowych i strukturalnych
  • Projektowanie potoków przetwarzania wstępnego

Aplikacje do rozumienia dokumentów

  • Ekstrakcja strukturalnych informacji z plików PDF i obrazów
  • Łączenie OCR z modelami językowymi
  • Budowanie inteligentnych przepływów analizy dokumentów

Wizualne pytania i odpowiedzi (VQA)

  • Konfiguracja zbiorów danych i benchmarków VQA
  • Trenowanie i ewaluacja modeli wielomodalnych
  • Tworzenie interaktywnych aplikacji VQA

Projektowanie agentów wielomodalnych

  • Zasady projektowania agentów z wielomodalnym wnioskowaniem
  • Łączenie percepcji, języka i działania
  • Wdrażanie agentów w rzeczywistych przypadkach użycia

Zaawansowana integracja i optymalizacja

  • Dostosowywanie modeli wielomodalnych z Ollama
  • Optymalizacja wydajności wnioskowania
  • Kwestie skalowalności i wdrażania

Podsumowanie i kolejne kroki

Wymagania

  • Solidne zrozumienie koncepcji uczenia maszynowego
  • Doświadczenie w korzystaniu z frameworków do uczenia głębokiego, takich jak PyTorch lub TensorFlow
  • Znajomość przetwarzania języka naturalnego i widzenia komputerowego

Grupa docelowa

  • Inżynierowie uczenia maszynowego
  • Badacze AI
  • Deweloperzy produktów integrujący przepływy pracy związane z tekstem i obrazem
 21 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie