Plan Szkolenia

Wprowadzenie do wielomodalnych modeli Mistral

  • Przegląd możliwości modelu Mistral Medium i wielomodalności
  • Modele OCR/dokumentów i przypadki użycia
  • Integracja z ekosystemami open-source

Potoki OCR i widzenia

  • Podstawy OCR z wykorzystaniem modeli Mistral
  • Przetwarzanie wstępne obrazów i zeskanowanych dokumentów
  • Ekstrakcja strukturyzowanego tekstu z obrazów

Rozumienie dokumentów

  • Projektowanie potoków NLP dla dokumentów
  • Rozpoznawanie jednostek, podsumowywanie i klasyfikacja
  • Łączenie danych tekstowych i wizyjnych

Aplikacje wyszukiwania i wiedzy

  • Systemy wyszukiwania wizyjno-tekstowego
  • Tworzenie wyszukiwania semantycznego z wyników OCR
  • Repozytoria dokumentów przedsiębiorstw

Aplikacje asystentów i interaktywne

  • Projektowanie interfejsu użytkownika dla asystentów multimodalnych
  • Aplikacje dostępności (np. zamiana widzenia na tekst)
  • Narzędzia zwiększające produktywność w rzeczywistych warunkach

Wydajność i optymalizacja

  • Skalowanie potoków multimodalnych
  • Dostrajanie wydajności inferencji
  • Ocena kompromisów między dokładnością a wydajnością

Studia przypadków i kierunki rozwoju

  • Zastosowania wielomodalnego AI w przemyśle
  • Trendy badawcze w OCR i AI dla dokumentów
  • Kwestie odpowiedzialnego AI w zadaniach wizyjno-tekstowych

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie koncepcji przetwarzania języka naturalnego
  • Doświadczenie w pracy z Pythonem i frameworkami ML
  • Znajomość podstaw widzenia komputerowego

Grupa docelowa

  • Zespoły produktowe
  • Badacze ML
  • Inżynierowie stosowanego ML
 14 godzin

Liczba uczestników


Cena za uczestnika (netto)

Propozycje terminów

Powiązane Kategorie