Plan Szkolenia

Wprowadzenie do modeli wielomodalnych Mistral

  • Przegląd modelu Mistral Medium i możliwości wielomodalnych
  • Modele OCR/dokumentów i przypadki zastosowania
  • Integracja z ekosystemami o otwartym kodzie źródłowym

Przepływy pracy OCR i wizji

  • Podstawy OCR z modelami Mistral
  • Przetwarzanie obrazów i zeskanowanych dokumentów
  • Wyodręczanie strukturalnego tekstu z obrazów

Zrozumienie dokumentów

  • Projektowanie potoków NLP dla dokumentów
  • Rozpoznawanie jednostek, streszczenie i klasyfikacja
  • Cross-modalne łączenie tekstu i danych wizualnych

Systemy wyszukiwania i aplikacje wiedzy

  • Systemy wyszukiwania wizualno-tekstowego
  • Budowanie semantycznego wyszukiwania na podstawie wyników OCR
  • Zasoby dokumentów przedsiębiorstwa

Aplikacje asystencyjne i interaktywne

  • Projektowanie UI dla asystentów wielomodalnych
  • Zastosowania dostępności (np. wizja-tekst)
  • Narzędzia zwiększające produktywność w praktyce

Wydajność i optymalizacja

  • Skalowanie potoków wielomodalnych
  • Optymalizacja wydajności wnioskowania
  • Ocena kompromisów między dokładnością a wydajnością

Przypadki biznesowe i przyszłe kierunki rozwoju

  • Zastosowania wielomodalnej AI w branży
  • Trendy badawcze w OCR i AI dokumentów
  • Współczesne aspekty odpowiedzialności AI w zadaniach wizualno-tekstowych

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie pojęć przetwarzania języka naturalnego
  • Dosświadczenie w Pythonie i frameworkach ML
  • Znajomość podstaw wizji komputerowej

Odbiorcy kursu

  • Zespoły produkcyjne
  • Naukowcy ds. uczenia maszynowego
  • Inżynierowie aplikacyjni ds. uczenia maszynowego
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie