Bądźmy w kontakcie

Plan Szkolenia

Suwerenność AI i lokalne wdrażanie modeli LLM

  • Ryzyka związane z chmurowymi modelami LLM: przechowywanie danych, trenowanie na danych wejściowych, jurysdykcja zagraniczna.
  • Architektura Ollama: serwer modeli, rejestr i kompatybilne API OpenAI.
  • Porównanie z vLLM, llama.cpp i Text Generation Inference.
  • Licencjonowanie modeli: warunki Llama, Mistral, Qwen i Gemma.

Instalacja i konfiguracja sprzętu

  • Instalacja Ollama na Linuxie z obsługą CUDA i ROCm.
  • Rezerwa tylko dla CPU i optymalizacja AVX/AVX2.
  • Wdrażanie Dockera i mapowanie trwałych woluminów.
  • Konfiguracja wieloprocesorowa GPU i strategie alokacji VRAM.

Zarządzanie modelami

  • Pobieranie modeli z rejestru Ollama: ollama pull llama3.
  • Importowanie modeli GGUF z HuggingFace i TheBloke.
  • Poziomy kwantyzacji: kompromisy Q4_K_M, Q5_K_M, Q8_0.
  • Przełączanie modeli i limity równoczesnego ładowania modeli.

Niestandardowe pliki Modelfile

  • Składnia pisania Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Dostosowywanie temperatury, top_p i repeat_penalty.
  • Inżynieria systemowych promptów dla zachowań specyficznych dla ról.
  • Tworzenie i publikowanie niestandardowych modeli w lokalnym rejestrze.

Integracja API

  • Kompatybilny z OpenAI endpoint /v1/chat/completions.
  • Przesyłanie strumieniowe odpowiedzi i tryb JSON.
  • Integracja z LangChain, LlamaIndex i niestandardowymi aplikacjami.
  • Uwierzytelnianie i ograniczanie liczby żądań za pomocą odwrotnego proxy.

Optymalizacja wydajności

  • Rozmiar okna kontekstu i zarządzanie pamięcią podręczną KV.
  • Wnioskowanie wsadowe i obsługa równoległych żądań.
  • Alokacja wątków CPU i świadomość NUMA.
  • Monitorowanie wykorzystania GPU i obciążenia pamięci.

Bezpieczeństwo i zgodność

  • Izolacja sieciowa dla endpointów obsługujących modele.
  • Filtrowanie danych wejściowych i potoki moderowania wyjść.
  • Rejestrowanie audytowe promptów i odpowiedzi.
  • Pochodzenie modeli i weryfikacja skrótów.

Wymagania

  • Średnio zaawansowana znajomość administracji systemem Linux i kontenerami.
  • Zrozumienie podstaw uczenia maszynowego i modeli transformatorowych.
  • Znajomość REST API i JSON.

Grupa docelowa

  • Inżynierowie AI i deweloperzy zastępujący chmurowe API modeli LLM.
  • Organizacje z wymaganiami dotyczącymi poufności danych, uniemożliwiającymi korzystanie z modeli w chmurze.
  • Zespoły rządowe i obronne wymagające izolowanych modeli językowych.
 14 godzin

Liczba uczestników


Cena za uczestnika (netto)

Propozycje terminów

Powiązane Kategorie