Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Suwerenność AI i lokalne wdrażanie modeli LLM
- Ryzyka związane z chmurowymi modelami LLM: przechowywanie danych, trenowanie na danych wejściowych, jurysdykcja zagraniczna.
- Architektura Ollama: serwer modeli, rejestr i kompatybilne API OpenAI.
- Porównanie z vLLM, llama.cpp i Text Generation Inference.
- Licencjonowanie modeli: warunki Llama, Mistral, Qwen i Gemma.
Instalacja i konfiguracja sprzętu
- Instalacja Ollama na Linuxie z obsługą CUDA i ROCm.
- Rezerwa tylko dla CPU i optymalizacja AVX/AVX2.
- Wdrażanie Dockera i mapowanie trwałych woluminów.
- Konfiguracja wieloprocesorowa GPU i strategie alokacji VRAM.
Zarządzanie modelami
- Pobieranie modeli z rejestru Ollama: ollama pull llama3.
- Importowanie modeli GGUF z HuggingFace i TheBloke.
- Poziomy kwantyzacji: kompromisy Q4_K_M, Q5_K_M, Q8_0.
- Przełączanie modeli i limity równoczesnego ładowania modeli.
Niestandardowe pliki Modelfile
- Składnia pisania Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Dostosowywanie temperatury, top_p i repeat_penalty.
- Inżynieria systemowych promptów dla zachowań specyficznych dla ról.
- Tworzenie i publikowanie niestandardowych modeli w lokalnym rejestrze.
Integracja API
- Kompatybilny z OpenAI endpoint /v1/chat/completions.
- Przesyłanie strumieniowe odpowiedzi i tryb JSON.
- Integracja z LangChain, LlamaIndex i niestandardowymi aplikacjami.
- Uwierzytelnianie i ograniczanie liczby żądań za pomocą odwrotnego proxy.
Optymalizacja wydajności
- Rozmiar okna kontekstu i zarządzanie pamięcią podręczną KV.
- Wnioskowanie wsadowe i obsługa równoległych żądań.
- Alokacja wątków CPU i świadomość NUMA.
- Monitorowanie wykorzystania GPU i obciążenia pamięci.
Bezpieczeństwo i zgodność
- Izolacja sieciowa dla endpointów obsługujących modele.
- Filtrowanie danych wejściowych i potoki moderowania wyjść.
- Rejestrowanie audytowe promptów i odpowiedzi.
- Pochodzenie modeli i weryfikacja skrótów.
Wymagania
- Średnio zaawansowana znajomość administracji systemem Linux i kontenerami.
- Zrozumienie podstaw uczenia maszynowego i modeli transformatorowych.
- Znajomość REST API i JSON.
Grupa docelowa
- Inżynierowie AI i deweloperzy zastępujący chmurowe API modeli LLM.
- Organizacje z wymaganiami dotyczącymi poufności danych, uniemożliwiającymi korzystanie z modeli w chmurze.
- Zespoły rządowe i obronne wymagające izolowanych modeli językowych.
14 godzin