Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan Szkolenia
Przegląd technologii Speech Recognition
- Historia i ewolucja rozpoznawania mowy
- Modele akustyczne, modele językowe i dekodowanie
- Nowoczesne architektury: sieci neuronowe z pamięcią (RNNs), transformatory i Whisper
Podstawy audio i przetwarzanie transkrypcji
- Obsługa formatów audio i częstotliwości próbkowania
- Oczyszczanie, przycinanie i segmentacja audio
- Generowanie tekstu z audio: w czasie rzeczywistym vs. w partiach
Praktyczne zajęcia z Whisper i innymi API
- Instalowanie i używanie OpenAI Whisper
- Wywoływanie API w chmurze (Google, Azure) do transkrypcji
- Porównywanie wydajności, opóźnień i kosztów
Język, akcenty i adaptacja do dziedziny
- Praca z wieloma językami i akcentami
- Słowniki niestandardowe i odporność na szum
- Obsługa języka prawniczego, medycznego lub technicznego
Formatowanie wyjścia i integracja
- Dodawanie znaczników czasu, interpunkcji i etykiet mówcy
- Eksport do formatów tekstowych, SRT lub JSON
- Integrowanie transkrypcji z aplikacjami lub bazami danych
Use Case Laboratoria implementacyjne
- Transkrypcja spotkań, wywiadów lub podcastów
- Systemy poleceń głosem do tekstu
- Nadpisy w czasie rzeczywistym dla strumieni wideo/audio
Ocena, ograniczenia i etyka
- Wskaźniki dokładności i benchmarkowanie modeli
- Uwzględnienie zniekształceń i sprawiedliwości w modelach mowy
- Rozważania dotyczące prywatności i zgodności
Podsumowanie i następne kroki
Wymagania
- Zrozumienie ogólnych koncepcji sztucznej inteligencji i uczenia maszynowego
- Znajomość formatów plików audio lub multimedialnych oraz narzędzi
Grupa docelowa
- Naukowcy danych i inżynierowie AI pracujący z danymi głosowymi
- Programiści oprogramowania tworzący aplikacje oparte na transkrypcjach
- Organizacje badające rozpoznawanie mowy w celu automatyzacji
14 godzin