Plan Szkolenia

Przegląd technologii rozpoznawania mowy

  • Historia i ewolucja rozpoznawania mowy
  • Modele akustyczne, modele językowe i dekodowanie
  • Nowoczesne architektury: RNNs, transfory, Whisper

Podstawy wstępnej obróbki audio i transkrypcji

  • Obsługa formatów audio i częstotliwości próbkowania
  • Czyszczenie, przycinanie i segmentowanie audio
  • Generowanie tekstu z audio: w czasie rzeczywistym vs wsadowo

Praktyczne ćwiczenia z Whisper i innymi API

  • Instalacja i używanie OpenAI Whisper
  • Wywoływanie chmurowych API (Google, Azure) do transkrypcji
  • Porównywanie wydajności, opóźnienia i kosztów

Języki, akcenty i dostosowanie do dziedziny

  • Praca z wieloma językami i akcentami
  • Niestandardowe słowniki i tolerancja wobec szumu
  • Obsługa języków prawnych, medycznych lub technicznych

Formatowanie wyjścia i integracja

  • Dodawanie znaczników czasu, interpunkcji i etykiet mówców
  • Eksportowanie do formatów tekstowych, SRT lub JSON
  • Integracja transkrypcji z aplikacjami lub bazami danych

Laboratoria implementacji przypadków użycia

  • Transkrypcja spotkań, wywiadów lub podcastów
  • Systemy poleceń głosowych do tekstowych
  • Czasoprzestrzenne napisy dla strumieni wideo/audio

Ocena, ograniczenia i etyka

  • Metryki dokładności i benchmarking modeli
  • Sztuczne uprzywilejowanie i sprawiedliwość w modelach mowy
  • Rozważenia dotyczące prywatności i zgodności prawnej

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie podstawowych koncepcji AI i uczenia maszynowego
  • Znajomość formatów plików audio lub multimediów i narzędzi do ich obsługi

Grupa docelowa

  • Naukowcy danych i inżynierowie AI pracujący z danymi głosowymi
  • Deweloperzy oprogramowania tworzący aplikacje oparte na transkrypcji
  • Organizacje badające rozpoznawanie mowy w celach automatyzacji
 14 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie