Plan Szkolenia

Przegląd technologii Speech Recognition

  • Historia i ewolucja rozpoznawania mowy
  • Modele akustyczne, modele językowe i dekodowanie
  • Nowoczesne architektury: sieci neuronowe z pamięcią (RNNs), transformatory i Whisper

Podstawy audio i przetwarzanie transkrypcji

  • Obsługa formatów audio i częstotliwości próbkowania
  • Oczyszczanie, przycinanie i segmentacja audio
  • Generowanie tekstu z audio: w czasie rzeczywistym vs. w partiach

Praktyczne zajęcia z Whisper i innymi API

  • Instalowanie i używanie OpenAI Whisper
  • Wywoływanie API w chmurze (Google, Azure) do transkrypcji
  • Porównywanie wydajności, opóźnień i kosztów

Język, akcenty i adaptacja do dziedziny

  • Praca z wieloma językami i akcentami
  • Słowniki niestandardowe i odporność na szum
  • Obsługa języka prawniczego, medycznego lub technicznego

Formatowanie wyjścia i integracja

  • Dodawanie znaczników czasu, interpunkcji i etykiet mówcy
  • Eksport do formatów tekstowych, SRT lub JSON
  • Integrowanie transkrypcji z aplikacjami lub bazami danych

Use Case Laboratoria implementacyjne

  • Transkrypcja spotkań, wywiadów lub podcastów
  • Systemy poleceń głosem do tekstu
  • Nadpisy w czasie rzeczywistym dla strumieni wideo/audio

Ocena, ograniczenia i etyka

  • Wskaźniki dokładności i benchmarkowanie modeli
  • Uwzględnienie zniekształceń i sprawiedliwości w modelach mowy
  • Rozważania dotyczące prywatności i zgodności

Podsumowanie i następne kroki

Wymagania

  • Zrozumienie ogólnych koncepcji sztucznej inteligencji i uczenia maszynowego
  • Znajomość formatów plików audio lub multimedialnych oraz narzędzi

Grupa docelowa

  • Naukowcy danych i inżynierowie AI pracujący z danymi głosowymi
  • Programiści oprogramowania tworzący aplikacje oparte na transkrypcjach
  • Organizacje badające rozpoznawanie mowy w celu automatyzacji
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie