Bądźmy w kontakcie

Plan Szkolenia

Przegląd technologii rozpoznawania mowy

  • Historia i ewolucja rozpoznawania mowy
  • Modele akustyczne, modele językowe i dekodowanie
  • Współczesne architektury: RNN, transformatory i Whisper

Podstawy przetwarzania dźwięku i transkrypcji

  • Obsługa formatów dźwiękowych i częstotliwości próbkowania
  • Czyszczenie, przycinanie i segmentacja dźwięku
  • Generowanie tekstu z dźwięku: w czasie rzeczywistym vs wsadowo

Praktyczne zastosowanie Whisper i innych API

  • Instalacja i użycie OpenAI Whisper
  • Wywoływanie chmurowych API (Google, Azure) do transkrypcji
  • Porównanie wydajności, opóźnienia i kosztów

Języki, akcenty i adaptacja do domeny

  • Praca z wieloma językami i akcentami
  • Niestandardowe słowniki i tolerancja na szumy
  • Obsługa języka prawnego, medycznego lub technicznego

Formatowanie i integracja wyników

  • Dodawanie znaczników czasu, interpunkcji i etykiet mówców
  • Eksportowanie do formatów tekstowych, SRT lub JSON
  • Integracja transkrypcji z aplikacjami lub bazami danych

Laboratoria implementacji przypadków użycia

  • Transkrypcja spotkań, wywiadów lub podcastów
  • Systemy poleceń głosowych na tekst
  • Napisy na żywo do strumieni wideo/audio

Ocena, ograniczenia i etyka

  • Metryki dokładności i benchmarkowanie modeli
  • Stronniczość i sprawiedliwość w modelach mowy
  • Zagadnienia prywatności i zgodności

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie ogólnych koncepcji AI i uczenia maszynowego
  • Znajomość formatów plików audio lub medialnych oraz narzędzi

Grupa docelowa

  • Naukowcy zajmujący się danymi i inżynierowie AI pracujący z danymi głosowymi
  • Programiści tworzący aplikacje oparte na transkrypcji
  • Organizacje badające rozpoznawanie mowy w celu automatyzacji
 14 godzin

Liczba uczestników


Cena za uczestnika (netto)

Propozycje terminów

Powiązane Kategorie