Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Przegląd technologii rozpoznawania mowy
- Historia i ewolucja rozpoznawania mowy
- Modele akustyczne, modele językowe i dekodowanie
- Współczesne architektury: RNN, transformatory i Whisper
Podstawy przetwarzania dźwięku i transkrypcji
- Obsługa formatów dźwiękowych i częstotliwości próbkowania
- Czyszczenie, przycinanie i segmentacja dźwięku
- Generowanie tekstu z dźwięku: w czasie rzeczywistym vs wsadowo
Praktyczne zastosowanie Whisper i innych API
- Instalacja i użycie OpenAI Whisper
- Wywoływanie chmurowych API (Google, Azure) do transkrypcji
- Porównanie wydajności, opóźnienia i kosztów
Języki, akcenty i adaptacja do domeny
- Praca z wieloma językami i akcentami
- Niestandardowe słowniki i tolerancja na szumy
- Obsługa języka prawnego, medycznego lub technicznego
Formatowanie i integracja wyników
- Dodawanie znaczników czasu, interpunkcji i etykiet mówców
- Eksportowanie do formatów tekstowych, SRT lub JSON
- Integracja transkrypcji z aplikacjami lub bazami danych
Laboratoria implementacji przypadków użycia
- Transkrypcja spotkań, wywiadów lub podcastów
- Systemy poleceń głosowych na tekst
- Napisy na żywo do strumieni wideo/audio
Ocena, ograniczenia i etyka
- Metryki dokładności i benchmarkowanie modeli
- Stronniczość i sprawiedliwość w modelach mowy
- Zagadnienia prywatności i zgodności
Podsumowanie i kolejne kroki
Wymagania
- Zrozumienie ogólnych koncepcji AI i uczenia maszynowego
- Znajomość formatów plików audio lub medialnych oraz narzędzi
Grupa docelowa
- Naukowcy zajmujący się danymi i inżynierowie AI pracujący z danymi głosowymi
- Programiści tworzący aplikacje oparte na transkrypcji
- Organizacje badające rozpoznawanie mowy w celu automatyzacji
14 godzin