Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Przegląd technologii rozpoznawania mowy
- Historia i ewolucja rozpoznawania mowy
- Modele akustyczne, modele językowe i dekodowanie
- Nowoczesne architektury: RNNs, transfory, Whisper
Podstawy wstępnej obróbki audio i transkrypcji
- Obsługa formatów audio i częstotliwości próbkowania
- Czyszczenie, przycinanie i segmentowanie audio
- Generowanie tekstu z audio: w czasie rzeczywistym vs wsadowo
Praktyczne ćwiczenia z Whisper i innymi API
- Instalacja i używanie OpenAI Whisper
- Wywoływanie chmurowych API (Google, Azure) do transkrypcji
- Porównywanie wydajności, opóźnienia i kosztów
Języki, akcenty i dostosowanie do dziedziny
- Praca z wieloma językami i akcentami
- Niestandardowe słowniki i tolerancja wobec szumu
- Obsługa języków prawnych, medycznych lub technicznych
Formatowanie wyjścia i integracja
- Dodawanie znaczników czasu, interpunkcji i etykiet mówców
- Eksportowanie do formatów tekstowych, SRT lub JSON
- Integracja transkrypcji z aplikacjami lub bazami danych
Laboratoria implementacji przypadków użycia
- Transkrypcja spotkań, wywiadów lub podcastów
- Systemy poleceń głosowych do tekstowych
- Czasoprzestrzenne napisy dla strumieni wideo/audio
Ocena, ograniczenia i etyka
- Metryki dokładności i benchmarking modeli
- Sztuczne uprzywilejowanie i sprawiedliwość w modelach mowy
- Rozważenia dotyczące prywatności i zgodności prawnej
Podsumowanie i kolejne kroki
Wymagania
- Zrozumienie podstawowych koncepcji AI i uczenia maszynowego
- Znajomość formatów plików audio lub multimediów i narzędzi do ich obsługi
Grupa docelowa
- Naukowcy danych i inżynierowie AI pracujący z danymi głosowymi
- Deweloperzy oprogramowania tworzący aplikacje oparte na transkrypcji
- Organizacje badające rozpoznawanie mowy w celach automatyzacji
14 godzin