Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Przegląd technologii Speech Recognition
- Historia i ewolucja rozpoznawania mowy
- Modele akustyczne, modele językowe i dekodowanie
- Nowoczesne architektury: sieci neuronowe z pamięcią (RNNs), transformatory i Whisper
Podstawy audio i przetwarzanie transkrypcji
- Obsługa formatów audio i częstotliwości próbkowania
- Oczyszczanie, przycinanie i segmentacja audio
- Generowanie tekstu z audio: w czasie rzeczywistym vs. w partiach
Praktyczne zajęcia z Whisper i innymi API
- Instalowanie i używanie OpenAI Whisper
- Wywoływanie API w chmurze (Google, Azure) do transkrypcji
- Porównywanie wydajności, opóźnień i kosztów
Język, akcenty i adaptacja do dziedziny
- Praca z wieloma językami i akcentami
- Słowniki niestandardowe i odporność na szum
- Obsługa języka prawniczego, medycznego lub technicznego
Formatowanie wyjścia i integracja
- Dodawanie znaczników czasu, interpunkcji i etykiet mówcy
- Eksport do formatów tekstowych, SRT lub JSON
- Integrowanie transkrypcji z aplikacjami lub bazami danych
Use Case Laboratoria implementacyjne
- Transkrypcja spotkań, wywiadów lub podcastów
- Systemy poleceń głosem do tekstu
- Nadpisy w czasie rzeczywistym dla strumieni wideo/audio
Ocena, ograniczenia i etyka
- Wskaźniki dokładności i benchmarkowanie modeli
- Uwzględnienie zniekształceń i sprawiedliwości w modelach mowy
- Rozważania dotyczące prywatności i zgodności
Podsumowanie i następne kroki
Wymagania
- Zrozumienie ogólnych koncepcji sztucznej inteligencji i uczenia maszynowego
- Znajomość formatów plików audio lub multimedialnych oraz narzędzi
Grupa docelowa
- Naukowcy danych i inżynierowie AI pracujący z danymi głosowymi
- Programiści oprogramowania tworzący aplikacje oparte na transkrypcjach
- Organizacje badające rozpoznawanie mowy w celu automatyzacji
14 godzin