Plan Szkolenia

Wprowadzenie do syntezy mowy i klonowania głosu

  • Przegląd technologii text-to-speech (TTS) i neuralnej syntezy głosu
  • Klonowanie głosu vs generowanie mowy: zastosowania i granice
  • Kluczowe modele: Tacotron, WaveNet, FastSpeech, VITS

Praca z komercyjnymi platformami

  • Korzystanie z ElevenLabs i Resemble AI
  • Tworzenie, klonowanie i edycja głosów
  • Dostęp do API i workflow text-to-speech

Budowanie za pomocą open-source narzędzi

  • Instalacja i konfiguracja Coqui TTS
  • Trening niestandardowych głosów i zarządzanie danymi treningowymi
  • Generowanie mowy z precyzyjną kontrolą (ton, prędkość, emocje)

Przygotowanie danych i zarządzanie zestawami głosów

  • Zbieranie i czyszczenie próbek głosowych
  • Segментowanie, etykietowanie i wyrównywanie transkrypcji
  • Etyczne pozyskiwanie i zgody na użycie głosów

Integracja aplikacji

  • Wbudowywanie TTS w strony internetowe i aplikacje
  • Tworzenie systemów IVR i interaktywnych botów
  • Generowanie syntetycznej rozmowy dla wideo i gier

Ocena jakości i realizmu

  • MOS (Średnia Ocena) i testy zrozumiałości
  • Sterowanie ekspresją i prozodią
  • Porównanie opóźnienia, wierności i realizmu

Etyczne, prawne i zarządcze zagadnienia

  • Ryzyko deepfake'ów i odpowiedzialne użycie
  • Zgoda, przypisanie autorstwa i implikacje praw autorskich
  • Regulacje i polityki organizacyjne

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie podstaw uczenia maszynowego
  • Znajomość formatów plików audio i narzędzi do edycji dźwięku
  • Podstawowe umiejętności programowania w Pythonie

Odbiorcy

  • Deweloperzy i inżynierowie AI zainteresowani syntezą mowy
  • Twórcy treści i technolodzy mediów badający generowanie głosu
  • Zespoły R&D tworzące personalizowane lub dynamiczne systemy audio
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie