Plan Szkolenia

Wprowadzenie do syntezy mowy i klonowania głosu

  • Przegląd tekstu na mowę (TTS) i neuronowej syntezy głosu
  • Klonowanie głosu vs generowanie mowy: przypadki użycia i granice
  • Kluczowe modele: Tacotron, WaveNet, FastSpeech, VITS

Praca z platformami komercyjnymi

  • Korzystanie z ElevenLabs i Resemble AI
  • Tworzenie, klonowanie i edycja głosów
  • Dostęp do API i przepływy pracy tekst na mowę

Budowanie z narzędziami open-source

  • Instalacja i konfiguracja Coqui TTS
  • Trenowanie własnych głosów i zarządzanie zbiorami danych
  • Generowanie mowy z precyzyjną kontrolą (ton, tempo, emocje)

Przygotowanie danych i zarządzanie zbiorami głosów

  • Zbieranie i czyszczenie próbek głosowych
  • Segmentacja, etykietowanie i dopasowywanie transkrypcji
  • Etyczne pozyskiwanie i zgoda na użycie głosu

Integracja z aplikacjami

  • Osadzanie TTS na stronach internetowych i w aplikacjach
  • Tworzenie systemów IVR i interaktywnych botów
  • Generowanie syntetycznych dialogów do filmów i gier

Ocena jakości i realizmu

  • Testy MOS (Mean Opinion Score) i zrozumiałości
  • Kontrola ekspresji i prozodii
  • Porównywanie opóźnienia, wierności i realizmu

Zagadnienia etyczne, prawne i zarządzania

  • Ryzyko deepfake’ów i odpowiedzialne użycie
  • Zgoda, przypisanie i implikacje praw autorskich
  • Regulacje i polityki organizacyjne

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie podstaw uczenia maszynowego
  • Znajomość formatów plików audio i narzędzi do edycji
  • Podstawowe umiejętności programowania w Pythonie

Grupa docelowa

  • Programiści i inżynierowie AI zainteresowani syntezą mowy
  • Twórcy treści i technolodzy mediów eksplorujący generowanie głosu
  • Zespoły R&D budujące spersonalizowane lub dynamiczne systemy audio
 14 godzin

Liczba uczestników


Cena za uczestnika

Propozycje terminów

Powiązane Kategorie