Plan Szkolenia

Wprowadzenie do syntezy mowy i klonowania głosu

  • Przegląd tekstu do mowy (TTS) i neuronalnej syntezy głosu
  • Klonowanie głosu vs generowanie mowy: przypadki użycia i granice
  • Kluczowe modele: Tacotron, WaveNet, FastSpeech, VITS

Praca z platformami komercyjnymi

  • Używanie ElevenLabs i Resemble AI
  • Tworzenie, klonowanie i edytowanie głosu
  • Dostęp do API i przepływy tekstu do mowy

Budowanie z narzędziami open-source

  • Instalowanie i konfigurowanie Coqui TTS
  • Trenowanie niestandardowych głosów i zarządzanie zestawami danych
  • Generowanie mowy z dokładną kontrolą (ton, prędkość, emocja)

Przygotowanie danych i zestawu głosowego Management

  • Zbieranie i oczyszczanie próbek głosu
  • Segmentowanie, oznaczanie i wstępne ustawianie transkrypcji
  • Etyczne pozyskiwanie i zgoda na głos

Integracja aplikacji

  • Wbudowywanie TTS w strony internetowe i aplikacje
  • Tworzenie systemów IVR i interaktywnych botów
  • Generowanie syntetycznego dialogu dla wideo i gier

Ocena jakości i realizmu

  • MOS (Mean Opinion Score) i testy zrozumiałości
  • Kontrolowanie ekspresji i prosody
  • Porównywanie opóźnień, wierności i realizmu

Etyczne, prawne i Go zarządzanie

  • Ryzyka deepfake i odpowiedzialne używanie
  • Zgoda, przypisywanie autorstwa i implikacje praw autorskich
  • Regulacje i polityki organizacji

Podsumowanie i następne kroki

Wymagania

  • Rozumienie podstaw uczenia maszynowego
  • Zapoznanie z formatami plików audio i narzędziami do edycji
  • Podstawowe umiejętności programowania Python

Grupa docelowa

  • Deweloperzy i inżynierowie AI zainteresowani syntezą mowy
  • Twórcy treści i technolodzy mediów eksplorujący generowanie głosu
  • Zespoły badawczo-rozwojowe budujące spersonalizowane lub dynamiczne systemy audio
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie