Syntéza řeči z psaného textu

Z ωικι.matfyz.cz
(Přesměrováno z PFL042)
Přejít na: navigace, hledání
Syntéza řeči z psaného textu
Kód předmětu: NPFL042
Přednáší: Jiří Hanika

Následující text je snahou o velmi stručné a mnohdy zkratkovité zaznamenání oscannovaných zápisků z přednášek, které jsou samy o sobě místy neúplné.

Stručný nástin problematiky[editovat | editovat zdroj]

Proces syntézy řeči lze rozdělit do několika fází.

První úsek syntézy obsahuje kroky, které lze zařadit do fonetiky, jeho vstupem je text.

 • předzpracování (normalizace)
 • fonetická transkripce a vymezení jednotek
  • jednotky: hláska, slabika, přízvukový takt (věměstě), fráze, promluva.
 • modelování prosodie
  • suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky
   • intonace (frekvence kmitání hlasivek)
   • pauzy
   • intenzita (akustická energie)
   • časové členění
 • volba řečových jednotek
  • silně redundantní řečové korpusy
  • potřeba volit nejvhodnější z mnoha možných vzorků dané jednotky
   • vhodnost - důležitější je kontrast než absolutní hodnota

Druhý úsek můžeme zařadit do oboru zpracování signálu. V této fázi je syntetizován řečový signál (wav,...). Programy realizující tuto část se nazývají syntetizéry.

Řečový signál[editovat | editovat zdroj]

Jedná se o soubor signálů různých frekvencí. Můžeme vnímat významné (silné) frekvence, které vytvářejí "hlavní jádro" zvuku. Tyto významné frekvence nazýváme formanty a označujeme je po řadě (se vzrůstající frekvencí) jako F0, F1, ...

Signál o dané frekvenci f má tzv. vyšší harmonické frekvence, což jsou celé násobky f (2, zejména pak 3 násobky), které jsou ve výsledném signálu rovněž zvýrazněné (formanty vytváří na spektrogramu pravidelný vzor).

Formantový syntetizér - vytváří zvukový signál skládáním formantů.

Na spektrogramu signálu rozpoznáváme (velmi nejasné, zda-li je následující vysvětleno pravdivě)

 • formant - silný signál určité frekvence
 • exploze - prudký ráz v signálu (překonání překážky)
 • tranzient - přechod mezi stacionárními kmitáními různé frekvence
 • locus - ticho před explozí ??? vrchol, ke kterému směřují formanty před explozí ???

Samohlásky[editovat | editovat zdroj]

Stacionární signál. F0 je základní hlasivkový tón, poloha jazyka určuje F1 (nahoře x dole) a F2 (vpředu x vzadu).

Poloha jazyka při vyslovování samohlásek

nahoře
vzadu ú,u ü i í vpředu
o,ó é
a,á
dole

Souhlásky[editovat | editovat zdroj]

Jedná se o prudké změny v signálu (samohlásky jsou naopak stacionární). Rozlišujeme je podle místa a způsobu artikulace.

místo artikulace bilabiála labiodentála pre-alveoláta post-alveoláta palatála velára glotála
způsob artikulace
explozíva (závěrová) p,b,m retozubné m t,d,n ť, ď, ň k, g, velární n hlasový ráz
frikativa f,v s,z š,ž
afrikáta c,dz č, dž
aproximanta w j
vibranta r ř
laterála l

Přesnější a přehlednější tabulky IPA

Vysvětlení pojmů[editovat | editovat zdroj]

 • labia - rty
 • dentes - zuby
 • alveoles - dásně (horní)
 • uvula - čípek
 • larynx - hrtan


 • frikatíva - při artikulaci dochází ke zúžení dutiny, které se projeví syčením, šumem a turbulencemi. Překážka je neúplná, ale výrazna. Při rezonanci se artikulační ústrojí chová pasivně, energie je dodávána hlasivkami.
 • explozíva - závěr, ticho, exploze, návrat
 • afrikáta - závěr, ticho, zůžení, návrat


Po fázi ticha mohou nastat:

 • klasická exploze
 • aspirace (prodloužení uzávěru)
 • postupné uvolnění


Výše uvedené neumělé tabulky a další informace můžete najít na stránkách IPA

Suprasegmentály[editovat | editovat zdroj]

 • frekvence F0
 • intenzita
 • časové členění (například délka lhásek)


Úrovně

 • slabika - hranice mohou být spekulativní, v různých jazycích jsou slabiky vnímány různě (polské [parů] je jednoslabičné, čech označuje jako dvojslabičné)
 • přízvukový takt
  • stress-timed jazyky - přízvuky přicházejí pravidelně, nepřízvučné dlouhé části se zkracují (kupř. angličtina)
  • syllable-timed jazyky
  • rozlišujeme rovněž jazyky s volným/pevným přízvukem v rámci taktu
 • promluvový úsek
 • výpověď

(a spekulativní meziúrovně)

Psací soustavy[editovat | editovat zdroj]

Modelování prozodie[editovat | editovat zdroj]

Syntéza[editovat | editovat zdroj]

tomáš sedláček

Linky[editovat | editovat zdroj]

 • webové syntetizéry: [1] [2]