Syntéza řeči z psaného textu
Syntéza řeči z psaného textu | ||||
|
Následující text je snahou o velmi stručné a mnohdy zkratkovité zaznamenání oscannovaných zápisků z přednášek, které jsou samy o sobě místy neúplné.
Obsah
Stručný nástin problematiky
Proces syntézy řeči lze rozdělit do několika fází.
První úsek syntézy obsahuje kroky, které lze zařadit do fonetiky, jeho vstupem je text.
- předzpracování (normalizace)
- fonetická transkripce a vymezení jednotek
- jednotky: hláska, slabika, přízvukový takt (věměstě), fráze, promluva.
- modelování prosodie
- suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky
- intonace (frekvence kmitání hlasivek)
- pauzy
- intenzita (akustická energie)
- časové členění
- suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky
- volba řečových jednotek
- silně redundantní řečové korpusy
- potřeba volit nejvhodnější z mnoha možných vzorků dané jednotky
- vhodnost - důležitější je kontrast než absolutní hodnota
Druhý úsek můžeme zařadit do oboru zpracování signálu. V této fázi je syntetizován řečový signál (wav,...). Programy realizující tuto část se nazývají syntetizéry.
Řečový signál
Jedná se o soubor signálů různých frekvencí. Můžeme vnímat významné (silné) frekvence, které vytvářejí "hlavní jádro" zvuku. Tyto významné frekvence nazýváme formanty a označujeme je po řadě (se vzrůstající frekvencí) jako F0, F1, ...
Signál o dané frekvenci f má tzv. vyšší harmonické frekvence, což jsou celé násobky f (2, zejména pak 3 násobky), které jsou ve výsledném signálu rovněž zvýrazněné (formanty vytváří na spektrogramu pravidelný vzor).
Formantový syntetizér - vytváří zvukový signál skládáním formantů.
Na spektrogramu signálu rozpoznáváme (velmi nejasné, zda-li je následující vysvětleno pravdivě)
- formant - silný signál určité frekvence
- exploze - prudký ráz v signálu (překonání překážky)
- tranzient - přechod mezi stacionárními kmitáními různé frekvence
- locus - ticho před explozí ??? vrchol, ke kterému směřují formanty před explozí ???
Samohlásky
Stacionární signál. F0 je základní hlasivkový tón, poloha jazyka určuje F1 (nahoře x dole) a F2 (vpředu x vzadu).
Poloha jazyka při vyslovování samohlásek
nahoře | |||||
vzadu | ú,u | ü | i | í | vpředu |
o,ó | é | ||||
a,á | |||||
dole |
Souhlásky
Jedná se o prudké změny v signálu (samohlásky jsou naopak stacionární). Rozlišujeme je podle místa a způsobu artikulace.
místo artikulace | bilabiála | labiodentála | pre-alveoláta | post-alveoláta | palatála | velára | glotála |
---|---|---|---|---|---|---|---|
způsob artikulace | |||||||
explozíva (závěrová) | p,b,m | retozubné m | t,d,n | ť, ď, ň | k, g, velární n | hlasový ráz | |
frikativa | f,v | s,z | š,ž | ||||
afrikáta | c,dz | č, dž | |||||
aproximanta | w | j | |||||
vibranta | r | ř | |||||
laterála | l |
Přesnější a přehlednější tabulky IPA
Vysvětlení pojmů
- labia - rty
- dentes - zuby
- alveoles - dásně (horní)
- uvula - čípek
- larynx - hrtan
- frikatíva - při artikulaci dochází ke zúžení dutiny, které se projeví syčením, šumem a turbulencemi. Překážka je neúplná, ale výrazna. Při rezonanci se artikulační ústrojí chová pasivně, energie je dodávána hlasivkami.
- explozíva - závěr, ticho, exploze, návrat
- afrikáta - závěr, ticho, zůžení, návrat
Po fázi ticha mohou nastat:
- klasická exploze
- aspirace (prodloužení uzávěru)
- postupné uvolnění
Výše uvedené neumělé tabulky a další informace můžete najít na stránkách IPA
Suprasegmentály
- frekvence F0
- intenzita
- časové členění (například délka lhásek)
Úrovně
- slabika - hranice mohou být spekulativní, v různých jazycích jsou slabiky vnímány různě (polské [parů] je jednoslabičné, čech označuje jako dvojslabičné)
- přízvukový takt
- stress-timed jazyky - přízvuky přicházejí pravidelně, nepřízvučné dlouhé části se zkracují (kupř. angličtina)
- syllable-timed jazyky
- rozlišujeme rovněž jazyky s volným/pevným přízvukem v rámci taktu
- promluvový úsek
- výpověď
(a spekulativní meziúrovně)
Psací soustavy
Modelování prozodie
Syntéza
tomáš sedláček