Syntéza řeči z psaného textu

Z ωικι.matfyz.cz
(Přesměrováno z PFL042)
Přejít na: navigace, hledání
Syntéza řeči z psaného textu
Kód předmětu: NPFL042
Přednáší: Jiří Hanika

Následující text je snahou o velmi stručné a mnohdy zkratkovité zaznamenání oscannovaných zápisků z přednášek, které jsou samy o sobě místy neúplné.

Stručný nástin problematiky[editovat | editovat zdroj]

Proces syntézy řeči lze rozdělit do několika fází.

První úsek syntézy obsahuje kroky, které lze zařadit do fonetiky, jeho vstupem je text.

  • předzpracování (normalizace)
  • fonetická transkripce a vymezení jednotek
    • jednotky: hláska, slabika, přízvukový takt (věměstě), fráze, promluva.
  • modelování prosodie
    • suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky
      • intonace (frekvence kmitání hlasivek)
      • pauzy
      • intenzita (akustická energie)
      • časové členění
  • volba řečových jednotek
    • silně redundantní řečové korpusy
    • potřeba volit nejvhodnější z mnoha možných vzorků dané jednotky
      • vhodnost - důležitější je kontrast než absolutní hodnota

Druhý úsek můžeme zařadit do oboru zpracování signálu. V této fázi je syntetizován řečový signál (wav,...). Programy realizující tuto část se nazývají syntetizéry.

Řečový signál[editovat | editovat zdroj]

Jedná se o soubor signálů různých frekvencí. Můžeme vnímat významné (silné) frekvence, které vytvářejí "hlavní jádro" zvuku. Tyto významné frekvence nazýváme formanty a označujeme je po řadě (se vzrůstající frekvencí) jako F0, F1, ...

Signál o dané frekvenci f má tzv. vyšší harmonické frekvence, což jsou celé násobky f (2, zejména pak 3 násobky), které jsou ve výsledném signálu rovněž zvýrazněné (formanty vytváří na spektrogramu pravidelný vzor).

Formantový syntetizér - vytváří zvukový signál skládáním formantů.

Na spektrogramu signálu rozpoznáváme (velmi nejasné, zda-li je následující vysvětleno pravdivě)

  • formant - silný signál určité frekvence
  • exploze - prudký ráz v signálu (překonání překážky)
  • tranzient - přechod mezi stacionárními kmitáními různé frekvence
  • locus - ticho před explozí ??? vrchol, ke kterému směřují formanty před explozí ???

Samohlásky[editovat | editovat zdroj]

Stacionární signál. F0 je základní hlasivkový tón, poloha jazyka určuje F1 (nahoře x dole) a F2 (vpředu x vzadu).

Poloha jazyka při vyslovování samohlásek

nahoře
vzadu ú,u ü i í vpředu
o,ó é
a,á
dole

Souhlásky[editovat | editovat zdroj]

Jedná se o prudké změny v signálu (samohlásky jsou naopak stacionární). Rozlišujeme je podle místa a způsobu artikulace.

místo artikulace bilabiála labiodentála pre-alveoláta post-alveoláta palatála velára glotála
způsob artikulace
explozíva (závěrová) p,b,m retozubné m t,d,n ť, ď, ň k, g, velární n hlasový ráz
frikativa f,v s,z š,ž
afrikáta c,dz č, dž
aproximanta w j
vibranta r ř
laterála l

Přesnější a přehlednější tabulky IPA

Vysvětlení pojmů[editovat | editovat zdroj]

  • labia - rty
  • dentes - zuby
  • alveoles - dásně (horní)
  • uvula - čípek
  • larynx - hrtan


  • frikatíva - při artikulaci dochází ke zúžení dutiny, které se projeví syčením, šumem a turbulencemi. Překážka je neúplná, ale výrazna. Při rezonanci se artikulační ústrojí chová pasivně, energie je dodávána hlasivkami.
  • explozíva - závěr, ticho, exploze, návrat
  • afrikáta - závěr, ticho, zůžení, návrat


Po fázi ticha mohou nastat:

  • klasická exploze
  • aspirace (prodloužení uzávěru)
  • postupné uvolnění


Výše uvedené neumělé tabulky a další informace můžete najít na stránkách IPA

Suprasegmentály[editovat | editovat zdroj]

  • frekvence F0
  • intenzita
  • časové členění (například délka lhásek)


Úrovně

  • slabika - hranice mohou být spekulativní, v různých jazycích jsou slabiky vnímány různě (polské [parů] je jednoslabičné, čech označuje jako dvojslabičné)
  • přízvukový takt
    • stress-timed jazyky - přízvuky přicházejí pravidelně, nepřízvučné dlouhé části se zkracují (kupř. angličtina)
    • syllable-timed jazyky
    • rozlišujeme rovněž jazyky s volným/pevným přízvukem v rámci taktu
  • promluvový úsek
  • výpověď

(a spekulativní meziúrovně)

Psací soustavy[editovat | editovat zdroj]

Modelování prozodie[editovat | editovat zdroj]

Syntéza[editovat | editovat zdroj]

tomáš sedláček

Linky[editovat | editovat zdroj]

  • webové syntetizéry: [1] [2]