Informační struktura věty

Z ωικι.matfyz.cz
Verze z 23. 8. 2010, 18:23, kterou vytvořil Tuetschek (diskuse | příspěvky)

(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)
Přejít na: navigace, hledání
Informační struktura věty a výstavba diskurzu
Kód předmětu: NPFL082
Přednáší: Eva Hajičová

Tohle je přepis ne nutně úplných poznámek ze ZS 2008/9 -- Tuetschek 13:40, 17 Jan 2009 (CET)

Úvod[editovat | editovat zdroj]

Historie[editovat | editovat zdroj]

První, kdo se informační strukturou věty (aktuálním členěním) zabýval, byl už Aristoteles, v knize O vyjadřování -- všiml si, že ve větě se vždy o něčem (známé informaci, což nazval subjekt) říká něco nového (to nazval predikát). Jeho pojmy se pak ujaly spíš v syntaxi. Informační struktura věty se ale ne vždy se syntaktickou kryje. V teorii akt. členění věty se používá výrazů základ (topic) a jádro (focus).

V 19. stol. proběhla ve vědě vlna psychologizace, takže se taky tímto způsobem nahlížela věta. Hlavně němečtí lingvisté popisovali psychologický subjekt a psychologický predikát jako analogii k syntaktickým, odpovídalo to právě Aristotelovu pojetí. První, kdo se díval na informační strukturu věty v textu, byl Henri Weil -- popsal to ve své knize Pořadí slov v jazycích antických i současných (1844). Zůstal neznámý, až během posledních 20-30 let byl znovu objeven.

Na zač. 20. stol. přichází strukturalismus, tedy synchronní pohled na jazyk a jazykové roviny. V Pražské lingvistické škole (zal. 1926), která na strukturalismu stojí, se klade důraz na funkci jazyka, nejen formu. V rámci ní vyšlo několik zásadních pojednání o aktuálním členění, zvlášť od jejího zakladatele Viléma Mathesia. Po Mathesiově smrti (1945) teorii akt. větného členění rozvíjel Jan Firbas, žák jeho žáka Josefa Vachka. Díky tomu, že Firbas byl anglista a psal anglicky, se myšlenky Pražské školy rozšířily i do světa. Nepsal ale moc o češtině, o tom až P. Sgall a E. Hajičová.

Kniha Noama Chomského Syntaktické struktury (1957) měla ohlas i v ČSR -- až neuvěřitelný; P. Sgall jeho myšlenky v 60. letech rozvíjí, v rámci generativní gramatiky češtiny popisuje ale i akt. členění.

Definice[editovat | editovat zdroj]

U různých lidí najdeme různou terminologii, někdy se termíny kryjí přesně, někdy ne docela.

  • Informační struktura věty je totéž co aktuální členění věty (původní termín od Mathesia), anglicky topic-focus articulation (podle ÚFALu, P. Sgalla a dalších), nebo functional sentence perspective (podle Brněnské školy, J. Firbase a dalších). Jde o dělení věty na:
    • základ, východisko, téma věty nebo topic, tj. to, o čem se ve větě mluví (známá informace).
    • jádro, ohnisko, réma nebo focus, tj. to, co se ve větě říká nového o známé informaci.

Tento vztah ve větě, kdy říkáme něco o něčem (tj. říkáme focus o topicu), se označuje jako aboutness.

Firbas téma věty definoval jako část věty, která stojí (v normální intonaci a bezpříznakovém slovosledu) na začátku. To ale není úplně přesné, protože existují věty bez tématu, tzv. topicless sentences, jako např. náhlé zvolání Kennedy umřel! (kdy se o Kennedym nemluvilo předem) nebo některé novinové titulky. V jeho termínech byly i další nejasnosti, proto se v pražském moderním přístupu používá spíš anglických výrazů topic, focus a topic-focus articulation.

Pojem subjektivní slovoled znamená to, že věta začíná focusem. Běžná, bezpříznaková věta s normální intonací totiž začíná topicem (a tam se mluví o objektivním slovosledu).

Schéma jednotlivých druhů tématických posloupností

Pojem tematické posloupnosti se zabývá aktuálním členěním textu, první ho popisoval právě Henri Weil pod názvem posloupnost idejí, znovu to objevil v 70. letech František Daneš. Ukazuje se totiž, že v textu aktuální členění může postupovat třemi způsoby (první dva z nich znal už Weil):

  1. paralelní posloupnost -- první a druhá věta má stejný topic, kterému se přisuzují dvě ruzné věci (focusy)
  2. progrese -- focus první věty se stává topicem druhé
  3. odvození tématu -- z jednoho super-tématu odvozuju podtémata pro několik vět

Posloupnosti se samozřejmě můžou prolínat, potom může změna druhu posloupnosti znamenat konec jednoho segmentu v textu.

Vyjádření aktuálního členění[editovat | editovat zdroj]

Informační strukturu lze vyjádřit různými prostředky, v češtině hlavně slovosledem a intonací -- intonace je velmi důležitá, i když máme volný slovosled (a intonace má i další funkce). V angličtině např. je intonace kvůli pevnému slovosledu ještě důležitější.

  • Př.: John gave me a letter. I met him [in a bookshop] [yesterday]. -- jestli je focus yesterday nebo in a bookshop, poznáme jen podle intonace.
  • Př.: Nejdražší je Audi. / Audi je nejdražší. -- při normální intonaci je focus na konci, proto první věta odpovídá situaci, kdy mluvím o cenách vozů, kdežto druhá připadá hovoru o autech a jejich vlastnostech.

V češtině můžeme topic-focus articulation rozlišit např. i použitím krátkého nebo dlouhého tvaru zájmene (ve focusu budou spíše dlouhé tvary, dlouhé tvary zájmen se ale využívají i pro vyjádření kontrastu v rámci topicu).

  • Př.: Dej mi tu knížku. / Tu knížku dej mně.

V angličtině se dá informační struktura vyjádřit i použitím určitého nebo neurčitého členu.

  • Př.: A disabled man limped inside. / The disabled man limped inside. -- v prvním případě je invalida ve focusu, v druhém v topicu

Můžeme použít ale i různé částice nebo speciální syntaktickou konstrukci, tzv. vytýkací (to bývá častější v angličtině).

  • Př.: Teprve Jeník dokázal draka porazit. -- Jeník je díky částici teprve ve focusu.
  • Př.: Byla to vichřice, co ho zničilo. -- vytýkací konstrukce, ve focusu je vichřice.

Začleněnění informační struktury do popisu jazyka[editovat | editovat zdroj]

Od 50. let se razí formální přístup k jazyku. Jazyk je struktura, která má svoji formu vyjádření a funkci, tedy účel sdělení, a jejich vztahy nejsou 1:1. Nachází se ve vztahu asymetrického dualizmu, tedy jedna forma může mít více funcí a jednu funkci lze vyjádřit více formami. Aktuální členění úzce souvisí s funkcí sdělení, projevuje se ale různými formami (povrchovými strukturami věty); jedna forma může vyjadřovat naopak více různých aktuálních členění, ač to není tak časté a člověk to neočekává, protože aktuální členění je už dost vázáno na funkci sdělení, kde se předpokládá jednoznačnost.

  • Př.: "Why do we dress boys in blue and girls in red?" "Because they can't dress themselves." -- na synonymii v rámci akt. členění je založena spousta vtipů, tady se na první pohled předpokládá, že dress je v topicu, což druhá věta překvapivě vyvrací.

Ukážeme, že změny v aktuálním členění mají vliv na sémantiku. Tedy aktuální členění patří do popisu významové stavby věty, v pražském popisu na tektogramatickou rovinu.

Presupozice[editovat | editovat zdroj]

Presupozice je pojem z logiky, sémantiky věty. Zavedl ho Peter Frederick Strawson (1952), když ukázal, že pro nějaký výrok (větu) nemáme jen vyplývání (tj. výroky, které se z něj dají odvodit), ale i presupozici -- výroky, které se nutně předpokládají, aby měl náš výrok vůbec nějaký smysl.

Formální definice: Výrok S presuponuje výrok S', jestliže S' je nutnou podmínkou pro to, aby výrok S měl nějakou pravdivostní hodnotu, tj. byl smysluplný.

  • Př.: Všechny Janovy děti byly nemocné -- tento výrok presuponuje výrok Jan má děti. (kdyby ne, nedalo by se vůbec uvažovat o jeho pravdivostní hodnotě).

Vztahem presupozice a negace se zabýval Bas van Fraasen (1968). Od něj pochází další definice presupozice:

A presuponuje B, právě když (a) jestliže A je pravdivé, je B pravdivé, (b) jestliže non-A je pravdivé, je B pravdivé.

  • Př.: The king of France is bald. / The king of France is not bald. -- ať je věta kladná, nebo záporná, vždycky tu existuje francouzský král.

Nejde tu vždy nutně o existenci popisovaného objektu, stačí referential availability, tj. možnost se na něj odkazovat (můžu tak např. prohlásit o jednorožci, že neexistuje, ale stále se presuponuje, že známe jednorožce (?)).

Změna akt. členění může mít vliv na změnu presupozice:

  • Př.: The king of France didn't visit the exhibition. / The exhibition was not visited by the king of France. -- první věta určitým členem předpokládá existenci výstavy, král je na zač. věty, tj. v topicu a je presuponován, ve focusu je sloveso; tituly jsou vždy se členem, takže druhá věta nepresuponuje nutně existenci francouzského krále (ale výstavy ano).

O podobné věci psal N. Chomsky (1965), kdy popisoval změnu významu na vztahu aktiva a pasiva na příkladu:

  • Př.: At least two languages are known by everybody in this room. / Everybody in this room knows at least two languages.

První věta implikuje dva stejné jazyky, ale druhá už ne (tedy máme dvě různé presupozice)! V češtině k podobné věci vůbec nepotřebujeme pasiv:

  • Př.: Aspoň dva jazyky zná v této místnosti každý. / Každý v této místnosti zná aspoň dva jazyky.

Chomsky se u tohoto příkladu zmiňuje o tom, že může existovat "něco jako focus". Dá se tu říct, že u těchto vět máme dvě různé presupozice podle toho, co je v tématu.

Aktuální členění a negace[editovat | editovat zdroj]

Strawsonova práce změnila i pohled na logické negace. Do té doby se počítalo jen s tradiční negací Není pravda, že (celé sdělení). Ale může se říct: O (topic) není pravda, že (focus). Tím zachovám presupozici. Je to jemnější popis než původní -- můžu ukazovat různé dosahy negace (scopes of negation).

  • Př. (1): Moje sestra nehubovala bratra kvůli špatné známce. = nehubovala vůbec / hubovala někoho jiného / hubovala bratra kvůli něčemu jinému. -- moje sestra nemůže být dotčeno negací, která je v jádru; stojí v základu
  • Př. (2): Jirka nepřišel, protože mu došly peníze -- ve chvíli, kdy Jirka nepřišel, ne např. protože byl nemocný, ale protože mu došly peníze, se dostává negace do základu. Je to ale dvojznačné, můžu říct, že Jirka přišel, protože chtěl vidět Marii a potom je negace v jádru.

Ve větě s negací tak můžou nastat 3 různé případy:

  1. negace je v jádře
    1. sloveso je v negovaném jádře, tedy negace se na něj vztahuje (1. interpretace 1. příkladu)
    2. sloveso je v základu, tedy mimo dosah negace (2. a 3. interpretace 1. příkladu, 2. interpretace 2. příkladu)
  2. negace je v základu (1. interpretace 2. příkladu) -- mluvím o tzv. negovaném eventu, negace nedosahuje do jádra, negovaný je jen základ.

Tyto různé druhy negace pak ovlivňují i presupozici:

  • Př.: Jirka nezpůsobil naši porážku. / Naši porážku nezpůsobil Jirka. -- první věta je dvojznačná (viz níže), kdežto v druhé je jasné, že jsme byli poraženi. Porážka se tak stává presupozicí.

Tři druhy vyplývání[editovat | editovat zdroj]

Na základě předchozích pozorování se ukazuje, že existují dokonce tři druhy vyplývání pro nějaký výrok:

  1. význam, vyplývání -- to, co říká věta sama, negací je negováno; odpovídá pravdivosti výroku
  2. presupozice -- negací je nedotčená; odpovídá smysluplnosti výroku
  3. alegace -- z kladné verze věty vyplývá výrok, ze záporné verze nevyplývá ani onen výrok, ani jeho negace
  • Př.: Jirka (ne)způsobil naši porážku. -- pozitivní verze věty implikuje porážku, ale negativní ani porážku, ani její neexistenci.

Aktuální členění má na presupozici a alegaci vliv, může měnit jednu v druhou:

  • Př.: Milanovou dceru včera viděl Jirkův bratr. / Včera Jirkův bratr viděl Milanovu dceru. -- v první větě se presuponuje existence Milanovy dcery a Jirkův bratr je jen alegován, kdežto v druhé větě tomu je přesně naopak.

Další sémantické efekty akt. členění[editovat | editovat zdroj]

Význam se dá měnit i jinak pomocí aktuálního členění věty. Nejde jen o negace, ale i o kvantifikátory:

  • Př.: Pražané většinou jezdí na Slapy. / Na Slapy jezdí většinou Pražané. -- v první větě neříkám, kdo všechno jezdí na Slapy, ale v druhé ano.

Pro nalezení změny ve významu při změně aktuálního členění nepotřebuju ale ani kvantifikátory:

  • Př.: Na Moravě se mluví česky. Česky se mluví na Moravě. -- první případ je tzv. exhaustive listing -- podávám úplnou informaci, protože na Moravě se jinak než česky nemluví; druhý ale ne, protože Česky se mluví i Čechách.
  • Př.: Dogs must be CARRIED. / DOGS must be carried. -- první verze intonace říká, že mám-li psa, musím ho nést, druhá přikazuje nosit s sebou nějakého psa.

Pohled zahraničních lingvistů na aktuální členění[editovat | editovat zdroj]

V Praze se akt. členěním zabývali od Mathesia, tedy už od 20. let. Myšlenky se dostávaly do světa pomalu, protože většina textů o akt. členění byla v češtině. Naštěstí Mathesius byl anglista, takže některé srovnávaly angličtinu a češtinu. Dnes všechny "dobré" teorie akt. členění zohledňují, ač každá po svém.

M. A. Halliday[editovat | editovat zdroj]

Michael Halliday propagoval aktuální členění jako první v 50. letech v Londýně. Inspiroval se právě pražským funkčním přístupem. Jeho nový popis gramatiky Systemic grammar obsahoval právě i topic-focus articulation. Hovoří o given a new information. Navíc rozlišuje téma věty, což je první větný člen ve slovosledném pořadí, "háček, na kterém věta visí". To sice funguje jen v angličtině, ale hlavní je, že vůbec s akt. členěním přišel.

Generativní gramatika[editovat | editovat zdroj]

Noam Chomsky se začal zabývát topic-focus articulation postupně v rozvoji svojí teorie generativní gramatiky (gramatika je pro něj něco, co generuje "korektní věty"). V první knize Syntaktické struktry (1957) zmiňuje příklad Everybody in this room knows at least two languages. (viz presupozice) jako sémantický rozdíl aktivu a pasivu (jen zajímavý protipříklad proti transformacím neměnícím význam). V druhé verzi teorie, popisované v knize Aspekty teorie syntaxe (1965) k tomu dodává, že významový rozdíl může spočívat v "něčem jako topic".

Chomsky se někdy kolem roku 1967 potkal s Hallidayem a zřejmě to na něj mělo v tomto ohledu vliv, protože v r. 1968 představil na toto téma práci, kde ukazuje, že je zřejmé, že given a new information jsou pro význam věty důležité. Musí se proto rozlišovat i věty, které se liší jen jejich distribucí.

Chomsky používá ve své teorii termíny presupozice (odpovídá given nebo základu) a focus (tedy zhruba new nebo jádro). Zvolení termínu presupozice je nešťastné, protože ten už znamená něco trochu jiného v sémantice. Chomsky pro svoji presupozici vytvořil i formální test, založený na pokračování věty (vezme se presupozice a popře se focus):

  • Př.: I met an ex-convict with a red shirt.
    • --> Oh no, he had a red tie. -- presupozice je bývalý trestanec s něčím červeným
    • --> Oh no, he had a blue coat. -- presupozice je jen bývalý trestanec
    • --> Oh no, that was my friend from high school. -- presupozice je jen setkání

Zabývá se i dalšími příklady, např. významovým rozdílem vět:

  • Př.: Bill introduced John only to Sue. / Bill introduced only John to Sue. / Bill only introduced John to Sue. / Only Bill introduced John to Sue. -- na pozici only záleží význam věty.

Chomský tvrdil, že význam věty se má kvůli tomuhle (?) brát z její povrchové struktury (po provedení transformací), proti němu stál např. George Lakoff se svojí vizí generativní sémantiky, kde se význam generoval na nejvyšší rovině popisu. Všechny příklady, které Chomského teorii zpochybňovaly nebo bylo nutné je nějak zvláštně řešit, měly co do činění s topic-focus articulation -- a jejími projevy v angličtině, čímž byli všichni američtí lingvisti dost ovlivnění. V jiných jazycích např. k projevu závislosti významu na akt. členění není vůbec třeba prostředků jako jsou kvantifikátory.

Formální sémantika[editovat | editovat zdroj]

Mats Roth si všimnul, že Chomský ve svých příkladech nezohledňuje intonaci (zabýval se jen psanými větami). Popisuje částice, tzv. focalizers (česky rematizátory), které přitahují pitch accent (intonační centrum věty) v angličtině (v češtině není tak důležité, můžeme měnit slovosled). Např. v Chomského příkladu s only by bylo intonační centrum věty následující:

  • Př.: Bill introduced John only to SUE. / Bill introduced only JOHN to Sue. / Bill only INTRODUCED John to Sue. / Only BILL introduced John to Sue.

Slova, která se nacházejí bezprostředně za rematizátorem, budou zpravidla součástí focusu (existují ale i případy, kdy fokalizéry jsou součástí topicu). Mohou nastat ale i jiné zajímavé případy:

  • Př.:Já to chci taky. -- tady je ve focusu jen rematizátor, akt. členění je dvojznačné, buď Platí o mně (topic), že to chci taky (focus)., nebo Platí taky o mně (focus), že to chci (topic).
  • Př.: Milena zná taky jen Jirku. -- tady jsou dva rematizátory a akt. členění také není jednoznačné.

Roth psal svou práci pod supervizí Barbary Hall Partee, studentky Chomského, která se zabývala intenzní sémantikou (sémantikou v kontextu). Jiný vynález jejích studentů byly tripartitní struktury, které odráží význam celé věty a zahrnují i aktuální členění:

  1. operator = ASSERT ("nic zvláštního"), NEG (negace), focalizer
  2. restrictor = topic
  3. nucleus scope = focus

Celá struktura vypadá jako operator(restrictor, nucleus scope). Ve výsledku: About X, Z (not) say (only) Y (?)

  • Př.: A quadratic equation usually has two different solutions. = Usually, X is a quadratic equation, X has two different solutions.

Partee byla dvakrát v Praze, poprvé během revoluce 1989, později pracovala s Hajičovou a Sgallem na společném projektu (1998).

Kategoriální gramatika[editovat | editovat zdroj]

Focus nemusí být fráze
Floating constituents

Kategoriální gramatika je idea Marka Steedmana, která ukazuje jiný přístup k formální gramatice než ten Chomského. Vychází z kategorií a jejich kombinací, vynalezených logikem Kazimerzem Ajdukiewiczem. Negeneruje věty, ale popisuje je pomocí kategorií jako substantivum, sloveso a ukazuje, jak se věta skládá z menších kategorií. Nejde tedy o generativní, ale rekognoskativní gramatiku (postupuje se opačně než pri generování: vezmu slova věty, přiřadím jim kategorie a ty pak slepuju až k celé větě).

Chomský předpokládal, že jeho focus je fráze. To může, ale nemusí fungovat (viz obrázek):

  • Př.: My parents spent a week in Canary Islands. --> Oh no, they spent a month in Corsica.

Steedman, aby tohle vyřešil, zavedl tzv. floating constituents (plovoucí složky). Díky tomu, že se rozpoznává a ne generuje, může se pro různou topic-focus articulation dojít k jiným složkám (viz obrázek). Tady se ukazuje výhoda závislotního přístupu, kde se o složky nemusíme starat a není třeba vytvářet takto složité konstrukce.

Funkční generativní popis a aktuální členění[editovat | editovat zdroj]

Funkční generativní popis podle P. Sgalla (přelom 60. a 70. let) znamená generování sémantické reprezentace (proti Chomského gramatice, kde se generuje povrchová struktura). Pro přechod od sémantické reprezentace k povrchové struktuře tu slouží jiná pravidla, tzv. transducers. Slovo funkční v názvu ukazuje na důraz na funkci jazyka v komunikaci, aboutness. Pro popis sémantiky věty tu slouží závislostní stromy -- kořenem stromové struktury popisující větu je sloveso, ostatní větné členy jsou na něm (příp. na sobě) závislé.

Ukázka topic-focus articulation podle funkčního generativního popisu

Už z minulé kapitoly je vidět, že složková struktura se pro aktuální členění nehodí -- základ a jádro nemusí být nutně složky. Jediná možnost vyjádření ve složkách jsou právě Steedmanovy floating constituents. Nepoužíváme-li složky, ale závislostní stromy, jako ve funkčním generativním popise, nemusíme se zabývat tím, jestli je topic a focus složka. Pak můžeme u jednotlivých větných členů posoudit, zda jsou kontextově zapojené (contextually bound), nebo nezapojené (not bound). Na základě toho můžeme popsat, co je topic a co je focus.

Popis v Pražském závislostním korpusu[editovat | editovat zdroj]

Pro oddělení topicu a focusu věty jsou nutná všechna 3 pravidla

V Pražském závislostním korpusu (PDT), který je na funkčním generativním popise založen, se tyto vlastnosti odrážejí v tektogramatické struktuře s malými odlišnostmi. Kontextově zapojené členy se značí malým písmenem t, kontextově nezapojené malým f. Máme i pravidla pro oddělení topicu a focusu celé věty (značí se velkým T a F) podle těchto indikátorů:

  1. Začne se od kořene (slovesa)
  2. Přímé na slovese závislé složky vždy patří do T / F vcelku, se všemi svými členy dohromady (až na násl. výjimku)
  3. Pokud jsou všechny přímé závislé složky kontextově zapojené, sleduje se podstrom poslední z nich (v pořadí členů ve větě), dokud se nenajde nezapojený element. Jeho podstrom je pak focus.

Mít jen první dvě pravidla nestačí (viz obrázek). Také to není jen výměna t a f za T a F, to platí jen na první závislé vrstvě, dá se to ukázat i na příkladu:

  • Př.: Which schools do your children attend? --> All (f) my children (t) attend (t) a private school (f) in London (f). -- v této větě je all sice kontextově nezapojené, ale patří do T.

V praxi byl tento algoritmus zkoušen na větách z PDT (části, která má anotovanou kontextovou zapojenost). Až na patologické případy, kde se ve větě nenajde jediný kontextově nezapojený prvek (žádná nová informace), tahle věc fungovala (proti tomu topicless sentences bez T jsou v pořádku). Ukázalo se taky (nebo spíš potvrdily předpoklady), že přiřazení slovesa do T nebo F je často hraniční, subjektivní -- záleží na třeba na sémantické příbuznosti s předchozím slovesem. V těchto případech se také anotátoři nejčastěji neshodli.

Kontrastivní zapojení a souvětí[editovat | editovat zdroj]

Pro popis v PDT musela být teorie trochu rozšířena, jak se ukázalo na datech i při výzkumu rematizátorů. Byly tam zahrnuty:

  1. koordinace klauzí -- ač nejde o závislosti, je nutné je v závislostních stromech řešit. Každá koordinovaná klauze má vlastní aktuální členění.
  2. subordinace -- závislé (subordinované) klauze jsou součástí aktuálního členění hlavní klauze, ač mají i svoje vlastní podřízené akt. členění. Stojí-li podřízená klauze v topicu, většinou jí souvětí začíná, stojí-li ve focusu, souvětí jí zpravidla končí. Některá podřadná souvětí s adverbiálními klauzemi (hlavně příčinnými a časovými) se ale chovají stejně jako souřadná.
  3. kontrastivní zapojenost -- nutné další popis, kromě t a f i c pro kontrastivně zapojené větné členy. I c i t potom patří do topicu (T). Do algoritmu byla přidána pravidla, která uvažují i c.
  • Př.: Kde jsi se setkal se svými spolužáky? --> Jirku (c) jsem viděl v divadle (koordinace klauzí), Andulu (c) na koncertě.
  • Př.: Viděl jsem tam Janu, ale jeho (c) jsem neviděl. -- dlouhý tvar zájmene naznačuje kontrastivní zapojenost.

Informační struktura v textu[editovat | editovat zdroj]

Informační struktura je sice problém věty, ale k textu se taky vztahuje. Můžeme zkoumat informační strukturu textu, první to prováděl H. Weil v 19. století, po něm F. Daneš v 2. polovině 20. století, zabývali se tematickými posloupnostmi (viz definice).

Obecnější pohled je pomocí zásoby sdílených znalostí (stock of shared knowledge) (viz také popis v rámci předmětu Lingvistické aspekty AI). Mluvčí začíná většinou svůj projev od něčeho, o čem si myslí, že je adresátovi známo. Pak přidává to, o čem se domnívá, že to adresát neví. Přitom klidně můžou vzniknout věty bez topicu (topicless sentences), ale ne bez focusu.

Mluvčí předpokládá nejen nějaké sdílené znalosti, ale i to, které z nich jsou aktivovány, které jsou v popředí adresátovy mysli. Zásoba sdílených znalostí je tedy hierarchická. V hierarchii jsou navíc posuny, tzv. movement of activation. Hodnoty "aktivovanosti" se nedají stanovit nijak absolutně, jen můžeme o jedné skutečnosti říct, že je aktivovanější než jiná. Proto maximální aktivovanost stanovíme jako 0 a minimální $ +\infty $. Pak můžeme ukázat následující pravidla (zde pro angličtinu):

  1. Je-li nějaká skutečnost X vyjádřená zájmenem, její aktivační stupeň zůstává pro další text stejný
  2. Je-li nějaká skutečnost X vyjádřená nominální frází ve focusu, jde její aktivační stupeň na maximum (= 0)
  3. Je-li X vyjádřeno nominální frází s určitým členem v topicu, jde její aktivační stupeň na "skoro maximum" (= 1)
  4. Mluví-li se o skutečnostech asociovaných s X (nedá se přesně definovat, je to cokoliv související), získá X jen o trochu menší asociovanost (jejich asociovanost + 2)
  5. Zabývá se specifickými frázemi v angličtině -- as for X, concerning X (přeskočíme)
  6. Když se o X nemluví, postupně se ztrácí jeho aktivovanost, X ustupuje do pozadí

Názorně se tohle dá přirovnat k hercům na jevišti: někteří stojí v pozadí, někteří vystupují do popředí a během hry se tohle mění. Někteří herci odcházejí ze scény a jsou zapomenuti, můžou se vrátit, ale musí pak do popředí, aby si jich diváci všimli.

Tyto fenomény by měly platit napříč jazyky, což se testovalo na paralelním česko-anglickém textu ze Škvoreckého knihy Scherzo Capriccioso (Dvorak in Love) a vychází to docela dobře, navíc ukazuje na kvalitu překladu Paula Wilsona.

Zajímavé je, jakými výrazy se dá na jednotlivé skutečnosti odkazovat na různých úrovních aktivovanosti. Např. otázky na to, zda se může nějaká skutečnost vrátit na scénu odkázáním zájmenem, případně po hranici, od které se může na něco odkazovat zájmenem. Zřejmě neexistuje žádná pevná hranice pro odkázání zájmenem, záleží i na konkurenci s ostatními aktivovanými skutečnostmi (a např. jejich gramatické (ne)shodě).

Z diagramu aktivovanosti se dá odhadnout segmentace textu, téma celého textu, a to v různých jazycích. Téma textu pak ani nemusí být zmíněno a člověk si ho doplní (idea rámců). Texty různých stylů se ale můžou lišit, např. v článcích v novinách bývá jedna věc stále v popředí (hlavní událost) a rychle se mění méně podstatné skutečnosti.

Systémové uspořádání[editovat | editovat zdroj]

Systémové uspořádání naznačuje, že i v jazycích s volným slovosledem platí nějaká pravidla. Znamená nepříznakové pořadí kontextově nezapojených slovesných doplnění, tj. "normální", "přirozené" uspořádání doplnění, která jsou ve focusu. Platí jen pro jeden jazyk (tady se zabýváme češtinou). V topicu se pořadí členů takto určit nedá, většinou se řadí nějak morfologicky nebo libovolně.

V 80. letech byly ohledně systémového upsořádání češtiny vytvořeny hypotézy, které se pak testovaly na lidech -- šlo o srovnávání vět s různým pořadím dvou kontextově nezapojených doplnění různého typu (např. adresát, patiens, udání času, místa atd.). Informantovi byla předložena věta a několik možných otázek, které mohla zodpovídat (tím se modeluje kontextová zapojenost jejích členů), a dostal za úkol vybírat, které jsou správné. Jedna z otázek vždy indikovala, že obě doplnění jsou ve focusu (a pokud na ni respondent odpověděl "ano", signalizoval, že tato doplnění jsou ve větě ve "správném" pořadí), mnoho otázek bylo záměrně matoucích, aby nešlo odhalit cíl výzkumu. Respondenti měli možnost označit víc otázek jako správných, odpovídat i "nevím" atd. Pro jednu dvojici doplnění se dělalo víc testů, aby se předešlo ovlivnění lexikem.

  • Př.: Dával děvčatům (Adresát) květiny (Patiens). / Dával květiny (Patiens) děvčatům (Adresát) -- jedna z možných vět testu.

Protože jde o psychologicky podmíněnou věc, nezáleží na 100% výsledku, důležité je, aby nadpoloviční většina respondentů odpověděla stejně, což se u většiny členů povedlo. Zkoumalo se to i v dalších jazycích, v němčině a angličtině (s některými doplněními se potvrdilo a někde ne). Dnes se to dá jednoduše testovat v PDT.

Systémové uspořádání se dá použít i na (automatickou) analýzu aktuálního členění -- poznáme podle něj v některých případech, která část věty je kontextově zapojená a která ne. Podle systémového uspořádání focus stojí na konci věty (s bezpříznakovou intonací) a splňuje právě toto uspořádání -- první doplnění od konce věty, které by ho narušilo, musí už být kontextově zapojené. Takto se dá rozhodovat o významu věty.

  • Př.: (Pořadí v systémovém uspořádání) 1 3 5 topic <-- || --> focus 2 6 7.