Vybrané problémy z lingvistiky I

Z ωικι.matfyz.cz
Přejít na: navigace, hledání
Vybrané problémy z lingvistiky I
Kód předmětu: NPFL071
Přednáší: Markéta Lopatková

Tohle je ne nutně úplný přepis poznámek ze ZS 2009/10 -- Tuetschek 00:06, 25 Feb 2010 (CET)

Tato část je neúplná a potřebuje rozšířit. učesat, vysvětlit "(?)"

Úvod - popis jazyka[editovat | editovat zdroj]

 • Jazyk - vztah mezi významem (funkcí, označované) a výrazem (forma, označující)
  • langue a parole -- systém a užití
  • omezíme se na jazykový význam, vynecháme pragmatiku
 • Matematická lingvistika -- 3 možnosti pojetí:
  • kvantitativní lingvistika (v 19. stol.)
  • algebraická (formální) lingvistika (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
  • počítačová (komputační) lingvistika -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
 • Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit strukturu ~ význam
  • vztah není 1:1 (víceznačnost, synonymie)
  • formální jazyky -- existuje úplný popis, u přirozeného jazyka ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
 • Popis -- buď od významu k výrazu (generování (syntéza)), nebo opačně (rekognoskace)
 • Stromový popis -- obvyklý popis významu
  • složkový -- $ T = <N,Q,D,P,L> $ ($ N $ -- množina uzlů, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ D $ -- relace dominance, $ P $ -- relace precedence (silné částečné usp., slovosled) $ L $ -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
   • další podmínky: jediný kořen, exkluzivita pro $ D, P $, projektivita
   • kvůli podmínce projektivity není možné zobrazit neprojektivní konstrukce (kde dochází ke křížení frázových hran vzhledem ke slovosledu: Vánoční nadešel čas. Soubor se nepodařilo otevřít.)
  • závislostní -- $ T = <N,Q,E,WO,L> $ ($ N, E $ -- konečný graf, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ WO $ -- silné úplné uspořádání (pořadí slov), $ L $ -- ohodnocovací funkce)
   • jiný problém - nevyjádří těsnější a volnější spojení (Profesor zjistil, že je jeho (hladový algoritmus) nefunkční, (Zítřejší noviny) ze včerejška)

Funkční generativní popis[editovat | editovat zdroj]

 • Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
  • 1. kniha: Generativní popis jazyka a česká deklinace (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
  • navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
  • představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
 • cíl -- vymezení správných vět (langue), zachycení struktury, vztahu výrazu a významu (synonymie, homonymie)
 • popis - závislostní, stratifikační
  • 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (asymetrický dualismus)
 • nejvýše stojí jazykový význam (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (obsah), jazyk může být vágní
 • V pův. FGD zásobníkový automat (generativní složka) generoval na významové rovině projektivní stromy
  • ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (překladová složka)
  • skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
  • původní verze používala frázové stromy, později upraveno na závislostní
  • proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
 • Bez sémantické kontroly

Zákl. koncepce[editovat | editovat zdroj]

 • roviny -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah kompozice), vztahy mezi rovinami -- reprezentace
 • valence (Panevová) -- slovesa i další slovní druhy
 • význam -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
 • aktuální členění (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
  • základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
 • koreference
 • víceznačnost a vágnost -- vágnost zachovaná, víceznačnost rozlišená (?)

Roviny popisu[editovat | editovat zdroj]

 • forma, funkce -- nižší rovina je formou vyšší roviny (vztah reprezentace), základní jednotky na jedné rovině tvoří komplexní (kompozice)
 • hloubková syntax (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
  • ohodnocení uzlů: komplexní symbol -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
  • lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
  • morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
  • syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
 • povrchová syntax (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
 • morfematická (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
 • morfonologická -- řetězy morfonémů: morfy (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
 • fonologická -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou

Analýza a generování[editovat | editovat zdroj]

 • Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
  • místo analýzy až na interlingvu se používá transfer
 • Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
  • formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)

Pražský závislostní korpus (PDT)[editovat | editovat zdroj]

 • Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
  • my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
 • 4 roviny:
  • w-layer -- nezpracovaný text, včetně chyb
  • m-layer, a-layer, t-layer -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
  • a-layer a t-layer se nazývají strukturní roviny, jsou vždy stromy, mají technický kořen
 • předpřipravené rozdělení train, development, test
 • data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
 • m-layer se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
 • a-layer -- na rozdíl od FGD není kořenem sloveso, je tu technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
  • mezi m-layer a a-layer je relace 1:1 slova:uzly (až na technický kořen a-layeru), tj. 1 uzel odp. 1 slovu (rozvití elips se věší na předky)
  • zachovaný původní slovosled věty
 • t-layer -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (a), modifikační slova (však))
  • "slovosled" je jiný
  • přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
 • hrany -- vztah závislosti

Závislost[editovat | editovat zdroj]

 • Směr závislosti, princip redukce (?)
 • ektocentrická, endocentrická závislost -- skládání se změnou / bez změny slovního druhu (?)
 • syntaktická, morfologická závislost -- (dívka vysoké postavy -- syntakticky nelze vypustit přívlastek)
 • vnitřní, volná doplnění (?)
 • valenční doplnění / okolnosti (?)
 • dvojí závislost, dvojí funkce
 • PP-attachment
 • nejednoznačná doplnění adjektivem
 • nejasné závislosti

Koordinace[editovat | editovat zdroj]

Sém. vztah koordinace(přiřaďování) je "zmnožení", obsazení jedné pozice více členy. Členy označují různé entity (větné členy nebo věty, i spojení větného členu s větou), které mají stejnou sémantickou roli, jsou rovnocenné a samostatné, mají stejnou synt. platnost (do závislostí jdou jako celek, mají stejný řídící člen).

 • Vyjádření syntakticky různě, primárně: parataxe (souřadné spojení), hypotaxe (podřadné spojení: maminka s tatínkem)
 • V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
 • rozdíl souřadných a podřadných spojek -- kritérium pozice a přízvuku
  • neboť a protože se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: neboť nestojí nikdy na zač. souvětí)
 • Sémantické vztahy v kooridnaci:
  • kopulativní (CONJ -- a)
  • adverzativní (ADVS -- ale)
  • disjunktivní (DISJ -- nebo)
  • gradační: stoupá důležitost (GRAD -- nejen, ale i) -- v některých jiných lingv. tradicích se nerozlišuje
  • příčiný (REAS -- neboť), důsledkový (CSQ -- a tak)
  • oprava (spíše, lépe), zahrnutí (a to i)
  • Spec. pro PDT -- konfrontace, kontrast, matematika
 • Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
 • v PDT spojovací konstrukce, 1 spojovací uzel, který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
  • spojen s efektivním rodičem spec. hranou, členy spojovací konstrukce spojeny spec. hranou se spojovacím výrazem, společná rozvití taky
  • ef. rodič / syn (pro společná rozvití -- (štavnaté ^a^ sladké) ovoce)

Apozice[editovat | editovat zdroj]

Zmnožení (více členů téže synt. platnosti, přičemž všechny pojmenovávají 1 referent, stejný větný člen. Jsou zaměnitelné, kongruentní.

 • Různé pojetí, např. Šmilauer považuje za apozici i Pan Novák, Prezident Klaus, v PDT je to přívlastek
 • Oddělení čárkou nebo věci v závorkách: "Obč. dem. strana (ODS) ...".
 • Formálně se zachycuje stejně jako koordinace, spojovací výraz je čárka (příp. závorka)
 • Někdy je problém ji odlišit od koordinace ("Naši sousedé, Marie a Milan, ...")

Parenteze[editovat | editovat zdroj]

Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví

 • Něco v závorkách, příp. odd. čárkou: Mohl byste, prosím, přijít? (Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)
  • prosím, řekl bych -- ustálená parenteze, de facto částice, frazémy
 • Větná parenteze -- např. věta v závorce
 • Větný člen jako parenteze -- Přišel pozdě (včera).
 • v PDT i vokativ (oslovení), elipsa, citoslovce, samostatný větný člen, nezačleněná parenteze
 • Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso

Ostatní nezávislostní vztahy[editovat | editovat zdroj]

 • Tech. kořen -> ef. kořen věty (sloveso)
 • Synt. nejasné výrazy (asi, snad), odkazy k předch. textu (však)
  • rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
 • Seznamy -- názvy (mají strukturu, ale visí na spec. uzlu), cizojazyčné výrazy (všechna slova visí vedle sebe na jednom technickém uzlu)
 • Frazémy (spec. funktor široko <- daleko_(DPHR))

Valence[editovat | editovat zdroj]

Valence je zákl. synt.-sém. informace -- de facto drží záv. stromy pohromadě.

 • Def.: Schopnost lex. jednotky otevírat pozice dalším lex. jednotkám
  • spíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesná
 • Situace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytují
  • Valence má zachytit, které sémantické participanty mají být přítomny (termín sémantický participant se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha argumentů, které na sebe slovo váže.
  • Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.
  • Např. slovesa: prázdná valence (prší, sněží ...), 1 doplnění (běžet, jít ... ), 2 doplnění (vyrábět, dělat, natírat ...), 3 doplnění (dávat ...)
 • Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
 • Nelze zachytit pravidly, uchovává se ve slovníku. Takový slovník už zachycuje hodně syntaktických informací.
 • Pomáhá rozlišit nejednoznačnosti v:
  • morfologii: Ptala se jeho bratra (Gen. nebo Acc.?)
  • syntaxi: Začala ho milovat. Nechala ho spát (na čem závisí ho?)
  • významech slova: odpovídat na / za / čemu
  • sémantice větných členů: sháněl se po ... / přišel po ...
 • Důležité pro:
  • NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
  • Učení češtiny
  • lingvistický výzkum (ověření teorie)
 • Patří na t-rovinu - úzce se týká významu slov.
  • Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
 • Výzkum ve FGD -- od 60. let -- Panevová
 • Každý autosémantický slovní druh je charakterizován valencí (frame-bearing words)
  • primárně: slovesa, ale i substantiva, adjektiva, adverbia
   • např. zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho
  • Pro slovesa je nejpropracovanější, nejpřesnější teorie
  • Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)

Doplnění[editovat | editovat zdroj]

Dělení doplnění:

 • obligatorní / fakultativní -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měli sémanticky úplný a srozumitelný zápis
  • některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
 • aktanty -- odpovídá objektům, participanty / volná doplnění -- odpovídá přívlastkům, příslovečným určením apod.
 • ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa přijít, chovat se)

Aktanty a volná doplnění[editovat | editovat zdroj]

 • aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
 • volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
  • Př.: V Praze(LOC) se sejdeme na Hl. n.(LOC) u pokladen(LOC).
 • jsou obvykle rekční (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
 • volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
 • aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní

Pojetí aktantů ve FGD[editovat | editovat zdroj]

 • Máme 5 aktantů, definovaných spíše syntakticky -- ACT a PAT téměř výhradně, ostatní (EFF, ORIG, ADDR) část. sémanticky
  • kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
 • Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
  • Hodně syntaktickou valenci prosazoval už Tesnière, z něj právě FGD vychází
  • Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
 • Aktanty způsobují posouvání:
  • 1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
  • např. Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!), nebo: The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.

Možné významy aktantů ve FGD[editovat | editovat zdroj]

 • ACT může být (mimo jiné, dalo by se dále specializovat):
  • konatel
  • nositel vlastnosti nebo děje: Tráva je zelená. Petr spí.
  • kauzátor (nepersonální původce děje): Vítr otevřel okno.
  • possesor: Petr má auto. Petr prodal auto (v 2. případě možná i konatel)
  • proživatel: Otci se daří dobře. Kniha(PAT) se mi(ACT) líbí.
  • zasažený objekt: Auto se rozbilo.
  • předávaná informace: Ozvalo se: "Přijďte brzo!"(ACT)
 • Podobně PAT může být:
  • zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...): Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)
  • vlastník: <tt>Kniha patří Janovi.
  • proživatel: Něco(ACT) vadí někomu(PAT) (proti líbit se, kde lze udělat bezpodmětnou větu jako "Líbí se mi v lese.")
  • recipient: Vynadal dětem. Ozval se příteli.
  • informace: Mluvit o něčem
 • EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
  • Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).
  • je ale méně vyhraněný než ADDR a ORIG
   • např. 2 pozice u verb dicendi: Vyprávěl o nich(PAT), že ...(EFF).
 • ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
  • ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (Informovat někoho(ADDR) o něčem(PAT).)
  • ORIG -- látka původu, původce předmětu/informace při výměně: Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)
 • ADDR a ORIG se špatně kombinují

Valenční informace ve slovníku[editovat | editovat zdroj]

 • Jedno slovo může mít několik významů -- několik různých valenčních rámců
  • např. dávat-1 "rozdávat karty" -- ACT, dávat-2 "běžné" -- ACT PAT ADDR

Základní pojmy:

 • lexém -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
  • základní jednotka ve slovníku, sdružuje všechny lex. jednotky
  • pozor, někdy se lexému taky říká lex. jednotka
 • (základní) lexikální jednotka (lexical unit, lexie)
  • komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
  • forma: různé tvary (osoba, pád, etc.), zachycuje se lemmatem
  • funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
  • vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
 • lemma (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova (daný územ)
  • formy -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- paradigma
 • varianty -- různá lemmata, která se kryjí jako lex. jednotka (např. myslet / myslit, někt. tvary mohou být shodné)
 • homografa/homonyma -- stejná forma, různé významy
  • např. žít (obilí / život), stát (na nohou / peníze / sníh se střechy)
  • potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
  • jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
  • je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak

Poznámky:

 • valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
 • různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
  • různé participanty mohou být vůbec vyjádřeny
 • idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu

Valence substantiv a adjektiv[editovat | editovat zdroj]

Primární substantiva[editovat | editovat zdroj]

Rozlišují se následující doplnění, na povrchu všechna vypustitelná:

 • Partitiv/materiál (aktant) -- Gen.
  • řídící člen = množství/skupina (dvojice, balení, sada), kontejner (sklenice, pytlík, tisíc)
  • možná shoda s pádem číslovkového výrazu (na tisíci stránkách)
 • Přínáležitost (volné, u relačních substantiv (otec, příbuzný, nadřízený) aktant) -- Gen., poss. adj., předl. skupina
  • příbuzenský vztah, vztah části a celku (střecha domu), nositel vlastnosti (míra čeho, délka čeho, čí upřímnost), vlastnictví, přínáležení (klíč od)
 • Identita (volné) -- metajazykové výrazy, typ. Nom., Gen. (agentura Reuters, pojem času), i další (nápis Obětem války)
 • Autor (volné) -- Gen., poss. adj.
 • Přívlastek restriktivní (volné) -- shodné adj.
 • Přívlastek deskriptivní (volné) -- shodné adj.

Deverbativní substantiva[editovat | editovat zdroj]

Pro valenční chování je důležitý typ derivace, jakým vznikly:

 • syntaktická derivace -- čistě syntaktický prostředek: dělání, pokrytí
 • lexikální derivace -- vznik ze sloves (základové slovo), ale sémanticky jde skutečně o substantiva: letec, letiště
 • Nejde o vyhraněné dělení, spíše škálu, přechod -- je i spousta případů "mezi" (dar, let).
 • Někdy se dá na totéž dívat jako na syntaktickou nebo lexikální derivaci.
 • U substantiv nejsou povrchově obligatorní valenční doplnění.

Morfématické změny[editovat | editovat zdroj]

Změny morfologického vyjádření valenčního doplnění:

 • strukturní pády (Nom., Acc.) se primárně mění na Gen.: vyrábět něco -> výroba čeho
  • to ukazuje, že možnost vyjadřovat je u substantiv omezenější (Gen. se nesmí opakovat, až na Acc. -> Gen. + Gen. z vazby slovesa zbavení koho čeho)
  • existují i méně typické formy (Nom. -> Ins. / possesivní adjektivum / od + Gen., Acc -> poss. adjektivum): lékařovo léčení pacienta, pacientovo léčení lékařem
  • blokování Gen. a Ins. pro převod Nom. u někt. sloves, která už mají vazbu v tom pádě (vyhrožování, pohrdání)
 • nestrukturní pády (zejména Dat., Ins., ale i Gen., předložkové pády, infinitiv) většinou zůstávají
  • adverbia se mění typicky na adjektiva
 • Formálně se valence větš. zachovává, ale můžou přibývat další formy, které původní sloveso nevázalo, někdy se může forma i měnit
  • takové změny nejsou vždy povinné, špatně se hledají, ale existují
  • zájem o něco / na něčem, strachovat se čeho -> strach z čeho
  • dodávat komu -> dodávka komu / koho / čí

Syntaktická derivace[editovat | editovat zdroj]

Je vidět původní valence (sloveso a substantivum sdílí rámec), ale často dochází k abstrakci (nevyjádření nějakého participantu, který u původního slovesa vidět je).

 • hierarchické formy (?) -- privilegované pozice se neřídí podle aktantů, ale morfologického vyjádření, ACT už není nejdůležitější
 • exploze možností, pro jednotlivá slovesa se to liší, hodně omezení a výjimek (viz slajd!)
 • V PDT jsou deriváty zachyceny jako substantiva, ale je to spíš nedotažeností koncepce, nemělo by to tak být.
 • široce dějová jména (let, zájem) -- něco mezi syntaktickou a lexikální derivací, formálně stále syntaktická.

Lexikální derivace[editovat | editovat zdroj]

Sémanticky jde už o substantivum.

 • Existuje několik skupin (sufixy jsou často víceznačné, např. nosič = činitel / nástroj):
  • činitelská jména (-tel, -ník, -ěč/ač, -ce, -ec, -ař)
  • místo činnosti (-na, -ště)
  • nástroj (-č, -ko, -dlo)
  • výsledek děje (-ní) -- lze chápat i jako syntaktickou derivaci a děj sám
 • Dochází k redukcím na povrchové rovině:
  • aktor upozaděn, argumenty všeobecnější, volnější, nepovinné
 • V hloubkové rovině jde taky o redukci: substantivum samo vyjadřuje 1 participant děje -- toto doplnění mizí (zabudování pozice)
  • např. učitel - není ACT, dárek - není PAT apod.
 • Dochází ke ztrátě dějovosti, uvolnění vazeb, redukci konstrukcí, doplnění jsou často přetížená a zní divně
 • Doplnění mohou úplně nebo postupně mizet: jejich výplata úspor klientům, výplaty zaměstnancům, výplata
  • špatně se popisuje, není ostrá hranice mezi pevnými a volnými doplněními
 • Lexikální deriváty jsou v PDT taky značeny jako substantiva (na rozdíl od jiných lex. derivací, např. lemma od slova třetí je tři)

Primární adjektiva[editovat | editovat zdroj]

Mají stejný repertoár možných doplnění jako slovesa, navíc komparativ má než a superlativ z koho/čeho.

 • Už se zde v teorii nepočítá s posouváním, ADDR, PAT se rozlišuje sémanticky.
 • Většina adjektiv má jen 1 doplnění, jen výjimky s více (nápadný čím komu, vděčný komu za co)
 • Prototypicky se ACT nevyskytuje
 • Problém může být určit (hloubkovou) obligatornost nebo fakultativnost aktantu -- nebo má jít o dva významy?

Deverbativní adjektiva[editovat | editovat zdroj]

 • např. omezit -> omezený
 • Zachovávají rámec sloves až na 1 aktant, který je obsazený rozvíjeným substantivem
  • sloveso se mění na adjektivum, které rozvíjí jedno z původních valenčních doplnění
  • kdo omezí co [na co] -> co omezené [kým na co]
  • kdo žije [život] -> život žitý / kdo žijící
 • na povrchu jsou doplnění vypustitelná vždy

Adverbia[editovat | editovat zdroj]

Mají valenční chování, ale nikdo ho zatím nestudoval.

 • kolmo na co, vedle čeho, blízko čeho

Valenční slovníky pro ČJ[editovat | editovat zdroj]

PDT-Vallex[editovat | editovat zdroj]

 • Asociovaný s daty v PDT2.0, tvořený "zdola"
  • Každé slovo, které má valenci, má odkaz k valenčnímu rámci do valenčního slovníku
  • Na základě toho poznáme, která jeho doplnění jsou valenční argumenty (implicitně ze spojení slovníku a korpusu)
 • Jsou tu rámce pro substantiva, adjektiva (deverbativní?), slovesa
 • Spec. notace "?" -- fakultativnost, obsahuje i zachycenou morfologii
 • Občas jsou v PDT slova, která nemají zastoupení ve val. slovníku -- ale výjimky (?)
  • Nemělo by se stát, že valenční rámec slovesa není uvedený
  • Subst. a adj. ale jsou neúplná, adj. jen deverbativní, subst. jen ta, co mají zřejmý val. rámec (teorie ještě není ustálená, nešlo to konsekventně udělat)
 • Před budováním PDT v podstatě nebyl valenční slovník, anotátoři ale bez něj nemohli konzistentně značkovat -- když se začlo budovat PDT, začal se dělat i slovník
 • Pro anotaci dalších korpusů se průběžně rozšiřuje, snaha provázat s anglickým slovníkem
 • Po anotaci PDT se ještě kontrolovala konzistence

Vallex 2.5[editovat | editovat zdroj]

 • Dělal se paralelně s prací na PDT, měl být ale oproštěn od spěchu s PDT, s anotováním, jako primární zdroj ("shora") [1]
 • Slovesa z ČNK, snaha zpracovat každé zvlášť, ve všech neidiomatických významech
 • Krom toho další synt./sém. informace
 • Dnes cca stejně velké jako PDT-Vallex (cca 4250 sloves)
 • Volně dostupný
 • Proti PDT jsou spojené vidové protějšky
 • XML, anotace se psala v text. souboru se syntax-highlightem, generuje se HTML a PDF
 • PDT-Vallex = do šířky (recall), Vallex = do hloubky (precision)
  • Snaha je oba automaticky spojit

Ostatní slovníky[editovat | editovat zdroj]

 • První val. slovník -- BRIEF -- OCR na SSJČ (Brno)
  • nejsou rozlišené významy sloves, jen kombinace možných povrchových doplnění
 • Potom: Czech Syntactic Lexicon -- snaha o rozlišení významů v BRIEFu
  • označení funktory z FGD
  • není veřejný
 • Verbalex -- pokus zpracovat BRIEF s informacemi z WordNetu, taky neveřejný (Brno)
 • tištěné:
  • SSJČ, SSČ
  • Slovesa pro praxi -- formální velmi podrobný slovník cca 620 sloves (užitečný zdroj pro Vallex)
  • Slovník slovesných, substantivních a adjektivních vazeb -- více obsahu, ale už není formalizovaný

Problém použití valenčních slovníků[editovat | editovat zdroj]

Rozlišení:

 • Pro generování chceme co nejpřesnější významy, pro anotaci je s nimi naopak problém (člověk neumí přiřadit větě význam)
  • skupiny významů jsou jasně rozlišené, ale nuance v nich už zdaleka ne tak ostré
 • Běžná shoda anotátorů je cca 60-70% pro 2-3 lidi! (pro libovolný jazyk)
 • Kritéria přiřazování rámců -- synt./morfolog., jazyková intuice, překladové ekvivalenty

Alternace:

 • Jedná se o podobné významy, vyjádřené pokaždé jiným způsobem (alternující rámce)
 • Chceme zachovat (snaha teoreticky popsat, najít pravidelnost, zatím ve Vallexu není):
  • relace shodných významů (balit věci do kufru - balit kufr)
  • příbuznost slov -- často nejde shodný rámec (požádat koho o co - požadovat co na kom)

Lingvistické zdroje[editovat | editovat zdroj]

FrameNet[editovat | editovat zdroj]

 • Autor: Charles Fillmore, který vyvíjí teorii "sémantických pádů" od 60. let (Case For Case, 1968)
  • tehdy Chomsky popisoval jazyk bez sémantiky, Fillmore to chtěl změnit
  • Fillmore neuznával ani NP VP-dělení, jádrem je pro něj sloveso, je mu jedno, co je subjekt.
 • Každé doplnění má hloubkové pády, původně jich bylo 6 (Agentive, Instrumental, Dative, Factitive, Objective, Locative)
  • do určité míry odpovídají aktantům z FGD (ale jsou tam i další)
  • postupně bylo 7-8 hlavních pádů
 • Jednotlivým významům sloves přiřazoval charakteristiky pomocí pádů, došel ale k tomu, že je to hrubé
  • chtěl to obohatit kvůli nástrojům poč. lingvistiky a umělé inteligence
 • Tím vznikl FrameNet -- lexikální databáze sloves na univerzitě v Berkeley
  • podrobná sémantická charakteristika slov a jejich významů, odklon od obecných popisů
  • jsou tam substantiva, adjektiva, slovesa, předložkové skupiny (v anglické tradici mají valenci)
  • cca 10 000 lex. jednotek, 800 rámců -- hierarchicky uspořádané, příklady na 135 000 větách (z BNC)
  • každá lex. jednotka evokuje / patří do 1 sém. rámce, má možnosti valence
  • rámce mají vztahy: dědění / podrámec / využití (a další)
  • elementy v rámcích: core / non-core
  • každý rámec má uvedený seznam lex. jednotek, které ho evokují, subkorpus anotovaných vět, které mu odpovídají, jsou v nich vyznačeny jednotlivé elementy (ručně, není formalizováno)
  • při dědění jsou uspořádány i elementy -- který odpovídá kterému v odděděném rámci (někt. nemusí být realizovány, ale většina bývá), mění se přitom i core/non-core.
  • negativní i pozitivní případy patří do 1 rámce (např. Compliance obsahuje i violate), s rámci se pojí slovesa, substantiva, adjektiva, fráze
  • nejvyšší úroveň -- hodně obecné rámce (Děj, Stupňovatelné atributy ...)
  • může se stát, že 1 sloveso má dvě odvozená substantiva, která odpovídají každé jinému rámci (observe -> observation (Perception, Commenting), observance (Compliance))
  • v různých rámcích mají lex. jednotky různé valenční vlastnosti
 • Existuje i několik FrameNetů v jiných jazycích, svázaných s původním
 • FrameNet je volně dostupný

PropBank[editovat | editovat zdroj]

 • Pro angličtinu, valence sloves, založeno na PTB (složkové stromy)
 • Jde o vyšší vrstvu (v PTB je jen povrchová syntax) -- úroveň "propozic" (krok k tomu, čemu my říkáme t-rovina)
  • máme-li sloveso a jeho doplnění, chceme ho abstrahovat od povrchového vyjádření: A met B, A and B met -> meet(A,B)
 • Pro každé sloveso vytvoříme sém. role (rámec), používáme závislostní syntax (nejde o celé stromy, jen o propozice)
  • argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
   • ARG0 -- prototyp. agens
   • ARG1 -- prototyp. patiens
   • ARG2 -- typický adresát
   • ARG4/5 bývá určení místa -- v ČJ často volné, tady pevné)
  • volná doplnění se taky značkují, mají hrubší sém. dělení než PDT -- LOC, TMP, DIR ... etc.
  • rámce: význam slovesa, argumenty + co představují -- hit.01 - ARG0 = hitter, ARG1 = thing hit, ARG2 = instrument
 • i v aktivním, i v pasivním použití (tranzitivní / ergativní, neakuzativní použití -- subjekt není konatel děje, aktor) se užívá stejných čísel argumentů, posouvání neprobíhá
  • Váza se rozbila. The vase broke. -- zasažený objekt stále (proti PDT) dostane ARG1, ne ARG0!
  • The earthquake(ARG0) shook the walls(ARG1). The walls(ARG1) shook.
 • argumenty synonymních sloves jsou zachovány, i když na povrchu se chovají jinak (shodné rolesets u sloves s podobnými významy, i když u různých významů jednoho slovesa jsou různé)
  • Petr(ARG0) miluje Marii(ARG1). Petrovi(ARG0) se líbí Marie(ARG1).
 • Existuje též "valenční slovník" -- slovník propozic

VerbNet[editovat | editovat zdroj]

 • Propracovanější sém. zroj, valenční slovník [2] (propojený s PropBankem, FrameNetem)
 • Sémantické třídy sloves, ve kterých panuje syntaktická a sémantická koherence
  • např. telephone, cable, wireless, e-mail<tt> je třída <tt>instr_communication-37.4
 • Uvedeny aktanty, jejich možná povrchová vyjádření, sémantické role, omezení
 • syntaktický popis, sémantické predikáty

WordNet[editovat | editovat zdroj]

 • Sémantická síť -- snaha zachytit jazykové znalosti lidí a vztahy významových konceptů
 • Projekt začal pro AJ na univerzitě v Princetonu v 80. letech, 1. verze '93, online i ke stažení
 • Zákl. jednotka -- synset = množina (přibližných -- hodně široce pojato) synonym (mají společný jeden z významů) -- odpovídá lex. jednotkám v českém významu (sémém (?))
  • mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
   • zákl. relace u substantiv: hyponymie, hyperonymie, holonymie (celek), meronymie (část), sister term
   • u sloves: hyperonymie, troponymie (míra děje), frázová slovesa, povrchová vyjádření (?), sister term
   • adjektiva: antonyma, synonyma, doména
   • adverbia: antonyma, pertainyma (k čemu se vztahuje)
 • Přejatá základní ontologie (nejrozšířenější (?))
 • Snaha, aby byl systém totožný s lidským
  • např. kanárek zpívá = 1 úroveň daleko, kanárek létá = 2 úrovně, kanárek má kůži = hodně úrovní
 • námitka: nevyrovnanost databáze (biologie má moc hlubokou hierarchii, jinde to není), není strom (občas cykly)
 • neobsahuje výslovnost, etymologii, gramatické informace

EuroWordNet[editovat | editovat zdroj]

 • Wordnety pro mnoho jiných jazyků (desítky), podle stejné základní struktury
  • idea dobrá pro překlad, ale v praxi moc hezky nefunguje -- lexikalizované jsou jiné druhy věcí (viz go = jet, jít), proto ani významy synsetů si přesně neodpovídají
 • Existuje ale interlingual index -- provázání synsetů v různých jazycích (přes Princetonský WordNet)
 • Navíc vznikla top-ontology -- základní, horní část hierarchie -- nejobecnější koncepty (63 položek) -- shodná pro všechny jazyky
  • ještě domain-ontology -- pro různá spec. odvětví
  • i 1059 base concepts (zákl. významy), které mají být na sebe navázané, ve všech jazycích to není přesně dodrženo
 • Jiné WordNety vznikly překladem a napasováním na původní, proto jsou trochu šroubované (každý jazyk má ve skutečnosti jinou ontologii)
  • základní struktura musela být kvůli jiným jazykům rozšířena

Omega[editovat | editovat zdroj]

 • Další ontologie -- jiný způsob klasifikace, hierarchie
 • Propojené s PropBankem -- pro slovesa jsou synt. informace
 • Propojené i s FrameNetem etc., část mapovaná i na WordNet

SUMO[editovat | editovat zdroj]

 • Suggested Upper-Merged Ontology -- pro automatické odvozování
 • Jsou tam k tomu logické nástroje
 • taky navázané na WordNet

Viz též[editovat | editovat zdroj]