Vybrané problémy z lingvistiky I

Z ωικι.matfyz.cz
Přejít na: navigace, hledání
Vybrané problémy z lingvistiky I
Kód předmětu: NPFL071
Přednáší: Markéta Lopatková

Tohle je ne nutně úplný přepis poznámek ze ZS 2009/10 -- Tuetschek 00:06, 25 Feb 2010 (CET)

Tato část je neúplná a potřebuje rozšířit. učesat, vysvětlit "(?)"

Úvod - popis jazyka

  • Jazyk - vztah mezi významem (funkcí, označované) a výrazem (forma, označující)
    • langue a parole -- systém a užití
    • omezíme se na jazykový význam, vynecháme pragmatiku
  • Matematická lingvistika -- 3 možnosti pojetí:
    • kvantitativní lingvistika (v 19. stol.)
    • algebraická (formální) lingvistika (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
    • počítačová (komputační) lingvistika -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
  • Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit strukturu ~ význam
    • vztah není 1:1 (víceznačnost, synonymie)
    • formální jazyky -- existuje úplný popis, u přirozeného jazyka ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
  • Popis -- buď od významu k výrazu (generování (syntéza)), nebo opačně (rekognoskace)
  • Stromový popis -- obvyklý popis významu
    • složkový -- $ T = <N,Q,D,P,L> $ ($ N $ -- množina uzlů, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ D $ -- relace dominance, $ P $ -- relace precedence (silné částečné usp., slovosled) $ L $ -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
      • další podmínky: jediný kořen, exkluzivita pro $ D, P $, projektivita
      • kvůli podmínce projektivity není možné zobrazit neprojektivní konstrukce (kde dochází ke křížení frázových hran vzhledem ke slovosledu: Vánoční nadešel čas. Soubor se nepodařilo otevřít.)
    • závislostní -- $ T = <N,Q,E,WO,L> $ ($ N, E $ -- konečný graf, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ WO $ -- silné úplné uspořádání (pořadí slov), $ L $ -- ohodnocovací funkce)
      • jiný problém - nevyjádří těsnější a volnější spojení (Profesor zjistil, že je jeho (hladový algoritmus) nefunkční, (Zítřejší noviny) ze včerejška)

Funkční generativní popis

  • Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
    • 1. kniha: Generativní popis jazyka a česká deklinace (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
    • navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
    • představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
  • cíl -- vymezení správných vět (langue), zachycení struktury, vztahu výrazu a významu (synonymie, homonymie)
  • popis - závislostní, stratifikační
    • 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (asymetrický dualismus)
  • nejvýše stojí jazykový význam (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (obsah), jazyk může být vágní
  • V pův. FGD zásobníkový automat (generativní složka) generoval na významové rovině projektivní stromy
    • ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (překladová složka)
    • skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
    • původní verze používala frázové stromy, později upraveno na závislostní
    • proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
  • Bez sémantické kontroly

Zákl. koncepce

  • roviny -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah kompozice), vztahy mezi rovinami -- reprezentace
  • valence (Panevová) -- slovesa i další slovní druhy
  • význam -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
  • aktuální členění (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
    • základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
  • koreference
  • víceznačnost a vágnost -- vágnost zachovaná, víceznačnost rozlišená (?)

Roviny popisu

  • forma, funkce -- nižší rovina je formou vyšší roviny (vztah reprezentace), základní jednotky na jedné rovině tvoří komplexní (kompozice)
  • hloubková syntax (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
    • ohodnocení uzlů: komplexní symbol -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
    • lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
    • morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
    • syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
  • povrchová syntax (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
  • morfematická (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
  • morfonologická -- řetězy morfonémů: morfy (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
  • fonologická -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou

Analýza a generování

  • Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
    • místo analýzy až na interlingvu se používá transfer
  • Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
    • formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)

Pražský závislostní korpus (PDT)

  • Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
    • my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
  • 4 roviny:
    • w-layer -- nezpracovaný text, včetně chyb
    • m-layer, a-layer, t-layer -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
    • a-layer a t-layer se nazývají strukturní roviny, jsou vždy stromy, mají technický kořen
  • předpřipravené rozdělení train, development, test
  • data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
  • m-layer se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
  • a-layer -- na rozdíl od FGD není kořenem sloveso, je tu technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
    • mezi m-layer a a-layer je relace 1:1 slova:uzly (až na technický kořen a-layeru), tj. 1 uzel odp. 1 slovu (rozvití elips se věší na předky)
    • zachovaný původní slovosled věty
  • t-layer -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (a), modifikační slova (však))
    • "slovosled" je jiný
    • přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
  • hrany -- vztah závislosti

Závislost

  • Směr závislosti, princip redukce (?)
  • ektocentrická, endocentrická závislost -- skládání se změnou / bez změny slovního druhu (?)
  • syntaktická, morfologická závislost -- (dívka vysoké postavy -- syntakticky nelze vypustit přívlastek)
  • vnitřní, volná doplnění (?)
  • valenční doplnění / okolnosti (?)
  • dvojí závislost, dvojí funkce
  • PP-attachment
  • nejednoznačná doplnění adjektivem
  • nejasné závislosti

Koordinace

Sém. vztah koordinace(přiřaďování) je "zmnožení", obsazení jedné pozice více členy. Členy označují různé entity (větné členy nebo věty, i spojení větného členu s větou), které mají stejnou sémantickou roli, jsou rovnocenné a samostatné, mají stejnou synt. platnost (do závislostí jdou jako celek, mají stejný řídící člen).

  • Vyjádření syntakticky různě, primárně: parataxe (souřadné spojení), hypotaxe (podřadné spojení: maminka s tatínkem)
  • V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
  • rozdíl souřadných a podřadných spojek -- kritérium pozice a přízvuku
    • neboť a protože se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: neboť nestojí nikdy na zač. souvětí)
  • Sémantické vztahy v kooridnaci:
    • kopulativní (CONJ -- a)
    • adverzativní (ADVS -- ale)
    • disjunktivní (DISJ -- nebo)
    • gradační: stoupá důležitost (GRAD -- nejen, ale i) -- v některých jiných lingv. tradicích se nerozlišuje
    • příčiný (REAS -- neboť), důsledkový (CSQ -- a tak)
    • oprava (spíše, lépe), zahrnutí (a to i)
    • Spec. pro PDT -- konfrontace, kontrast, matematika
  • Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
  • v PDT spojovací konstrukce, 1 spojovací uzel, který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
    • spojen s efektivním rodičem spec. hranou, členy spojovací konstrukce spojeny spec. hranou se spojovacím výrazem, společná rozvití taky
    • ef. rodič / syn (pro společná rozvití -- (štavnaté ^a^ sladké) ovoce)

Apozice

Zmnožení (více členů téže synt. platnosti, přičemž všechny pojmenovávají 1 referent, stejný větný člen. Jsou zaměnitelné, kongruentní.

  • Různé pojetí, např. Šmilauer považuje za apozici i Pan Novák, Prezident Klaus, v PDT je to přívlastek
  • Oddělení čárkou nebo věci v závorkách: "Obč. dem. strana (ODS) ...".
  • Formálně se zachycuje stejně jako koordinace, spojovací výraz je čárka (příp. závorka)
  • Někdy je problém ji odlišit od koordinace ("Naši sousedé, Marie a Milan, ...")

Parenteze

Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví

  • Něco v závorkách, příp. odd. čárkou: Mohl byste, prosím, přijít? (Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)
    • prosím, řekl bych -- ustálená parenteze, de facto částice, frazémy
  • Větná parenteze -- např. věta v závorce
  • Větný člen jako parenteze -- Přišel pozdě (včera).
  • v PDT i vokativ (oslovení), elipsa, citoslovce, samostatný větný člen, nezačleněná parenteze
  • Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso

Ostatní nezávislostní vztahy

  • Tech. kořen -> ef. kořen věty (sloveso)
  • Synt. nejasné výrazy (asi, snad), odkazy k předch. textu (však)
    • rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
  • Seznamy -- názvy (mají strukturu, ale visí na spec. uzlu), cizojazyčné výrazy (všechna slova visí vedle sebe na jednom technickém uzlu)
  • Frazémy (spec. funktor široko <- daleko_(DPHR))

Valence

Valence je zákl. synt.-sém. informace -- de facto drží záv. stromy pohromadě.

  • Def.: Schopnost lex. jednotky otevírat pozice dalším lex. jednotkám
    • spíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesná
  • Situace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytují
    • Valence má zachytit, které sémantické participanty mají být přítomny (termín sémantický participant se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha argumentů, které na sebe slovo váže.
    • Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.
    • Např. slovesa: prázdná valence (prší, sněží ...), 1 doplnění (běžet, jít ... ), 2 doplnění (vyrábět, dělat, natírat ...), 3 doplnění (dávat ...)
  • Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
  • Nelze zachytit pravidly, uchovává se ve slovníku. Takový slovník už zachycuje hodně syntaktických informací.
  • Pomáhá rozlišit nejednoznačnosti v:
    • morfologii: Ptala se jeho bratra (Gen. nebo Acc.?)
    • syntaxi: Začala ho milovat. Nechala ho spát (na čem závisí ho?)
    • významech slova: odpovídat na / za / čemu
    • sémantice větných členů: sháněl se po ... / přišel po ...
  • Důležité pro:
    • NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
    • Učení češtiny
    • lingvistický výzkum (ověření teorie)
  • Patří na t-rovinu - úzce se týká významu slov.
    • Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
  • Výzkum ve FGD -- od 60. let -- Panevová
  • Každý autosémantický slovní druh je charakterizován valencí (frame-bearing words)
    • primárně: slovesa, ale i substantiva, adjektiva, adverbia
      • např. zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho
    • Pro slovesa je nejpropracovanější, nejpřesnější teorie
    • Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)

Doplnění

Dělení doplnění:

  • obligatorní / fakultativní -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měli sémanticky úplný a srozumitelný zápis
    • některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
  • aktanty -- odpovídá objektům, participanty / volná doplnění -- odpovídá přívlastkům, příslovečným určením apod.
  • ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa přijít, chovat se)

Aktanty a volná doplnění

  • aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
  • volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
    • Př.: V Praze(LOC) se sejdeme na Hl. n.(LOC) u pokladen(LOC).
  • jsou obvykle rekční (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
  • volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
  • aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní

Pojetí aktantů ve FGD

  • Máme 5 aktantů, definovaných spíše syntakticky -- ACT a PAT téměř výhradně, ostatní (EFF, ORIG, ADDR) část. sémanticky
    • kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
  • Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
    • Hodně syntaktickou valenci prosazoval už Tesnière, z něj právě FGD vychází
    • Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
  • Aktanty způsobují posouvání:
    • 1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
    • např. Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!), nebo: The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.

Možné významy aktantů ve FGD

  • ACT může být (mimo jiné, dalo by se dále specializovat):
    • konatel
    • nositel vlastnosti nebo děje: Tráva je zelená. Petr spí.
    • kauzátor (nepersonální původce děje): Vítr otevřel okno.
    • possesor: Petr má auto. Petr prodal auto (v 2. případě možná i konatel)
    • proživatel: Otci se daří dobře. Kniha(PAT) se mi(ACT) líbí.
    • zasažený objekt: Auto se rozbilo.
    • předávaná informace: Ozvalo se: "Přijďte brzo!"(ACT)
  • Podobně PAT může být:
    • zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...): Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)
    • vlastník: <tt>Kniha patří Janovi.
    • proživatel: Něco(ACT) vadí někomu(PAT) (proti líbit se, kde lze udělat bezpodmětnou větu jako "Líbí se mi v lese.")
    • recipient: Vynadal dětem. Ozval se příteli.
    • informace: Mluvit o něčem
  • EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
    • Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).
    • je ale méně vyhraněný než ADDR a ORIG
      • např. 2 pozice u verb dicendi: Vyprávěl o nich(PAT), že ...(EFF).
  • ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
    • ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (Informovat někoho(ADDR) o něčem(PAT).)
    • ORIG -- látka původu, původce předmětu/informace při výměně: Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)
  • ADDR a ORIG se špatně kombinují

Valenční informace ve slovníku

  • Jedno slovo může mít několik významů -- několik různých valenčních rámců
    • např. dávat-1 "rozdávat karty" -- ACT, dávat-2 "běžné" -- ACT PAT ADDR

Základní pojmy:

  • lexém -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
    • základní jednotka ve slovníku, sdružuje všechny lex. jednotky
    • pozor, někdy se lexému taky říká lex. jednotka
  • (základní) lexikální jednotka (lexical unit, lexie)
    • komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
    • forma: různé tvary (osoba, pád, etc.), zachycuje se lemmatem
    • funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
    • vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
  • lemma (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova (daný územ)
    • formy -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- paradigma
  • varianty -- různá lemmata, která se kryjí jako lex. jednotka (např. myslet / myslit, někt. tvary mohou být shodné)
  • homografa/homonyma -- stejná forma, různé významy
    • např. žít (obilí / život), stát (na nohou / peníze / sníh se střechy)
    • potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
    • jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
    • je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak

Poznámky:

  • valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
  • různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
    • různé participanty mohou být vůbec vyjádřeny
  • idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu

Valence substantiv a adjektiv

Primární substantiva

Rozlišují se následující doplnění, na povrchu všechna vypustitelná:

  • Partitiv/materiál (aktant) -- Gen.
    • řídící člen = množství/skupina (dvojice, balení, sada), kontejner (sklenice, pytlík, tisíc)
    • možná shoda s pádem číslovkového výrazu (na tisíci stránkách)
  • Přínáležitost (volné, u relačních substantiv (otec, příbuzný, nadřízený) aktant) -- Gen., poss. adj., předl. skupina
    • příbuzenský vztah, vztah části a celku (střecha domu), nositel vlastnosti (míra čeho, délka čeho, čí upřímnost), vlastnictví, přínáležení (klíč od)
  • Identita (volné) -- metajazykové výrazy, typ. Nom., Gen. (agentura Reuters, pojem času), i další (nápis Obětem války)
  • Autor (volné) -- Gen., poss. adj.
  • Přívlastek restriktivní (volné) -- shodné adj.
  • Přívlastek deskriptivní (volné) -- shodné adj.

Deverbativní substantiva

Pro valenční chování je důležitý typ derivace, jakým vznikly:

  • syntaktická derivace -- čistě syntaktický prostředek: dělání, pokrytí
  • lexikální derivace -- vznik ze sloves (základové slovo), ale sémanticky jde skutečně o substantiva: letec, letiště
  • Nejde o vyhraněné dělení, spíše škálu, přechod -- je i spousta případů "mezi" (dar, let).
  • Někdy se dá na totéž dívat jako na syntaktickou nebo lexikální derivaci.
  • U substantiv nejsou povrchově obligatorní valenční doplnění.

Morfématické změny

Změny morfologického vyjádření valenčního doplnění:

  • strukturní pády (Nom., Acc.) se primárně mění na Gen.: vyrábět něco -> výroba čeho
    • to ukazuje, že možnost vyjadřovat je u substantiv omezenější (Gen. se nesmí opakovat, až na Acc. -> Gen. + Gen. z vazby slovesa zbavení koho čeho)
    • existují i méně typické formy (Nom. -> Ins. / possesivní adjektivum / od + Gen., Acc -> poss. adjektivum): lékařovo léčení pacienta, pacientovo léčení lékařem
    • blokování Gen. a Ins. pro převod Nom. u někt. sloves, která už mají vazbu v tom pádě (vyhrožování, pohrdání)
  • nestrukturní pády (zejména Dat., Ins., ale i Gen., předložkové pády, infinitiv) většinou zůstávají
    • adverbia se mění typicky na adjektiva
  • Formálně se valence větš. zachovává, ale můžou přibývat další formy, které původní sloveso nevázalo, někdy se může forma i měnit
    • takové změny nejsou vždy povinné, špatně se hledají, ale existují
    • zájem o něco / na něčem, strachovat se čeho -> strach z čeho
    • dodávat komu -> dodávka komu / koho / čí

Syntaktická derivace

Je vidět původní valence (sloveso a substantivum sdílí rámec), ale často dochází k abstrakci (nevyjádření nějakého participantu, který u původního slovesa vidět je).

  • hierarchické formy (?) -- privilegované pozice se neřídí podle aktantů, ale morfologického vyjádření, ACT už není nejdůležitější
  • exploze možností, pro jednotlivá slovesa se to liší, hodně omezení a výjimek (viz slajd!)
  • V PDT jsou deriváty zachyceny jako substantiva, ale je to spíš nedotažeností koncepce, nemělo by to tak být.
  • široce dějová jména (let, zájem) -- něco mezi syntaktickou a lexikální derivací, formálně stále syntaktická.

Lexikální derivace

Sémanticky jde už o substantivum.

  • Existuje několik skupin (sufixy jsou často víceznačné, např. nosič = činitel / nástroj):
    • činitelská jména (-tel, -ník, -ěč/ač, -ce, -ec, -ař)
    • místo činnosti (-na, -ště)
    • nástroj (-č, -ko, -dlo)
    • výsledek děje (-ní) -- lze chápat i jako syntaktickou derivaci a děj sám
  • Dochází k redukcím na povrchové rovině:
    • aktor upozaděn, argumenty všeobecnější, volnější, nepovinné
  • V hloubkové rovině jde taky o redukci: substantivum samo vyjadřuje 1 participant děje -- toto doplnění mizí (zabudování pozice)
    • např. učitel - není ACT, dárek - není PAT apod.
  • Dochází ke ztrátě dějovosti, uvolnění vazeb, redukci konstrukcí, doplnění jsou často přetížená a zní divně
  • Doplnění mohou úplně nebo postupně mizet: jejich výplata úspor klientům, výplaty zaměstnancům, výplata
    • špatně se popisuje, není ostrá hranice mezi pevnými a volnými doplněními
  • Lexikální deriváty jsou v PDT taky značeny jako substantiva (na rozdíl od jiných lex. derivací, např. lemma od slova třetí je tři)

Primární adjektiva

Mají stejný repertoár možných doplnění jako slovesa, navíc komparativ má než a superlativ z koho/čeho.

  • Už se zde v teorii nepočítá s posouváním, ADDR, PAT se rozlišuje sémanticky.
  • Většina adjektiv má jen 1 doplnění, jen výjimky s více (nápadný čím komu, vděčný komu za co)
  • Prototypicky se ACT nevyskytuje
  • Problém může být určit (hloubkovou) obligatornost nebo fakultativnost aktantu -- nebo má jít o dva významy?

Deverbativní adjektiva

  • např. omezit -> omezený
  • Zachovávají rámec sloves až na 1 aktant, který je obsazený rozvíjeným substantivem
    • sloveso se mění na adjektivum, které rozvíjí jedno z původních valenčních doplnění
    • kdo omezí co [na co] -> co omezené [kým na co]
    • kdo žije [život] -> život žitý / kdo žijící
  • na povrchu jsou doplnění vypustitelná vždy

Adverbia

Mají valenční chování, ale nikdo ho zatím nestudoval.

  • kolmo na co, vedle čeho, blízko čeho

Valenční slovníky pro ČJ

PDT-Vallex

  • Asociovaný s daty v PDT2.0, tvořený "zdola"
    • Každé slovo, které má valenci, má odkaz k valenčnímu rámci do valenčního slovníku
    • Na základě toho poznáme, která jeho doplnění jsou valenční argumenty (implicitně ze spojení slovníku a korpusu)
  • Jsou tu rámce pro substantiva, adjektiva (deverbativní?), slovesa
  • Spec. notace "?" -- fakultativnost, obsahuje i zachycenou morfologii
  • Občas jsou v PDT slova, která nemají zastoupení ve val. slovníku -- ale výjimky (?)
    • Nemělo by se stát, že valenční rámec slovesa není uvedený
    • Subst. a adj. ale jsou neúplná, adj. jen deverbativní, subst. jen ta, co mají zřejmý val. rámec (teorie ještě není ustálená, nešlo to konsekventně udělat)
  • Před budováním PDT v podstatě nebyl valenční slovník, anotátoři ale bez něj nemohli konzistentně značkovat -- když se začlo budovat PDT, začal se dělat i slovník
  • Pro anotaci dalších korpusů se průběžně rozšiřuje, snaha provázat s anglickým slovníkem
  • Po anotaci PDT se ještě kontrolovala konzistence

Vallex 2.5

  • Dělal se paralelně s prací na PDT, měl být ale oproštěn od spěchu s PDT, s anotováním, jako primární zdroj ("shora") [1]
  • Slovesa z ČNK, snaha zpracovat každé zvlášť, ve všech neidiomatických významech
  • Krom toho další synt./sém. informace
  • Dnes cca stejně velké jako PDT-Vallex (cca 4250 sloves)
  • Volně dostupný
  • Proti PDT jsou spojené vidové protějšky
  • XML, anotace se psala v text. souboru se syntax-highlightem, generuje se HTML a PDF
  • PDT-Vallex = do šířky (recall), Vallex = do hloubky (precision)
    • Snaha je oba automaticky spojit

Ostatní slovníky

  • První val. slovník -- BRIEF -- OCR na SSJČ (Brno)
    • nejsou rozlišené významy sloves, jen kombinace možných povrchových doplnění
  • Potom: Czech Syntactic Lexicon -- snaha o rozlišení významů v BRIEFu
    • označení funktory z FGD
    • není veřejný
  • Verbalex -- pokus zpracovat BRIEF s informacemi z WordNetu, taky neveřejný (Brno)
  • tištěné:
    • SSJČ, SSČ
    • Slovesa pro praxi -- formální velmi podrobný slovník cca 620 sloves (užitečný zdroj pro Vallex)
    • Slovník slovesných, substantivních a adjektivních vazeb -- více obsahu, ale už není formalizovaný

Problém použití valenčních slovníků

Rozlišení:

  • Pro generování chceme co nejpřesnější významy, pro anotaci je s nimi naopak problém (člověk neumí přiřadit větě význam)
    • skupiny významů jsou jasně rozlišené, ale nuance v nich už zdaleka ne tak ostré
  • Běžná shoda anotátorů je cca 60-70% pro 2-3 lidi! (pro libovolný jazyk)
  • Kritéria přiřazování rámců -- synt./morfolog., jazyková intuice, překladové ekvivalenty

Alternace:

  • Jedná se o podobné významy, vyjádřené pokaždé jiným způsobem (alternující rámce)
  • Chceme zachovat (snaha teoreticky popsat, najít pravidelnost, zatím ve Vallexu není):
    • relace shodných významů (balit věci do kufru - balit kufr)
    • příbuznost slov -- často nejde shodný rámec (požádat koho o co - požadovat co na kom)

Lingvistické zdroje

FrameNet

  • Autor: Charles Fillmore, který vyvíjí teorii "sémantických pádů" od 60. let (Case For Case, 1968)
    • tehdy Chomsky popisoval jazyk bez sémantiky, Fillmore to chtěl změnit
    • Fillmore neuznával ani NP VP-dělení, jádrem je pro něj sloveso, je mu jedno, co je subjekt.
  • Každé doplnění má hloubkové pády, původně jich bylo 6 (Agentive, Instrumental, Dative, Factitive, Objective, Locative)
    • do určité míry odpovídají aktantům z FGD (ale jsou tam i další)
    • postupně bylo 7-8 hlavních pádů
  • Jednotlivým významům sloves přiřazoval charakteristiky pomocí pádů, došel ale k tomu, že je to hrubé
    • chtěl to obohatit kvůli nástrojům poč. lingvistiky a umělé inteligence
  • Tím vznikl FrameNet -- lexikální databáze sloves na univerzitě v Berkeley
    • podrobná sémantická charakteristika slov a jejich významů, odklon od obecných popisů
    • jsou tam substantiva, adjektiva, slovesa, předložkové skupiny (v anglické tradici mají valenci)
    • cca 10 000 lex. jednotek, 800 rámců -- hierarchicky uspořádané, příklady na 135 000 větách (z BNC)
    • každá lex. jednotka evokuje / patří do 1 sém. rámce, má možnosti valence
    • rámce mají vztahy: dědění / podrámec / využití (a další)
    • elementy v rámcích: core / non-core
    • každý rámec má uvedený seznam lex. jednotek, které ho evokují, subkorpus anotovaných vět, které mu odpovídají, jsou v nich vyznačeny jednotlivé elementy (ručně, není formalizováno)
    • při dědění jsou uspořádány i elementy -- který odpovídá kterému v odděděném rámci (někt. nemusí být realizovány, ale většina bývá), mění se přitom i core/non-core.
    • negativní i pozitivní případy patří do 1 rámce (např. Compliance obsahuje i violate), s rámci se pojí slovesa, substantiva, adjektiva, fráze
    • nejvyšší úroveň -- hodně obecné rámce (Děj, Stupňovatelné atributy ...)
    • může se stát, že 1 sloveso má dvě odvozená substantiva, která odpovídají každé jinému rámci (observe -> observation (Perception, Commenting), observance (Compliance))
    • v různých rámcích mají lex. jednotky různé valenční vlastnosti
  • Existuje i několik FrameNetů v jiných jazycích, svázaných s původním
  • FrameNet je volně dostupný

PropBank

  • Pro angličtinu, valence sloves, založeno na PTB (složkové stromy)
  • Jde o vyšší vrstvu (v PTB je jen povrchová syntax) -- úroveň "propozic" (krok k tomu, čemu my říkáme t-rovina)
    • máme-li sloveso a jeho doplnění, chceme ho abstrahovat od povrchového vyjádření: A met B, A and B met -> meet(A,B)
  • Pro každé sloveso vytvoříme sém. role (rámec), používáme závislostní syntax (nejde o celé stromy, jen o propozice)
    • argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
      • ARG0 -- prototyp. agens
      • ARG1 -- prototyp. patiens
      • ARG2 -- typický adresát
      • ARG4/5 bývá určení místa -- v ČJ často volné, tady pevné)
    • volná doplnění se taky značkují, mají hrubší sém. dělení než PDT -- LOC, TMP, DIR ... etc.
    • rámce: význam slovesa, argumenty + co představují -- hit.01 - ARG0 = hitter, ARG1 = thing hit, ARG2 = instrument
  • i v aktivním, i v pasivním použití (tranzitivní / ergativní, neakuzativní použití -- subjekt není konatel děje, aktor) se užívá stejných čísel argumentů, posouvání neprobíhá
    • Váza se rozbila. The vase broke. -- zasažený objekt stále (proti PDT) dostane ARG1, ne ARG0!
    • The earthquake(ARG0) shook the walls(ARG1). The walls(ARG1) shook.
  • argumenty synonymních sloves jsou zachovány, i když na povrchu se chovají jinak (shodné rolesets u sloves s podobnými významy, i když u různých významů jednoho slovesa jsou různé)
    • Petr(ARG0) miluje Marii(ARG1). Petrovi(ARG0) se líbí Marie(ARG1).
  • Existuje též "valenční slovník" -- slovník propozic

VerbNet

  • Propracovanější sém. zroj, valenční slovník [2] (propojený s PropBankem, FrameNetem)
  • Sémantické třídy sloves, ve kterých panuje syntaktická a sémantická koherence
    • např. telephone, cable, wireless, e-mail<tt> je třída <tt>instr_communication-37.4
  • Uvedeny aktanty, jejich možná povrchová vyjádření, sémantické role, omezení
  • syntaktický popis, sémantické predikáty

WordNet

  • Sémantická síť -- snaha zachytit jazykové znalosti lidí a vztahy významových konceptů
  • Projekt začal pro AJ na univerzitě v Princetonu v 80. letech, 1. verze '93, online i ke stažení
  • Zákl. jednotka -- synset = množina (přibližných -- hodně široce pojato) synonym (mají společný jeden z významů) -- odpovídá lex. jednotkám v českém významu (sémém (?))
    • mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
      • zákl. relace u substantiv: hyponymie, hyperonymie, holonymie (celek), meronymie (část), sister term
      • u sloves: hyperonymie, troponymie (míra děje), frázová slovesa, povrchová vyjádření (?), sister term
      • adjektiva: antonyma, synonyma, doména
      • adverbia: antonyma, pertainyma (k čemu se vztahuje)
  • Přejatá základní ontologie (nejrozšířenější (?))
  • Snaha, aby byl systém totožný s lidským
    • např. kanárek zpívá = 1 úroveň daleko, kanárek létá = 2 úrovně, kanárek má kůži = hodně úrovní
  • námitka: nevyrovnanost databáze (biologie má moc hlubokou hierarchii, jinde to není), není strom (občas cykly)
  • neobsahuje výslovnost, etymologii, gramatické informace

EuroWordNet

  • Wordnety pro mnoho jiných jazyků (desítky), podle stejné základní struktury
    • idea dobrá pro překlad, ale v praxi moc hezky nefunguje -- lexikalizované jsou jiné druhy věcí (viz go = jet, jít), proto ani významy synsetů si přesně neodpovídají
  • Existuje ale interlingual index -- provázání synsetů v různých jazycích (přes Princetonský WordNet)
  • Navíc vznikla top-ontology -- základní, horní část hierarchie -- nejobecnější koncepty (63 položek) -- shodná pro všechny jazyky
    • ještě domain-ontology -- pro různá spec. odvětví
    • i 1059 base concepts (zákl. významy), které mají být na sebe navázané, ve všech jazycích to není přesně dodrženo
  • Jiné WordNety vznikly překladem a napasováním na původní, proto jsou trochu šroubované (každý jazyk má ve skutečnosti jinou ontologii)
    • základní struktura musela být kvůli jiným jazykům rozšířena

Omega

  • Další ontologie -- jiný způsob klasifikace, hierarchie
  • Propojené s PropBankem -- pro slovesa jsou synt. informace
  • Propojené i s FrameNetem etc., část mapovaná i na WordNet

SUMO

  • Suggested Upper-Merged Ontology -- pro automatické odvozování
  • Jsou tam k tomu logické nástroje
  • taky navázané na WordNet

Viz též