Vybrané problémy z lingvistiky I

Z ωικι.matfyz.cz
Přejít na: navigace, hledání
Vybrané problémy z lingvistiky I
Kód předmětu: NPFL071
Přednáší: Markéta Lopatková

Tohle je ne nutně úplný přepis poznámek ze ZS 2009/10 -- Tuetschek 00:06, 25 Feb 2010 (CET)

Tato část je neúplná a potřebuje rozšířit. učesat, vysvětlit "(?)"

Úvod - popis jazyka[editovat | editovat zdroj]

  • Jazyk - vztah mezi významem (funkcí, označované) a výrazem (forma, označující)
    • langue a parole -- systém a užití
    • omezíme se na jazykový význam, vynecháme pragmatiku
  • Matematická lingvistika -- 3 možnosti pojetí:
    • kvantitativní lingvistika (v 19. stol.)
    • algebraická (formální) lingvistika (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
    • počítačová (komputační) lingvistika -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
  • Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit strukturu ~ význam
    • vztah není 1:1 (víceznačnost, synonymie)
    • formální jazyky -- existuje úplný popis, u přirozeného jazyka ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
  • Popis -- buď od významu k výrazu (generování (syntéza)), nebo opačně (rekognoskace)
  • Stromový popis -- obvyklý popis významu
    • složkový -- $ T = <N,Q,D,P,L> $ ($ N $ -- množina uzlů, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ D $ -- relace dominance, $ P $ -- relace precedence (silné částečné usp., slovosled) $ L $ -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
      • další podmínky: jediný kořen, exkluzivita pro $ D, P $, projektivita
      • kvůli podmínce projektivity není možné zobrazit neprojektivní konstrukce (kde dochází ke křížení frázových hran vzhledem ke slovosledu: Vánoční nadešel čas. Soubor se nepodařilo otevřít.)
    • závislostní -- $ T = <N,Q,E,WO,L> $ ($ N, E $ -- konečný graf, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ WO $ -- silné úplné uspořádání (pořadí slov), $ L $ -- ohodnocovací funkce)
      • jiný problém - nevyjádří těsnější a volnější spojení (Profesor zjistil, že je jeho (hladový algoritmus) nefunkční, (Zítřejší noviny) ze včerejška)

Funkční generativní popis[editovat | editovat zdroj]

  • Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
    • 1. kniha: Generativní popis jazyka a česká deklinace (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
    • navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
    • představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
  • cíl -- vymezení správných vět (langue), zachycení struktury, vztahu výrazu a významu (synonymie, homonymie)
  • popis - závislostní, stratifikační
    • 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (asymetrický dualismus)
  • nejvýše stojí jazykový význam (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (obsah), jazyk může být vágní
  • V pův. FGD zásobníkový automat (generativní složka) generoval na významové rovině projektivní stromy
    • ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (překladová složka)
    • skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
    • původní verze používala frázové stromy, později upraveno na závislostní
    • proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
  • Bez sémantické kontroly

Zákl. koncepce[editovat | editovat zdroj]

  • roviny -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah kompozice), vztahy mezi rovinami -- reprezentace
  • valence (Panevová) -- slovesa i další slovní druhy
  • význam -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
  • aktuální členění (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
    • základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
  • koreference
  • víceznačnost a vágnost -- vágnost zachovaná, víceznačnost rozlišená (?)

Roviny popisu[editovat | editovat zdroj]

  • forma, funkce -- nižší rovina je formou vyšší roviny (vztah reprezentace), základní jednotky na jedné rovině tvoří komplexní (kompozice)
  • hloubková syntax (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
    • ohodnocení uzlů: komplexní symbol -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
    • lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
    • morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
    • syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
  • povrchová syntax (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
  • morfematická (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
  • morfonologická -- řetězy morfonémů: morfy (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
  • fonologická -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou

Analýza a generování[editovat | editovat zdroj]

  • Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
    • místo analýzy až na interlingvu se používá transfer
  • Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
    • formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)

Pražský závislostní korpus (PDT)[editovat | editovat zdroj]

  • Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
    • my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
  • 4 roviny:
    • w-layer -- nezpracovaný text, včetně chyb
    • m-layer, a-layer, t-layer -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
    • a-layer a t-layer se nazývají strukturní roviny, jsou vždy stromy, mají technický kořen
  • předpřipravené rozdělení train, development, test
  • data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
  • m-layer se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
  • a-layer -- na rozdíl od FGD není kořenem sloveso, je tu technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
    • mezi m-layer a a-layer je relace 1:1 slova:uzly (až na technický kořen a-layeru), tj. 1 uzel odp. 1 slovu (rozvití elips se věší na předky)
    • zachovaný původní slovosled věty
  • t-layer -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (a), modifikační slova (však))
    • "slovosled" je jiný
    • přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
  • hrany -- vztah závislosti

Závislost[editovat | editovat zdroj]

  • Směr závislosti, princip redukce (?)
  • ektocentrická, endocentrická závislost -- skládání se změnou / bez změny slovního druhu (?)
  • syntaktická, morfologická závislost -- (dívka vysoké postavy -- syntakticky nelze vypustit přívlastek)
  • vnitřní, volná doplnění (?)
  • valenční doplnění / okolnosti (?)
  • dvojí závislost, dvojí funkce
  • PP-attachment
  • nejednoznačná doplnění adjektivem
  • nejasné závislosti

Koordinace[editovat | editovat zdroj]

Sém. vztah koordinace(přiřaďování) je "zmnožení", obsazení jedné pozice více členy. Členy označují různé entity (větné členy nebo věty, i spojení větného členu s větou), které mají stejnou sémantickou roli, jsou rovnocenné a samostatné, mají stejnou synt. platnost (do závislostí jdou jako celek, mají stejný řídící člen).

  • Vyjádření syntakticky různě, primárně: parataxe (souřadné spojení), hypotaxe (podřadné spojení: maminka s tatínkem)
  • V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
  • rozdíl souřadných a podřadných spojek -- kritérium pozice a přízvuku
    • neboť a protože se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: neboť nestojí nikdy na zač. souvětí)
  • Sémantické vztahy v kooridnaci:
    • kopulativní (CONJ -- a)
    • adverzativní (ADVS -- ale)
    • disjunktivní (DISJ -- nebo)
    • gradační: stoupá důležitost (GRAD -- nejen, ale i) -- v některých jiných lingv. tradicích se nerozlišuje
    • příčiný (REAS -- neboť), důsledkový (CSQ -- a tak)
    • oprava (spíše, lépe), zahrnutí (a to i)
    • Spec. pro PDT -- konfrontace, kontrast, matematika
  • Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
  • v PDT spojovací konstrukce, 1 spojovací uzel, který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
    • spojen s efektivním rodičem spec. hranou, členy spojovací konstrukce spojeny spec. hranou se spojovacím výrazem, společná rozvití taky
    • ef. rodič / syn (pro společná rozvití -- (štavnaté ^a^ sladké) ovoce)

Apozice[editovat | editovat zdroj]

Zmnožení (více členů téže synt. platnosti, přičemž všechny pojmenovávají 1 referent, stejný větný člen. Jsou zaměnitelné, kongruentní.

  • Různé pojetí, např. Šmilauer považuje za apozici i Pan Novák, Prezident Klaus, v PDT je to přívlastek
  • Oddělení čárkou nebo věci v závorkách: "Obč. dem. strana (ODS) ...".
  • Formálně se zachycuje stejně jako koordinace, spojovací výraz je čárka (příp. závorka)
  • Někdy je problém ji odlišit od koordinace ("Naši sousedé, Marie a Milan, ...")

Parenteze[editovat | editovat zdroj]

Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví

  • Něco v závorkách, příp. odd. čárkou: Mohl byste, prosím, přijít? (Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)
    • prosím, řekl bych -- ustálená parenteze, de facto částice, frazémy
  • Větná parenteze -- např. věta v závorce
  • Větný člen jako parenteze -- Přišel pozdě (včera).
  • v PDT i vokativ (oslovení), elipsa, citoslovce, samostatný větný člen, nezačleněná parenteze
  • Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso

Ostatní nezávislostní vztahy[editovat | editovat zdroj]

  • Tech. kořen -> ef. kořen věty (sloveso)
  • Synt. nejasné výrazy (asi, snad), odkazy k předch. textu (však)
    • rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
  • Seznamy -- názvy (mají strukturu, ale visí na spec. uzlu), cizojazyčné výrazy (všechna slova visí vedle sebe na jednom technickém uzlu)
  • Frazémy (spec. funktor široko <- daleko_(DPHR))

Valence[editovat | editovat zdroj]

Valence je zákl. synt.-sém. informace -- de facto drží záv. stromy pohromadě.

  • Def.: Schopnost lex. jednotky otevírat pozice dalším lex. jednotkám
    • spíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesná
  • Situace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytují
    • Valence má zachytit, které sémantické participanty mají být přítomny (termín sémantický participant se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha argumentů, které na sebe slovo váže.
    • Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.
    • Např. slovesa: prázdná valence (prší, sněží ...), 1 doplnění (běžet, jít ... ), 2 doplnění (vyrábět, dělat, natírat ...), 3 doplnění (dávat ...)
  • Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
  • Nelze zachytit pravidly, uchovává se ve slovníku. Takový slovník už zachycuje hodně syntaktických informací.
  • Pomáhá rozlišit nejednoznačnosti v:
    • morfologii: Ptala se jeho bratra (Gen. nebo Acc.?)
    • syntaxi: Začala ho milovat. Nechala ho spát (na čem závisí ho?)
    • významech slova: odpovídat na / za / čemu
    • sémantice větných členů: sháněl se po ... / přišel po ...
  • Důležité pro:
    • NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
    • Učení češtiny
    • lingvistický výzkum (ověření teorie)
  • Patří na t-rovinu - úzce se týká významu slov.
    • Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
  • Výzkum ve FGD -- od 60. let -- Panevová
  • Každý autosémantický slovní druh je charakterizován valencí (frame-bearing words)
    • primárně: slovesa, ale i substantiva, adjektiva, adverbia
      • např. zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho
    • Pro slovesa je nejpropracovanější, nejpřesnější teorie
    • Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)

Doplnění[editovat | editovat zdroj]

Dělení doplnění:

  • obligatorní / fakultativní -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měli sémanticky úplný a srozumitelný zápis
    • některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
  • aktanty -- odpovídá objektům, participanty / volná doplnění -- odpovídá přívlastkům, příslovečným určením apod.
  • ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa přijít, chovat se)

Aktanty a volná doplnění[editovat | editovat zdroj]

  • aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
  • volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
    • Př.: V Praze(LOC) se sejdeme na Hl. n.(LOC) u pokladen(LOC).
  • jsou obvykle rekční (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
  • volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
  • aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní

Pojetí aktantů ve FGD[editovat | editovat zdroj]

  • Máme 5 aktantů, definovaných spíše syntakticky -- ACT a PAT téměř výhradně, ostatní (EFF, ORIG, ADDR) část. sémanticky
    • kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
  • Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
    • Hodně syntaktickou valenci prosazoval už Tesnière, z něj právě FGD vychází
    • Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
  • Aktanty způsobují posouvání:
    • 1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
    • např. Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!), nebo: The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.

Možné významy aktantů ve FGD[editovat | editovat zdroj]

  • ACT může být (mimo jiné, dalo by se dále specializovat):
    • konatel
    • nositel vlastnosti nebo děje: Tráva je zelená. Petr spí.
    • kauzátor (nepersonální původce děje): Vítr otevřel okno.
    • possesor: Petr má auto. Petr prodal auto (v 2. případě možná i konatel)
    • proživatel: Otci se daří dobře. Kniha(PAT) se mi(ACT) líbí.
    • zasažený objekt: Auto se rozbilo.
    • předávaná informace: Ozvalo se: "Přijďte brzo!"(ACT)
  • Podobně PAT může být:
    • zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...): Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)
    • vlastník: <tt>Kniha patří Janovi.
    • proživatel: Něco(ACT) vadí někomu(PAT) (proti líbit se, kde lze udělat bezpodmětnou větu jako "Líbí se mi v lese.")
    • recipient: Vynadal dětem. Ozval se příteli.
    • informace: Mluvit o něčem
  • EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
    • Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).
    • je ale méně vyhraněný než ADDR a ORIG
      • např. 2 pozice u verb dicendi: Vyprávěl o nich(PAT), že ...(EFF).
  • ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
    • ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (Informovat někoho(ADDR) o něčem(PAT).)
    • ORIG -- látka původu, původce předmětu/informace při výměně: Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)
  • ADDR a ORIG se špatně kombinují

Valenční informace ve slovníku[editovat | editovat zdroj]

  • Jedno slovo může mít několik významů -- několik různých valenčních rámců
    • např. dávat-1 "rozdávat karty" -- ACT, dávat-2 "běžné" -- ACT PAT ADDR

Základní pojmy:

  • lexém -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
    • základní jednotka ve slovníku, sdružuje všechny lex. jednotky
    • pozor, někdy se lexému taky říká lex. jednotka
  • (základní) lexikální jednotka (lexical unit, lexie)
    • komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
    • forma: různé tvary (osoba, pád, etc.), zachycuje se lemmatem
    • funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
    • vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
  • lemma (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova (daný územ)
    • formy -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- paradigma
  • varianty -- různá lemmata, která se kryjí jako lex. jednotka (např. myslet / myslit, někt. tvary mohou být shodné)
  • homografa/homonyma -- stejná forma, různé významy
    • např. žít (obilí / život), stát (na nohou / peníze / sníh se střechy)
    • potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
    • jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
    • je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak

Poznámky:

  • valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
  • různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
    • různé participanty mohou být vůbec vyjádřeny
  • idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu

Valence substantiv a adjektiv[editovat | editovat zdroj]

Primární substantiva[editovat | editovat zdroj]

Rozlišují se následující doplnění, na povrchu všechna vypustitelná:

  • Partitiv/materiál (aktant) -- Gen.
    • řídící člen = množství/skupina (dvojice, balení, sada), kontejner (sklenice, pytlík, tisíc)
    • možná shoda s pádem číslovkového výrazu (na tisíci stránkách)
  • Přínáležitost (volné, u relačních substantiv (otec, příbuzný, nadřízený) aktant) -- Gen., poss. adj., předl. skupina
    • příbuzenský vztah, vztah části a celku (střecha domu), nositel vlastnosti (míra čeho, délka čeho, čí upřímnost), vlastnictví, přínáležení (klíč od)
  • Identita (volné) -- metajazykové výrazy, typ. Nom., Gen. (agentura Reuters, pojem času), i další (nápis Obětem války)
  • Autor (volné) -- Gen., poss. adj.
  • Přívlastek restriktivní (volné) -- shodné adj.
  • Přívlastek deskriptivní (volné) -- shodné adj.

Deverbativní substantiva[editovat | editovat zdroj]

Pro valenční chování je důležitý typ derivace, jakým vznikly:

  • syntaktická derivace -- čistě syntaktický prostředek: dělání, pokrytí
  • lexikální derivace -- vznik ze sloves (základové slovo), ale sémanticky jde skutečně o substantiva: letec, letiště
  • Nejde o vyhraněné dělení, spíše škálu, přechod -- je i spousta případů "mezi" (dar, let).
  • Někdy se dá na totéž dívat jako na syntaktickou nebo lexikální derivaci.
  • U substantiv nejsou povrchově obligatorní valenční doplnění.

Morfématické změny[editovat | editovat zdroj]

Změny morfologického vyjádření valenčního doplnění:

  • strukturní pády (Nom., Acc.) se primárně mění na Gen.: vyrábět něco -> výroba čeho
    • to ukazuje, že možnost vyjadřovat je u substantiv omezenější (Gen. se nesmí opakovat, až na Acc. -> Gen. + Gen. z vazby slovesa zbavení koho čeho)
    • existují i méně typické formy (Nom. -> Ins. / possesivní adjektivum / od + Gen., Acc -> poss. adjektivum): lékařovo léčení pacienta, pacientovo léčení lékařem
    • blokování Gen. a Ins. pro převod Nom. u někt. sloves, která už mají vazbu v tom pádě (vyhrožování, pohrdání)
  • nestrukturní pády (zejména Dat., Ins., ale i Gen., předložkové pády, infinitiv) většinou zůstávají
    • adverbia se mění typicky na adjektiva
  • Formálně se valence větš. zachovává, ale můžou přibývat další formy, které původní sloveso nevázalo, někdy se může forma i měnit
    • takové změny nejsou vždy povinné, špatně se hledají, ale existují
    • zájem o něco / na něčem, strachovat se čeho -> strach z čeho
    • dodávat komu -> dodávka komu / koho / čí

Syntaktická derivace[editovat | editovat zdroj]

Je vidět původní valence (sloveso a substantivum sdílí rámec), ale často dochází k abstrakci (nevyjádření nějakého participantu, který u původního slovesa vidět je).

  • hierarchické formy (?) -- privilegované pozice se neřídí podle aktantů, ale morfologického vyjádření, ACT už není nejdůležitější
  • exploze možností, pro jednotlivá slovesa se to liší, hodně omezení a výjimek (viz slajd!)
  • V PDT jsou deriváty zachyceny jako substantiva, ale je to spíš nedotažeností koncepce, nemělo by to tak být.
  • široce dějová jména (let, zájem) -- něco mezi syntaktickou a lexikální derivací, formálně stále syntaktická.

Lexikální derivace[editovat | editovat zdroj]

Sémanticky jde už o substantivum.

  • Existuje několik skupin (sufixy jsou často víceznačné, např. nosič = činitel / nástroj):
    • činitelská jména (-tel, -ník, -ěč/ač, -ce, -ec, -ař)
    • místo činnosti (-na, -ště)
    • nástroj (-č, -ko, -dlo)
    • výsledek děje (-ní) -- lze chápat i jako syntaktickou derivaci a děj sám
  • Dochází k redukcím na povrchové rovině:
    • aktor upozaděn, argumenty všeobecnější, volnější, nepovinné
  • V hloubkové rovině jde taky o redukci: substantivum samo vyjadřuje 1 participant děje -- toto doplnění mizí (zabudování pozice)
    • např. učitel - není ACT, dárek - není PAT apod.
  • Dochází ke ztrátě dějovosti, uvolnění vazeb, redukci konstrukcí, doplnění jsou často přetížená a zní divně
  • Doplnění mohou úplně nebo postupně mizet: jejich výplata úspor klientům, výplaty zaměstnancům, výplata
    • špatně se popisuje, není ostrá hranice mezi pevnými a volnými doplněními
  • Lexikální deriváty jsou v PDT taky značeny jako substantiva (na rozdíl od jiných lex. derivací, např. lemma od slova třetí je tři)

Primární adjektiva[editovat | editovat zdroj]

Mají stejný repertoár možných doplnění jako slovesa, navíc komparativ má než a superlativ z koho/čeho.

  • Už se zde v teorii nepočítá s posouváním, ADDR, PAT se rozlišuje sémanticky.
  • Většina adjektiv má jen 1 doplnění, jen výjimky s více (nápadný čím komu, vděčný komu za co)
  • Prototypicky se ACT nevyskytuje
  • Problém může být určit (hloubkovou) obligatornost nebo fakultativnost aktantu -- nebo má jít o dva významy?

Deverbativní adjektiva[editovat | editovat zdroj]

  • např. omezit -> omezený
  • Zachovávají rámec sloves až na 1 aktant, který je obsazený rozvíjeným substantivem
    • sloveso se mění na adjektivum, které rozvíjí jedno z původních valenčních doplnění
    • kdo omezí co [na co] -> co omezené [kým na co]
    • kdo žije [život] -> život žitý / kdo žijící
  • na povrchu jsou doplnění vypustitelná vždy

Adverbia[editovat | editovat zdroj]

Mají valenční chování, ale nikdo ho zatím nestudoval.

  • kolmo na co, vedle čeho, blízko čeho

Valenční slovníky pro ČJ[editovat | editovat zdroj]

PDT-Vallex[editovat | editovat zdroj]

  • Asociovaný s daty v PDT2.0, tvořený "zdola"
    • Každé slovo, které má valenci, má odkaz k valenčnímu rámci do valenčního slovníku
    • Na základě toho poznáme, která jeho doplnění jsou valenční argumenty (implicitně ze spojení slovníku a korpusu)
  • Jsou tu rámce pro substantiva, adjektiva (deverbativní?), slovesa
  • Spec. notace "?" -- fakultativnost, obsahuje i zachycenou morfologii
  • Občas jsou v PDT slova, která nemají zastoupení ve val. slovníku -- ale výjimky (?)
    • Nemělo by se stát, že valenční rámec slovesa není uvedený
    • Subst. a adj. ale jsou neúplná, adj. jen deverbativní, subst. jen ta, co mají zřejmý val. rámec (teorie ještě není ustálená, nešlo to konsekventně udělat)
  • Před budováním PDT v podstatě nebyl valenční slovník, anotátoři ale bez něj nemohli konzistentně značkovat -- když se začlo budovat PDT, začal se dělat i slovník
  • Pro anotaci dalších korpusů se průběžně rozšiřuje, snaha provázat s anglickým slovníkem
  • Po anotaci PDT se ještě kontrolovala konzistence

Vallex 2.5[editovat | editovat zdroj]

  • Dělal se paralelně s prací na PDT, měl být ale oproštěn od spěchu s PDT, s anotováním, jako primární zdroj ("shora") [1]
  • Slovesa z ČNK, snaha zpracovat každé zvlášť, ve všech neidiomatických významech
  • Krom toho další synt./sém. informace
  • Dnes cca stejně velké jako PDT-Vallex (cca 4250 sloves)
  • Volně dostupný
  • Proti PDT jsou spojené vidové protějšky
  • XML, anotace se psala v text. souboru se syntax-highlightem, generuje se HTML a PDF
  • PDT-Vallex = do šířky (recall), Vallex = do hloubky (precision)
    • Snaha je oba automaticky spojit

Ostatní slovníky[editovat | editovat zdroj]

  • První val. slovník -- BRIEF -- OCR na SSJČ (Brno)
    • nejsou rozlišené významy sloves, jen kombinace možných povrchových doplnění
  • Potom: Czech Syntactic Lexicon -- snaha o rozlišení významů v BRIEFu
    • označení funktory z FGD
    • není veřejný
  • Verbalex -- pokus zpracovat BRIEF s informacemi z WordNetu, taky neveřejný (Brno)
  • tištěné:
    • SSJČ, SSČ
    • Slovesa pro praxi -- formální velmi podrobný slovník cca 620 sloves (užitečný zdroj pro Vallex)
    • Slovník slovesných, substantivních a adjektivních vazeb -- více obsahu, ale už není formalizovaný

Problém použití valenčních slovníků[editovat | editovat zdroj]

Rozlišení:

  • Pro generování chceme co nejpřesnější významy, pro anotaci je s nimi naopak problém (člověk neumí přiřadit větě význam)
    • skupiny významů jsou jasně rozlišené, ale nuance v nich už zdaleka ne tak ostré
  • Běžná shoda anotátorů je cca 60-70% pro 2-3 lidi! (pro libovolný jazyk)
  • Kritéria přiřazování rámců -- synt./morfolog., jazyková intuice, překladové ekvivalenty

Alternace:

  • Jedná se o podobné významy, vyjádřené pokaždé jiným způsobem (alternující rámce)
  • Chceme zachovat (snaha teoreticky popsat, najít pravidelnost, zatím ve Vallexu není):
    • relace shodných významů (balit věci do kufru - balit kufr)
    • příbuznost slov -- často nejde shodný rámec (požádat koho o co - požadovat co na kom)

Lingvistické zdroje[editovat | editovat zdroj]

FrameNet[editovat | editovat zdroj]

  • Autor: Charles Fillmore, který vyvíjí teorii "sémantických pádů" od 60. let (Case For Case, 1968)
    • tehdy Chomsky popisoval jazyk bez sémantiky, Fillmore to chtěl změnit
    • Fillmore neuznával ani NP VP-dělení, jádrem je pro něj sloveso, je mu jedno, co je subjekt.
  • Každé doplnění má hloubkové pády, původně jich bylo 6 (Agentive, Instrumental, Dative, Factitive, Objective, Locative)
    • do určité míry odpovídají aktantům z FGD (ale jsou tam i další)
    • postupně bylo 7-8 hlavních pádů
  • Jednotlivým významům sloves přiřazoval charakteristiky pomocí pádů, došel ale k tomu, že je to hrubé
    • chtěl to obohatit kvůli nástrojům poč. lingvistiky a umělé inteligence
  • Tím vznikl FrameNet -- lexikální databáze sloves na univerzitě v Berkeley
    • podrobná sémantická charakteristika slov a jejich významů, odklon od obecných popisů
    • jsou tam substantiva, adjektiva, slovesa, předložkové skupiny (v anglické tradici mají valenci)
    • cca 10 000 lex. jednotek, 800 rámců -- hierarchicky uspořádané, příklady na 135 000 větách (z BNC)
    • každá lex. jednotka evokuje / patří do 1 sém. rámce, má možnosti valence
    • rámce mají vztahy: dědění / podrámec / využití (a další)
    • elementy v rámcích: core / non-core
    • každý rámec má uvedený seznam lex. jednotek, které ho evokují, subkorpus anotovaných vět, které mu odpovídají, jsou v nich vyznačeny jednotlivé elementy (ručně, není formalizováno)
    • při dědění jsou uspořádány i elementy -- který odpovídá kterému v odděděném rámci (někt. nemusí být realizovány, ale většina bývá), mění se přitom i core/non-core.
    • negativní i pozitivní případy patří do 1 rámce (např. Compliance obsahuje i violate), s rámci se pojí slovesa, substantiva, adjektiva, fráze
    • nejvyšší úroveň -- hodně obecné rámce (Děj, Stupňovatelné atributy ...)
    • může se stát, že 1 sloveso má dvě odvozená substantiva, která odpovídají každé jinému rámci (observe -> observation (Perception, Commenting), observance (Compliance))
    • v různých rámcích mají lex. jednotky různé valenční vlastnosti
  • Existuje i několik FrameNetů v jiných jazycích, svázaných s původním
  • FrameNet je volně dostupný

PropBank[editovat | editovat zdroj]

  • Pro angličtinu, valence sloves, založeno na PTB (složkové stromy)
  • Jde o vyšší vrstvu (v PTB je jen povrchová syntax) -- úroveň "propozic" (krok k tomu, čemu my říkáme t-rovina)
    • máme-li sloveso a jeho doplnění, chceme ho abstrahovat od povrchového vyjádření: A met B, A and B met -> meet(A,B)
  • Pro každé sloveso vytvoříme sém. role (rámec), používáme závislostní syntax (nejde o celé stromy, jen o propozice)
    • argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
      • ARG0 -- prototyp. agens
      • ARG1 -- prototyp. patiens
      • ARG2 -- typický adresát
      • ARG4/5 bývá určení místa -- v ČJ často volné, tady pevné)
    • volná doplnění se taky značkují, mají hrubší sém. dělení než PDT -- LOC, TMP, DIR ... etc.
    • rámce: význam slovesa, argumenty + co představují -- hit.01 - ARG0 = hitter, ARG1 = thing hit, ARG2 = instrument
  • i v aktivním, i v pasivním použití (tranzitivní / ergativní, neakuzativní použití -- subjekt není konatel děje, aktor) se užívá stejných čísel argumentů, posouvání neprobíhá
    • Váza se rozbila. The vase broke. -- zasažený objekt stále (proti PDT) dostane ARG1, ne ARG0!
    • The earthquake(ARG0) shook the walls(ARG1). The walls(ARG1) shook.
  • argumenty synonymních sloves jsou zachovány, i když na povrchu se chovají jinak (shodné rolesets u sloves s podobnými významy, i když u různých významů jednoho slovesa jsou různé)
    • Petr(ARG0) miluje Marii(ARG1). Petrovi(ARG0) se líbí Marie(ARG1).
  • Existuje též "valenční slovník" -- slovník propozic

VerbNet[editovat | editovat zdroj]

  • Propracovanější sém. zroj, valenční slovník [2] (propojený s PropBankem, FrameNetem)
  • Sémantické třídy sloves, ve kterých panuje syntaktická a sémantická koherence
    • např. telephone, cable, wireless, e-mail<tt> je třída <tt>instr_communication-37.4
  • Uvedeny aktanty, jejich možná povrchová vyjádření, sémantické role, omezení
  • syntaktický popis, sémantické predikáty

WordNet[editovat | editovat zdroj]

  • Sémantická síť -- snaha zachytit jazykové znalosti lidí a vztahy významových konceptů
  • Projekt začal pro AJ na univerzitě v Princetonu v 80. letech, 1. verze '93, online i ke stažení
  • Zákl. jednotka -- synset = množina (přibližných -- hodně široce pojato) synonym (mají společný jeden z významů) -- odpovídá lex. jednotkám v českém významu (sémém (?))
    • mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
      • zákl. relace u substantiv: hyponymie, hyperonymie, holonymie (celek), meronymie (část), sister term
      • u sloves: hyperonymie, troponymie (míra děje), frázová slovesa, povrchová vyjádření (?), sister term
      • adjektiva: antonyma, synonyma, doména
      • adverbia: antonyma, pertainyma (k čemu se vztahuje)
  • Přejatá základní ontologie (nejrozšířenější (?))
  • Snaha, aby byl systém totožný s lidským
    • např. kanárek zpívá = 1 úroveň daleko, kanárek létá = 2 úrovně, kanárek má kůži = hodně úrovní
  • námitka: nevyrovnanost databáze (biologie má moc hlubokou hierarchii, jinde to není), není strom (občas cykly)
  • neobsahuje výslovnost, etymologii, gramatické informace

EuroWordNet[editovat | editovat zdroj]

  • Wordnety pro mnoho jiných jazyků (desítky), podle stejné základní struktury
    • idea dobrá pro překlad, ale v praxi moc hezky nefunguje -- lexikalizované jsou jiné druhy věcí (viz go = jet, jít), proto ani významy synsetů si přesně neodpovídají
  • Existuje ale interlingual index -- provázání synsetů v různých jazycích (přes Princetonský WordNet)
  • Navíc vznikla top-ontology -- základní, horní část hierarchie -- nejobecnější koncepty (63 položek) -- shodná pro všechny jazyky
    • ještě domain-ontology -- pro různá spec. odvětví
    • i 1059 base concepts (zákl. významy), které mají být na sebe navázané, ve všech jazycích to není přesně dodrženo
  • Jiné WordNety vznikly překladem a napasováním na původní, proto jsou trochu šroubované (každý jazyk má ve skutečnosti jinou ontologii)
    • základní struktura musela být kvůli jiným jazykům rozšířena

Omega[editovat | editovat zdroj]

  • Další ontologie -- jiný způsob klasifikace, hierarchie
  • Propojené s PropBankem -- pro slovesa jsou synt. informace
  • Propojené i s FrameNetem etc., část mapovaná i na WordNet

SUMO[editovat | editovat zdroj]

  • Suggested Upper-Merged Ontology -- pro automatické odvozování
  • Jsou tam k tomu logické nástroje
  • taky navázané na WordNet

Viz též[editovat | editovat zdroj]