Datové sklady a analytické metody pro podporu rozhodování

Z ωικι.matfyz.cz
Přejít na: navigace, hledání
Datové sklady a analytické metody pro podporu rozhodování
Kód předmětu: NDBI027
Přednáší: Vladimír Kyjonka

Materiály[editovat | editovat zdroj]

Otázky na skúšku[editovat | editovat zdroj]

Aktuální[editovat | editovat zdroj]

Stará verze (archiv)[editovat | editovat zdroj]

  1. Co byste se chtěli ještě dozvědět?
    Modelovanie DWH v konkrétnych modelovacích nástrojoch ako Power Designer.
  2. Co je deduplikace a jak se provádí?
    • Stanovení nejlepšího reprezentanta
    • Deduplikovaná databáze obsahují (právě) jeden záznam pro každého konkrétního jedince – representant
    • Záleží na metodě jeho tvorby
      • např. nejlepší z nejlepších (BoB - z každého zdroje vyber to nejlepší a zkombinuj to)
      • nebo technická master role z unifikace
      • nebo některý ze závazného číselníku
      • nebo nejčerstvější
      • nebo z prioritního systému
      • nebo kombinace
  3. Co je FASMI a co to znamená?
    Charakteristika OLAP:
    • Fast - rýchla odozva
    • Analytical - podpora analytického spracovania
    • Shared - zdieĺanie používateľmi, nie každý vidí všetko
    • Multidimensional - multidimenzionálny model
    • Informational - zameraný na informácie
    Fast Analysis of Shared Multidimensional Information (FASMI) is an alternative term for OLAP
  4. Co je householding, jaké jsou typy HH a k čemu je to dobré
    • Seskupení klientů, kteří mají něco společného
    • Při householdingu se hledají vztahy mezi klienty (skutečnými lidmi)
    • Typy
      • Riskově orientovaný HH
        • „Liberální“ přístup (volnější pravidla, potenciální vazby …)
        • Každý klient tvoří jádro 1 HH
        • Klient může být ve více HH
      • Marketingově orientovaný HH
        • „Konservativní“ přístup (co nejpřesnější identifikace HH, opatrnost)
        • Každý klient je právě v 1 HH
    • K čemu dobré
      • Obchod a marketing
        • Nabídka produktů pro celý household
        • Profitabilita klientů
        • Hodnota, potenciál a riziko na úrovni householdu
      • Ošetřování rizik, fraud management …
  5. Co je multidimenzionální kostka a co obsahuje?
    • Věcně orientovaná representace dat
    Cube.JPG
    • Obsahuje
      • Metriky
      • Dimenze
  6. Co je ODS a k čemu slouží?
    • Operativní integrované úložiště podnikových dat, často orientace na subjekt (např. zákaznická ODS)
    • Obsahuje pouze aktuální data
    • Slouží pro:
      • ukládání master dat (referenčních, klíčových etc.)
      • operativní analysy a reporting
  7. Co je OLAP, k čemu je to dobré a čím se vyznačuje?
    • On-line Analytical Processing
    • K čemu dobré:
      • Uživatel má možnost formulovat hypotézy
      • Systém poskytuje nástroje pro jejich ověření
    • Čím se vyznačuje
      • Základem je zobrazování multidimenzionální matice (kostky)
      • Technické riešenia OLAP
        • ROLAP, MOLAP, HOLAP, DOLAP (viď otázka č. 22)
  8. Co je overfitting (přeučení)? Čím je způsobeno a jak mu zabránit?
    • Přeučení modelu u data mining-u
    • Naučený model je příliš svázán s trénovacími daty
    • Přesnost modelu je vysoká na trénovacích datech, ale nízká na nových datech
    • Jak mu zabránit
      • Rozdělení trénovacích dat (učení – test)
      • Rozhodovací stromy – prořezávání, menší hloubka stromu
        • Některé algoritmy ukončí včas generování stromu (prepruning)
        • Většina nejdříve vygeneruje strom a pak ho ořeže (postpruning)
        • Prořezávání zvyšuje chybu na učící množině, ale doufáme, že na reálných datech chybu zmenší
  9. Co je parsing, k čemu je dobý a jak se provádí
    • parsing je rozpoznávanie obsahu datových položiek
    • používa sa pri automatickom čistení dát pre rozoznanie dát, ktoré treba opraviť
    • spôsob realizácie:
      • definícia vzoru hľadaných dát: <pattern definition='{FIRST_NAME} {LAST_NAME} MLADSI' name='F L mladsi' />
      • vyhľadanie tokenov
  10. Co je ROLAP, k čemu je to dobré a čím se vyznačuje?
    • ROLAP : OLAP s využitím relační databáze: Data jsou uložena v RDBMS, zobrazována jsou multidimensionálně
      • Výhody: flexibilita, skalabilita
      • Nevýhody: nároky na výkon DB, nároky na správu
  11. Co je to data-mining (DM)?
    • Je to proces extrahovania skrytých vzorov z dát. So zvyšujúcim sa obsahom dát (zdvojnásobenie raz za 3 roky) slúži ako nástroj, ktorý tieto data transformuje na informácie
  12. Co je to System of Record?
    • Slúži ako systém pre úložište a správu Master dát
    • Súčasti:
      • Databáza (buď modelovanie nového modelu, alebo použitie existujúceho riešenia)
      • Aplikácia pre správu Master dát
      • Interfaces, API, ...
  13. Co je unifikace zákaznických dat, k čemu je to dobré, jaké hlavní problémy jsou s ní spojeny?
    • Určení záznamů, představující jeden konkrétní subjekt (osoba, adresa, produkt, vozidlo …)
    • Dobré: z dát dostaneme konkrétnu, zmysluplnú informáciu a pridelíme jej nový jednoznačný identifikátor ako unifikovanému subjektu
    • Problémy: napr. s parsovaním - v stĺpci pre meno nájdeme "Pán" alebo "Meno Priezvisko", alebo môžu byť problémy so správnosťou unifikácie - záznam sa neunifikuje, aj keď unifikovaný mal byť
  14. Co jsou datamarty, k čemu slouží a proč vznikají?
    • Sú to systémy, ktoré obsahujú požadovanú podmnožinu dát určitého DWH, ale sú rýchlejšie, flexibilnejšie (čo do zmeny údajov). Môžu byť nezávislé (data DWH sa duplikujú na Data marte), alebo závislé (neduplikjú data, používajú data z DWH)
    • Slúžia pre subjekty, ktoré nemajú záujem o celý DWH a požadujú rýchlejší flexibilnejší systém, do ktorého môže naraz pristupovať viac užívateľov
  15. Co jsou operace drill-down a drill-up (uveďte příklad)
    • Navigace v hierarchii dimensí - směrem k většímu detailu (drill-down) a k menšímu detailu (drill-up)
    • Příklad: Zobrazování hodnot prodejů za rok s rozpadem na měsice, dny (drill-down)
  16. Co jsou to kreativní indexy? Stručně popište
    • Sorrka, nič iné som nenašiel.. Je to z prezentácie 04, slajd 35.. Keď tak niečo doplňte ;)
    • Příklady kreativních indexů:
      • největší zakázky
      • nejméně aktivní účty
      • nejpozdější dodávky
  17. Co znamená v DW partitioning a k čemu je to dobré? Stručně popište
    • Rozdělení dat na oddělené fysické jednotky
    • K čemu je to dobré
      • s daty se může zacházet odděleně -> vyšší výkon
    • Data ve velkém bloku se nedají:
      • snadno restruktualizovat
      • libovolně indexovať a v případě potřeby sekvenčně prohledávat
      • jednoduše reorganizácia
      • snadno obnovovat a aktualizivat
      • jednoduše monitorovat
  18. Co znamenají zkratky TQM, EDQM?
    • Různé metodiky pro řízení DQ
    • Total Quality Management (TQM) is a business management strategy aimed at embedding awareness of quality in all organizational processes.
    • Enterprise Data Quality Management (EDQM) - Data Quality Insurance for the Enterprise
  19. Řešíte úlohu čištění adres. Na vstupu máte sloupce: psč, obec, ulice, číslo orientační a číslo popisné. Navrhněte metriky datové kvality (alespoň 10)
    • Metriky kvality atributu PSČ
      • Počet záznamů se správně vyplněným PSČ
      • Počet záznamů s nevyplněným PSČ
      • Počet záznamů s nesprávným formátem PSČ
      • Počet záznamů s PSČ, které nelze dohledat v externím zdroji
      • Počet záznamů, kde PSČ v externím zdroji neodpovídá názvu obce
      • Počet záznamů, pro něž lze dohledat PSČ podle názvu obce
      • Počet případů, kdy evidentně různé obce mají stejné PSČ
    • Metriky kvality atributu Obec
      • Počet záznamů s nevyplněným Obec
      • Počet záznamů s Obec, které nelze dohledat v externím zdroji
    • Metriky kvality atributu Číslo popisné
      • Počet záznamů s nevyplněným Číslo popisné
  20. Jak je to s mazáním dat z DW?
    • Single Snapshot - celá tabulka je smazána a naplněna znovu
    • Sequential Snapshot - každá aktualizace přidá nový snashot k předešlým datům
    • Incremental - každá aktualizace přidá pouze nové záznamy
    • Incremental with Update - každá aktualizace přidá nové záznamy a aktualizuje existující záznamy
  21. Jaké jsou rysy, v nichž se typicky liší DW a OLTP
    • Aplikační vs. Subjektová orientace
    • Detail vs. Agregace
    • Časové diskrétní hodnoty vs. Snímky za období
    • Uživatelé: Řadoví úředníci vs. Manageři
    • Přístup: Update vs. Read
    • Opakující se vs. Heuristické zpracování
    • Požadavky: OLTP - předem známy, DW - většina předem neznáma
    • Standardní životní cyklus vs. Specifický životní cyklus DW
    • Přístup k informacím v jednom okamžiku: Jednotka infromace vs. Sada informací
    • Transakční orientace vs. Orientacena analysu
    • Požadavky na výkon: pro OLTP žovotně důležitá, pro DW ne tolik
    • Přístupová práva pro update: Pro OLTP rozhodující, pro DW nezajímavé
    • High availability: pro OLTP důležitá, pro DW ne
    • Správa a používání: OLTP jako celek, DW - wubsety
    • Redundance: OLTP - nežádoucí, DW - typická
    • Struktura: OLTP - statická, DW - flexibilní
    • Zpracovávané objemy dat: malé vs. velké
    • Operace: OLTP - rutinní úlohy, DW - managerské potřeby
    • Pravděpodobnost přístupu ke konkrétním datům: OLTP - vysoká, DW - nízká až střední
  22. Jaké jsou technické typy řešení OLAP - stručně charakterisujte, schematicky znázorněte, uveďte výhody a nevýhody
    • ROLAP : OLAP s využitím relační databáze: Data jsou uložena v RDBMS, zobrazována jsou multidimensionálně
      • Výhody: flexibilita, skalabilita
      • Nevýhody: nároky na výkon DB, nároky na správu
    • MOLAP: využití MDB a MD zobrazování
      • Výhody: Rychlost (výkon)
      • Nevýhody: Malá flexibilita, nároky na prostor, omezení velikosti dat
    • HOLAP: Hybridní OLAP - kombinace MOLAP a ROLAP (agregace v MDB, detailní data v RDB)
      • Výhody: přístup k velkým datům, současně rychlé agregace
      • Nevýhody: Údržba dat na dvou místech a z toho vyplývající problémy
    • DOLAP: Dynamický OLAP: Viruální MD matice postupně budována v paměti, zdrojová data v RDBMS
      • Výhody: Neomezená flexibilita
      • Nevýhody: Nároky (omezení) na RAM, závisí na výkonosti DB, kostka se vždy znova buduje
    • DOLAP: Desktop OLAP - část MD kostky downloadována "na desktop"
      • Výhody: Autonomnost analýzy
      • Nevýhody:
  23. Jaké jsou výhody a nevýhody MOLAP?
    • Výhody: Rychlost (výkon)
    • Nevýhody: Malá flexibilita, nároky na prostor, omezení velikosti dat
  24. Jaké jsou základní fáze typického DM projektu?
    CRISP-DM (11_DW_Datamining_III/48)
    • Co řešit (Business understanding)
    • Kde vzít data (Data understanding)
    • Jak data připravit (Data preparation)
    • Jak data analyzovat (Data modelling)
    • Co jsme zjistili (Evaluation)
    • Jak výsledky využít (Deployment)
  25. Popište jednu vybranou fázi v detailu, vyjmenujte její hlavní rizika.
  26. Jaké jsou základní logické vrstvy datového skladu - stručně popište.
    • L0 - staging area - nárazník mezi zdrojovými systémy a vlastním DW - autonomní tabulky, ne kontroly, ne referenční integrita
    • L1 - konsolidovaný datový sklad - 2.-3 NF, ref. Integrita, integrovaná, konsolidovaná data, historie, subjektově orientovaná
    • L2 - presentační vrstva - multidimensionální model, určeno pro analysu
    (viz. obr ppt02/slide 5)
  27. Jaké jsou základní technologické komponenty DW (stručně charakterisujte)
    • Datová úložiště - databáze pro ukládání dat DW, datamartů, ODS etc.
    • Integrace - extakce, transformace a load - přesuny mezi zdrojovými systémy a jednotlivými částmi a vrstvami DW
    • Visualisace: Analytické nástroje, reportovací nástroje, monitorování etc.
    • Datová kvalita
    • Modelování
    • Správa metadat
  28. Jaké jsou základní typy pomalu se měncích dimenzí a čím se liší? (ppt04/slide 64)
    Slowly Changing dimension
    • Type 1
      • Ošetření změn: Přidání nových záznamů a update existujících záznamů v případě změn
      • Historie: Žádná
    • Type 2
      • Ošetření změn: Přidání nových záznamů a verzování změn
      • Historie: Plná
    • Type 3
      • Ošetření změn: Přidání nových záznamů a uchování současné a předchozí hodnoty v případě změny
      • Historie: Částečná
  29. Jaké uplatnění nachází DM v bankách? Z business pohledu.
    • retence
    • cílený marketing
    • detekce podvodu
    • credit risk
    • money laundering
    • segmentace klientu
  30. Jaké uplatnění nachází DM v telekomunikacích? Z business pohledu.
    • segmentace klientu
    • cílený marketing
    • detekce podvodu
    • credit risk
    • analýza obchodu
  31. Jaké znáte úlohy DM? Z technického pohledu.
    • Deskripce
    • Segmentace (shlukování)
    • Klasifikace
    • Predikce
  32. Jaký formát dat je typicky vyžadován do SW pro data mining (pro algoritmy)?
    Typicky prvky n-dimenzionalneho vektoroveho priestoru na N alebo R.
  33. Jaký je rozdíl mezi minidimensí a subdimensí?
    • Minidimenze: skupina atributů je oddělena do samostatné tabulky, kde každý řádek představuje unikátní kombinaci hodnot (ppt04/slide 51)
    • Subdimenze: vypadají jako snowflake, ale mají odlišnou charakteristiku (ppt04/slide 49)
    • Minidimeze je obdoba subdimenze
    • Minidimenze má vazbu na tabulku faktů na rozdíl od subdimenze, která se váže na dimenzionální tabulku
  34. Která část kursu vás nejvíce zaujala?
     :-)
  35. Naznačte stručně, co je MDM Hub a jaké má funkce.
    MDM = Master data Management = Správa master dat
    MDM Hub: (ppt03/slide 36)
    • Forma realizace System of Record
    • Data a služby (funkce):
      • Často řešení Centrální DB (něco jako DW nebo ODS) - tvoří hub, skrz nějž jsou synchronizována master data, metadata a fyzická data
      • Mohou to být master tabulky nebo master soubory, v nichž se shromažďují a uspořádávají záznamy
      • Někdy využití existujících aplikací (CRM, ERP), pokud už obsahují potřebné definice
  36. Uveďte 3 nejpodstatnější vlastnosti řešení DWH, kterými se liší od jiných aplikací a systémů
    • Orientace na subjekt
    • Integrovanost
    • Nízká proměnlivost
    • Historizace
  37. Uveďte příklad semiaditivního ukazatele.
    Stav skladu (ks n. Kč) je ukazatel, který nelze sčítat v čase - tzv. semiaditivní
    (ppt04/slide 71)
  38. Uveďte příklady technologií ETL.
    • Informatica PowerCenter
    • IBM DataStage
    • Ab Initio
    • SAS Integration Studio
    • MS DTS
    • Oracle Warehouse Builder
  39. Uveďte příklady technologií pro OLAP.
    • Multidimensionální databáze
    • Agregace
    • Writeback
    • Drill-through
  40. Vyberte jeden DM algoritmus a popište jeho princip.
    • Rozhodovací strom
      • Kořen – všechny záznamy
      • Uzel se dělí dle podmínky na hodnoty atributů na své syny
      • Ideál – listy jsou „čisté“, tj. obsahují jen záznamy jedné třídy
      • Cesta kořen -> list odpovídá rozhodovacímu pravidlu
      • Blíže ke kořeni se štěpí podle významnějších atributů
      • Učení s učitelem
      • Výhody
        • Akceptují chybějící hodnoty
        • Akceptují spojité i diskrétní hodnoty
        • Snadná transformace na rozhodovací pravidla
        • Dá se použít jako výborný prostředek na zjištění nejdůležitějších proměnných
        • Mohou být interaktivní nebo se generovat celé na základě určitých stop kritérií
      • Nevýhody
        • Potíže s jinými regiony než obdélníkovitými
        • Mohou být příliš velké pro rozumné využití
  41. Vyberte si algoritmus (jiný než v předchozím bodě) a popište jeho výhody a nevýhody.
    • Neuronové sítě
      • Výhody
        • Velmi dobré zejména při predikci spojitých atributů
        • Možnost použít pro mnoho typů problémů
        • Dobré výsledky i ve složitých doménách
        • Schopnost přirozeně řešit nelineární vazby mezi vstupy a výstupy
      • Nevýhody
        • Nejasná interpretace modelu
        • Možnost konvergovat k lokálnímu minimu
        • Výpočetně náročnější
        • Vstupní proměnné jsou spojité
        • Nutná příprava dat – škálovatelnost
        • Není jednoznačná vazba na významnost proměnných
        • Obecně neumí pracovat s chybějícími hodnotami
  42. Vysvětlete pojmy ETL, ELT, EAI, EII.
    • ETL
      • Cíl: přemístit a přetransformovat data ze zdroje do datového skladu
      • Extract – nahrání dat ze zdroje
      • Transfer – zpracování dat
      • Load – nahrání dat do datového skladu
    • ELT
      • výběr dat ze zdroje
      • nahrání do vrstvy datového skladu
      • transformace dat v rámci databáze jejím jazykem
    • EAI
      • Podobne ako ETL ale nie dávkové spracovánie ale real-time
      • Zatím nedostačující výkon, takže pouze u jednoduchých transformací
    • EII
      • Enterprise Information Integration or EII, is a process of information integration, using data abstraction to provide a single interface (known as uniform data access) for viewing all the data within an organization, and a single set of structures and naming conventions (known as uniform information representation) to represent this data; the goal of EII is to get a large set of heterogeneous data sources to appear to a user or system as a single, homogeneous data source.