Summary

Tento dokument obsahuje otázky a text k tématu Explainable AI, zaměřený na vysvětlitelnost modelů a interpretaci dat. Zahrnuje také informace o vizualizaci dat a konceptech jako jsou histogramy a metody post-hoc interpretace.

Full Transcript

Explainable AI- Štěpán Bahník Co je hlavním cílem Explainable AI (XAI)? Hlavním cílem Explainable AI (XAI) je zajistit, aby modely umělé inteligence byly pochopitelné a transparentní pro uživatele. To znamená, že XAI usiluje o vysvětlení, jak modely fungují, jak docházejí k rozhodnutím, a umožnit je...

Explainable AI- Štěpán Bahník Co je hlavním cílem Explainable AI (XAI)? Hlavním cílem Explainable AI (XAI) je zajistit, aby modely umělé inteligence byly pochopitelné a transparentní pro uživatele. To znamená, že XAI usiluje o vysvětlení, jak modely fungují, jak docházejí k rozhodnutím, a umožnit jejich interpretaci, čímž se zvyšuje důvěra, bezpečnost a odpovědnost při nasazování AI systémů. Který z následujících přístupů slouží ke zvýšení vysvětlitelnosti modelu? SVMs, hluboké učení, Bayesovske sítě viry, rozhodovaci stromy, náhodné lesy  Hluboké vysvětlení – upravené techniky hlubokého učení, abyste se naučili vysvětlitelné funkce  Interpretovatelné modely – techniky, jak se naučit strukturovanější, interpretovatelné, kauzální modely  Modelová indukce – techniky k odvození vysvětlitelného modelu z jakéhokoli modelu jako černé skříňky Jaké jsou charakteristiky snadno interpretovatelných modelů? Nejjednodušší způsob, jak dosáhnout interpretovatelnosti, je použít pouze podmnožinu algoritmů, které vytvářejí interpretovatelné modely. Lineární regrese, logistická regrese a rozhodovací stromy jsou běžně používané interpretovatelné modely. Tabulka porovnává snadno interpretovatelné modely podle čtyř kritérií: 1. Linearita: Zda model předpokládá lineární vztah (např. Lineární regrese = Ano, Rozhodovací stromy = Ne). 2. Monotónnost: Zda výstup roste nebo klesá konzistentně s růstem vstupu (např. Logistická regrese = Ano, kNN = Ne). 3. Interakce: Zda model zohledňuje vztahy mezi proměnnými (např. Rozhodovací stromy = Ano, Lineární regrese = Ne). Úloha: Typ úloh, pro které je model vhodný (Regrese nebo Klasifikace). Která z následujících technik je příkladem post-hoc interpretace modelů? Příkladem je:  SHAP (Shapley Additive Explanations)  LIME (Local Interpretable Model-agnostic Explanations)  Feature importance grafy  Částečné závislostní grafy (Partial Dependence Plots) Post-hoc interpretace vysvětluje složité modely až po jejich trénování. Jaký je přístup globálních zástupných modelů? vytvořte black-box model z datového souboru X zvolte interpretovatelný model (lineární model, rozhodovací strom…) trénujte interpretovatelný model (zástupný model) na datovém souboru X a predikcích black-box modelu zhodnoťte míru replikace predikcí black-box modelu zástupným modelem interpretujte zástupný model Přístup globálních zástupných modelů spočívá ve vytvoření jednoduchého, snadno interpretovatelného modelu, který napodobuje chování složitého (black-box) modelu. Postup je následující: 1. Trénování složitého modelu (black-box) na datech. 2. Výběr jednoduchého modelu (např. lineární regrese, rozhodovací strom), který je snadno vysvětlitelný. 3. Trénování zástupného modelu na predikcích složitého modelu místo na původních datech. 4. Hodnocení přesnosti, jak dobře zástupný model napodobuje predikce složitého modelu. 5. Interpretace zástupného modelu, abychom pochopili rozhodování black-box modelu. Tento přístup umožňuje vysvětlit složité modely pomocí jednodušších modelů. Vizualizace dat- Hana Flusková K čemu slouží vizualizace dat?  Nástroj na zobrazení dat s cílem efektivně komunikovat informace  Poskytuje vynikající přístup pro zkoumání dat a je nezbytná pro prezentaci výsledků  Umožňuje odhalovat rozdíly v datech, které nebyly číselně nalezeny (Anscombův kvartet)  Vizualizace dat je nejrychlejší způsob, jak udělat „nudnou“ řadu čísel zajímavou  MS Excel, R (ggplot2), Python (matplotlib), Power BI, Tableau Co je charakteristickým rysem histogramu?  Grafické znázornění distribuce dat.  Používá se k vyjádření četností v rámci daného intervalu hodnot.  Na vodorovné ose jsou obvykle zachyceny intervaly, zatímco svislá osa vyjadřuje četnost sledované veličiny v daném intervalu. o Čím vyšší je sloupec, čím vyšší je četnost v daném intervalu. Obdélníkové sloupce:  Histogram je tvořen obdélníkovými sloupci (proužky), kde každý sloupec odpovídá určité intervalové třídě dat (bin). Výška sloupce reprezentuje četnost nebo relativní četnost dat v dané třídě. Souvislé osy:  Na horizontální ose (osa x) jsou zobrazeny intervaly hodnot. Na rozdíl od sloupcového grafu, kde jednotlivé kategorie mohou být odděleny, intervaly histogramu tvoří spojité škály bez mezer (pokud mezery nejsou součástí dat). Rozdělení dat:  Histogram poskytuje pohled na rozložení dat, což umožňuje identifikovat charakteristiky, jako jsou symetrie, šikmost (asymetrie), vrcholy, mezery nebo odlehlé hodnoty. Velikost intervalů (binů):  Velikost jednotlivých intervalů může ovlivnit vzhled histogramu. Příliš velké intervaly mohou skrýt detaily rozložení, zatímco příliš malé intervaly mohou zvýraznit šum. Žádné pevné pořadí hodnot na ose y:  Osa y vyjadřuje četnosti nebo relativní četnosti, nikoliv konkrétní hodnoty dat. Použití pro numerická data: 1. Histogram je vhodný zejména pro numerická (kvantitativní) data, na rozdíl od sloupcového grafu, který se běžně používá pro kategorická data. Který z následujících grafů je vhodný pro zobrazení vývoje v čase? Spojnicový graf Jaké je základní pravidlo pro začátek svislé osy u sloupcového grafu? Aby nedocházelo ke zkreslení dat, svislá osa musí vždy začínat na nule. Co je hlavní výhodou bublinového grafu oproti bodovému grafu?  Používá se obdobně jako bodový graf, který zachycuje dvě hodnotové proměnné na obou osách.  Na rozdíl od bodového grafu nabízí možnost zobrazení třetí proměnné, a to pomocí velikosti dané bubliny o Čím větší je bublina, tím větší hodnotu takto znázorněná proměnná má. Data science v Generalli- Míša Říhová Co je cílem čištění dat? Cílem čištění dat je zlepšit kvalitu dat, aby byla vhodná pro analýzu a modelování. To zahrnuje: 1. Odstranění chyb: Oprava nebo odstranění neúplných, nesprávných nebo neplatných dat. 2. Odstranění duplikátů: Zajištění, že data nejsou opakována, což by mohlo zkreslit výsledky. 3. Vyplnění chybějících hodnot: Nahrazení nebo interpolace chybějících dat, aby analýza byla co nejúplnější. 4. Formátování a standardizace: Zajištění, že všechny hodnoty mají jednotný formát (např. datum, měny, jednotky). 5. Odstranění neaktuálních nebo irelevantních dat: Výběr pouze relevantních informací pro konkrétní analýzu nebo model. 6. Korekce chyb v zápisu: Oprava překlepů nebo jiných nesrovnalostí ve formátování. Výsledkem je dataset, který je konzistentní, spolehlivý a připravený pro další analýzu nebo strojové učení.  Opatrné, záleží na kvalitě dat, nezkreslovat data  Duplicity se obvykle mažou  Prázdné hodnoty: odstranit, nahradit mediánem, nahradit nejčastější hodnotou, predikovat - odhadovat hodnotu  Při nekonzistentnosti dat - chyby odstranit, upravit Co znamená „feature engineering“? Feature engineering (inženýrství vlastností) je proces tvorby a úpravy vstupních dat (vlastností, neboli features) pro zlepšení výkonu modelu strojového učení. Cílem je vytvořit nové, relevantní vlastnosti nebo transformovat stávající, aby modely měly lepší predikční schopnosti. Zahrnuje: 1. Výběr relevantních vlastností: Výběr těch, které mají největší vliv na výstupy modelu, a odstranění nerelevantních. 2. Vytváření nových vlastností: Kombinování nebo transformování existujících dat k vytvoření nových atributů, které mohou lépe odrážet vzory ve datech (např. vytvoření vlastnosti "věk" z data narození). 3. Skalování a normalizace: Úprava hodnot vlastností do jednotného měřítka, což zlepšuje výkon některých modelů (např. normalizace hodnot mezi 0 a 1). 4. Kódování kategoriálních dat: Převedení textových kategorií na číselné hodnoty (např. pomocí one-hot encoding). 5. Úprava nebo oprava dat: Korekce chybějících hodnot, odstranění šumu nebo duplikátů.  Z existujících dat - nové proměnné  U majetku máme počet pokojů v domě a velikost zahrady  Pro náš nový model můžeme vytvořit novou funkci: plocha zahrady na ložnice Co je hlavním účelem A/B testování v modelování?  Rozdělení uživatelů – Skupina A (současný přístup) a Skupina B (nový model) Příklad – Odporučovací systém  Skupina A = stávající doporučování  Skupina B = výsledky nového modelu  nový model zvyšuje míru konverze?  Porovnání výsledků – zvýšení prodejů nebo delší dobu na webu Hlavní cíl testování A/B je porovnat dvě varianty (A a B) a zjistit, která z nich přináší lepší výsledky nebo výkony podle konkrétní metriky (např. konverzní poměr, kliknutí, prodeje). Tento test se běžně používá v marketingu, webovém designu, a při optimalizaci produktů. Co je hlavním cílem škálování dat?  Transformace dat  zrychlují učení modelů  učení je efektivnější  lepší a rychlejší zacházení s daty  různé rysy jsou srovnatelné - např. věk a příjem  škálování zajistí, že jedno nebude mít větší vliv na model jen kvůli “vyšším” hodnotám Který scénář je typickým příkladem použití modelu pro detekci anomálií? Typické příklady použití modelu pro detekci anomálií:  Finanční podvody: Identifikace podezřelých transakcí.  Prediktivní údržba: Odhalení známek poruch zařízení.  Kybernetická bezpečnost: Detekce útoků v síťovém provozu.  Lékařská diagnostika: Nalezení abnormálních zdravotních hodnot.  Výrobní procesy: Zjištění odchylek ve výrobě nebo kvalitě. Cíl: rychlé odhalení problémů a prevence rizik. Všechno ostatní- Matouš Eibich Co znamená zkratka LLM? Technická definice – Neuronová síť s architekturou transformátoru navržená pro zpracování a pochopení jazykových vzorců. Praktická definice – Model, který provádí úkoly vyžadující porozumění jazyku, jako je psaní, shrnutí a kódování s lidskou dovedností. Co je hlavním cílem data science? JE obor, který se zabývá získaním, analýzou interpretací dat pro získaní užitečných poznatku. Hlavní cíl data science (vědy o datech) je vytváření hodnoty z dat. To znamená využít analytické a statistické metody, strojové učení a pokročilé techniky ke zpracování, analýze a interpretaci dat s cílem získat cenné informace a podpořit rozhodovací procesy. Jak byste definovali machine learning? Strojové učeni je technika, kdy se počítače učí z dat a automaticky se zlepšuji v určitém úkolu, aniž by potřebovaly přesně pokyny, co dělat Co je to prompt engineering? Inženýrství výzev je proces strukturování výzev (vstupů, otázek) do LLM. Cílem tohoto procesu je získat lepší odpovědi z LLM. (maximalizace užitku). Nejlevnější, "Jen se raději zeptej lol", Má výkonnostní uzávěr Co je Retrieval-Augmented Generation (RAG) Technika pro obohacení jazykových modelů začleněním externích dat (která nebyla v jejich trénovacích datech). Když data, se kterými potřebujete pracovat, nejsou v trénovacích datech modelu. Také relativně levné

Use Quizgecko on...
Browser
Browser