Přednáška III - Datové typy a vizualizace
48 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Jaká je absolutní četnost kategorie 3 ve frekvenční tabulce?

  • 20
  • 130 (correct)
  • 40
  • 10

Jaký je procentní podíl kategorie 2?

  • 65.0%
  • 5.0%
  • 10.0%
  • 20.0% (correct)

Co je důsledkem srovnání absolutních čísel mezi skupinami s různým počtem pacientů?

  • Je to zavádějící vizualizace dat. (correct)
  • Vždy vede k reálným závěrům.
  • Může být zavádějící pouze v určitých případech.
  • Je to korektní přístup.

Jaký je celkový počet respondentů uvedený ve frekvenční tabulce?

<p>200 (C)</p> Signup and view all the answers

Jaké jsou relativní četnosti pro kategorii 1?

<p>5.0% (B)</p> Signup and view all the answers

Kolik pacientů bylo zařazeno do kategorie 4?

<p>20 (A)</p> Signup and view all the answers

Jaký má kategorie 3 podíl na celkovém počtu respondentů?

<p>65.0% (D)</p> Signup and view all the answers

Jaká frekvenční tabulka se používá pro kvantitativní data?

<p>Intervalová frekvenční tabulka (A)</p> Signup and view all the answers

Jaký typ dat nelze vzájemně seřadit?

<p>Nominální data (C)</p> Signup and view all the answers

Která z následujících datových kategorií se ptá na relaci větší/menší?

<p>Ordinální data (B)</p> Signup and view all the answers

Jaký typ kvalitativních dat zahrnuje pouze dvě kategorie?

<p>Binární data (A)</p> Signup and view all the answers

Která datová kategorie poskytuje větší informaci než ostatní?

<p>Kvantitativní data (B)</p> Signup and view all the answers

Co je považováno za příklad ordinálních dat?

<p>Stupeň bolesti (C)</p> Signup and view all the answers

Co se stane při agregaci kvantitativních dat do kategorií?

<p>Ztratíme část informace (D)</p> Signup and view all the answers

Jaká je charakteristika diskrétních dat?

<p>Jsou počítatelná (D)</p> Signup and view all the answers

Jaká měření představuje procento v biostatistice?

<p>Množství změn (B)</p> Signup and view all the answers

Jaký je průměr známek studenta A?

<p>1,35 (B)</p> Signup and view all the answers

Jaký je medián známek studenta B?

<p>1,00 (A)</p> Signup and view all the answers

Co reprezentuje dolní kvartil ve statistice?

<p>25% kvantil (B)</p> Signup and view all the answers

Jaký je vzorec pro určení 80% kvantilu, když n = 20?

<p>Všechny výše uvedené možností jsou správné (D)</p> Signup and view all the answers

Jaká je charakteristika mediánu v kontextu vypovídající schopnosti údajů?

<p>Vypovídá o „těžišti“ pozorovaných hodnot (A)</p> Signup and view all the answers

Jaký je vzorec pro výpočet rozsahu hodnot?

<p>rozsah = maximum - minimum (D)</p> Signup and view all the answers

Jaká je významná vlastnost kvantilů v neparametrických metodách?

<p>Na kvantilech jsou založeny neparametrické statistické metody (A)</p> Signup and view all the answers

Jaký je průměr platů v ČR v roce 2003?

<p>18 697 Kč (A)</p> Signup and view all the answers

Jaká je značka pro maximum pozorovaných hodnot?

<p>xmax (A)</p> Signup and view all the answers

Co je to medián?

<p>Hodnota, která dělí soubor na dvě stejné části (C)</p> Signup and view all the answers

Jak se vypočítá medián pro sudý počet hodnot?

<p>Je to průměr dvou prostředních hodnot. (A)</p> Signup and view all the answers

Kdy je výpočet průměru nevhodný?

<p>Při asymetrických datech. (C)</p> Signup and view all the answers

Jaká je hlavní odlišnost mezi průměrem a mediánem?

<p>Medián rozděluje data na dvě rovné poloviny, průměr ne. (C)</p> Signup and view all the answers

Jakou hodnotu má medián z následujícího souboru dat: 2, 3, 3, 5, 7?

<p>3 (C)</p> Signup and view all the answers

Co vypovídá o průměru a mediánu, pokud jsou hodnoty symetrické?

<p>Jsou stejné. (A)</p> Signup and view all the answers

Jak se postaví pozice mediánu v případě lichého počtu hodnot?

<p>Pozice mediánu je (n + 1) / 2. (C)</p> Signup and view all the answers

Jaké jsou vlastnosti kvartilového rozpětí?

<p>Pokrývá 50 % pozorovaných hodnot. (B)</p> Signup and view all the answers

Jaká je definice výběrového rozptylu?

<p>Průměrný čtverec odchylky od průměru. (D)</p> Signup and view all the answers

Jaký je vztah mezi výběrovou směrodatnou odchylkou a výběrovým rozptylem?

<p>Výběrová směrodatná odchylka je odmocnina výběrového rozptylu. (B)</p> Signup and view all the answers

Jakým způsobem může být rozptyl ovlivněn odlehlými pozorováními?

<p>Může být podstatně zvýšen. (A)</p> Signup and view all the answers

Co z následujícího představuje modus?

<p>Nejčastěji se vyskytující hodnota v datasetu. (D)</p> Signup and view all the answers

Jaký typ grafu je nejlepší pro vizualizaci nominálních dat?

<p>Sloupcový graf. (B)</p> Signup and view all the answers

Jaké informace může poskytnout frekvenční tabulka?

<p>Agregaci kategorií pro interpretaci výsledků. (A)</p> Signup and view all the answers

Jaká je výhoda směrodatné odchylky oproti rozptylu?

<p>Má stejné jednotky jako pozorovaná data. (A)</p> Signup and view all the answers

Co charakterizuje míru pravděpodobnosti?

<p>Počet nových pacientů v daném čase vztažený na celkový počet osobo-roků. (B)</p> Signup and view all the answers

Jaké informace poskytuje skóre?

<p>Je uměle vytvořená hodnota charakterizující určité měřitelné stavy. (A)</p> Signup and view all the answers

Proč může být relativní vyjádření účinnosti zavádějící?

<p>Může ukazovat na stejnou účinnost při různých absolutních hodnotách. (C)</p> Signup and view all the answers

Co charakterizuje cenzorovaná data?

<p>Umožňují sledování subjektů, u nichž nedošlo k události. (B)</p> Signup and view all the answers

Jaké jsou rozdíly mezi relativní a absolutní změnou účinnosti?

<p>Relativní změna vyjadřuje procentuální růst, zatímco absolutní změna číslo pacienta. (A)</p> Signup and view all the answers

Jak lze vizuální škálu nejlépe charakterizovat?

<p>Pacienti hodnotí své obtíže na úsečce o určité délce. (A)</p> Signup and view all the answers

Jaký je význam absolutní a relativní četnosti?

<p>Obě četnosti musí být interpretovány spolu pro správné porozumění údajům. (B)</p> Signup and view all the answers

Co může být problémem při interpretaci relativní účinnosti léčiva?

<p>Nemusí být doplněna o relevantní absolutní údaje. (A)</p> Signup and view all the answers

Flashcards

Míra pravděpodobnosti (rate)

Míra výskytu určitého onemocnění, kde počet nových pacientů v daném čase (studie) je vztažen k celkovému počtu zaznamenaných osobo-roků.

Ordinální data

Data, která lze rozdělit do více kategorií, které se dají uspořádat podle pořadí. Má smysl se ptát na relaci větší/menší. Příklady: stupeň bolesti, spotřeba cigaret.

Nominální data

Data, která lze rozdělit do více kategorií, ale nelze je uspořádat podle pořadí. Nemá smysl ptát se na relaci větší/menší. Příklady: krevní skupiny, stát EU.

Skóre (score)

Uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života.

Signup and view all the flashcards

Vizuální škála (visual scale)

Pacienti hodnotí svá obtíže na škále podobné úsečce, např. o délce 10 cm. Př.: hodnocení kvality života.

Signup and view all the flashcards

Binární data

Data, která představují pouze dvě kategorie, typicky ano/ne. Příklady: diabetes (ano/ne), pohlaví (muž/žena).

Signup and view all the flashcards

Relativní frekvence

Výsledek vyjádřený jako procento. Může být zavádějící, pokud není doprovázen absolutním vyjádřením.

Signup and view all the flashcards

Kvantitativní data vs. Kvalitativní data

Informace poskytovaná kvantitativními daty je bohatší než informace poskytovaná daty kvalitativními. Například spojitá data poskytují více informací než diskrétní data.

Signup and view all the flashcards

Absolutní frekvence

Výsledek vyjádřený jako skutečná hodnota, bez transformace do procent.

Signup and view all the flashcards

Spojitá data

Typ dat, kde jsou hodnoty měřeny s použitím spojité škály. Příklady: glykémie

Signup and view all the flashcards

Diskrétní data

Typ dat, kde jsou hodnoty měřeny v diskrétních jednotkách. Příklady: počet dětí.

Signup and view all the flashcards

Cenzorovaná data

Experiment, kde se sleduje čas do výskytu definované události. Sledování nemusí být u všech subjektů dokončeno.

Signup and view all the flashcards

Cenzorovaný čas

Čas sledování subjektu, kdy sledování bylo ukončeno dříve, než u něj došlo k definované události.

Signup and view all the flashcards

Pořadí

Data, která představují pořadí, místo absolutní hodnoty. Příklady: pořadí nejlepších běžců.

Signup and view all the flashcards

Procento

Data, která se vyjadřují jako procento. Příklady: procento zlepšení v určitém parametru.

Signup and view all the flashcards

Cenzorovaný subjekt

Subjekt, u kterého sledování bylo ukončeno dříve, než došlo k definované události.

Signup and view all the flashcards

Medián

Hodnota, která rozděluje data na dvě stejné části. 50% dat je menších nebo rovných mediánu, 50% dat je větších nebo rovných mediánu.

Signup and view all the flashcards

Kvantil

Číslo na reálné ose, které rozděluje data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot.

Signup and view all the flashcards

Dolní kvartil

Vyskytuje se u 25% dat.

Signup and view all the flashcards

Horní kvartil

Vyskytuje se u 75% dat.

Signup and view all the flashcards

Rozsah hodnot

Rozdíl mezi nejvyšší a nejnižší hodnotou v datech.

Signup and view all the flashcards

Význam kvantilů

Kvantily rozdělují data na části. Například medián je 50% kvantil.

Signup and view all the flashcards

Výběrový rozptyl

Průměrný čtverec odchylky od průměru v daném vzorku.

Signup and view all the flashcards

Výběrová směrodatná odchylka

Odmocnina z rozptylu, vyjadřuje rozsah variability dat.

Signup and view all the flashcards

Kvantilové rozpětí

Rozpětí mezi p% kvantilem a (100-p)% kvantilem, méně ovlivněno odlehlými hodnotami.

Signup and view all the flashcards

Kvartilové rozpětí

Speciální případ kvantilového rozpětí, pokrývá 50% dat.

Signup and view all the flashcards

Modus

Nejčetnější hodnota v datové sadě

Signup and view all the flashcards

Sloucový / Koláčový graf

Vizualizace dat pomocí sloupců nebo koláčů. Ukazuje absolutní i relativní četnost.

Signup and view all the flashcards

Frekvenční tabulka

Tabulka s procentuálním zastoupením kategorií.

Signup and view all the flashcards

Agregace kategorií

Zjednodušování kategorií pro snazší interpretaci a validitu.

Signup and view all the flashcards

Minimum

Nejmenší pozorovaná hodnota v datové sadě.

Signup and view all the flashcards

Maximum

Největší pozorovaná hodnota v datové sadě.

Signup and view all the flashcards

Průměr

Průměrná hodnota všech pozorování v datové sadě. Vypočítá se jako součet pozorování dělený počtem pozorování.

Signup and view all the flashcards

Průměr

Používáme jej pro popis „těžiště“ datové sady, pokud je sada symetrická.

Signup and view all the flashcards

Průměr v asymetrické sadě

Průměr není vhodný pro popis „těžiště“ asymetrické datové sady.

Signup and view all the flashcards

Medián jako odolnější míra

Medián se používá i v případě, že jsou data zašuměná, protože není ovlivněn extrémními hodnotami.

Signup and view all the flashcards

Sloupcový graf

Graf, který vizuálně zobrazuje četnost výskytu kategorií proměnné pomocí sloupců. Výška sloupce odpovídá četnosti dané kategorie.

Signup and view all the flashcards

Koláčový graf

Graf, který vizuálně zobrazuje rozdělení celku na jednotlivé části pomocí kruhu. Větší část kruhu odpovídá větší části celku.

Signup and view all the flashcards

Zavádějící vizualizace

Chybný způsob srovnání dat, kdy se srovnávají absolutní počty, i když skupiny se odlišují počtem jedinců. Neumožňuje vzájemné srovnání.

Signup and view all the flashcards

Frekvenční tabulka pro kvantitativní data

Tabulka, která ukazuje, jak často se hodnoty vyskytují v daném intervalu. Uvedená data jsou kvantitativní.

Signup and view all the flashcards

Vizualizace dat

Vizuální zobrazení dat, které pomáhá analyzovat trendy, vztahy a změny v datech. Důležité je, aby vizualizace byla jasná, srozumitelná a srozumitelná.

Signup and view all the flashcards

Frekvenční tabulka pro kvantitativní data

Frekvenční tabulka pro kvantitativní data, kde: i je číslo intervalu, ni je počet hodnot v daném intervalu, n je celkový počet hodnot, d je šířka intervalu.

Signup and view all the flashcards

Vizuální zobrazení kvantitativních dat

Vizuální zobrazení dat, které prezentují hodnoty kvantitativních dat. Umožňují srovnání a analýzu dat.

Signup and view all the flashcards

Study Notes

Přednáška III - Data, jejich popis a vizualizace

  • Přednáška se zaměřuje na náhodné výběry, cílové a výběrové populace, typy dat, vizualizaci dat a popisné statistiky.
  • Existují náhodné výběry, cílové a výběrové populace.
  • Typy dat zahrnují kvalitativní a kvantitativní data, která jsou dále rozdělena.

Typy dat

  • Kvalitativní proměnné (kategoriální) – data, která lze zařadit do kategorií, ale nelze je kvantifikovat (např. pohlaví, barva vlasů).
  • Kvantitativní proměnné (numerické) – data, která lze přiřadit číselnou hodnotu (např. výška, váha).
    • Spojité proměnné – mohou nabývat jakýchkoli hodnot v daném rozmezí (např. výška, váha, vzdálenost, teplota).
    • Diskrétní proměnné – mohou nabývat pouze spočteného množství hodnot (např. počet krevních buněk, počet hospitalizací).

Jak vznikají data?

  • Data vznikají zaznamenáním skutečností, které chceme studovat.
  • Kvalita dat je ovlivněna smysluplností a mírou dokonalosti (variabilita = informace + chyba).

Klíčové principy – reprezentativnost

  • Cílová populace – skupina subjektů, o které se chceme dozvědět nějakou informaci.
  • Experimentální vzorek – podskupina cílové populace, kterou máme k dispozici.
  • Vzorek musí odpovídat svými charakteristikami cílové populaci, abychom mohli zobecnit výsledky na celou cílovou populaci.

Další typy dat – odvozená data

  • Pořadí – místo absolutní hodnoty je pouze pořadí (např. hodnocení bolesti).
  • Procento – procentuální zlepšení v určitém parametru (např. ejekční frakce levé srdeční komory).
  • Podíl – podíl dvou měřených veličin (např. BMI).
  • Míra pravděpodobnosti – výskyt události v daném čase (např. výskyt nádorového onemocnění).
  • Skóre – hodnoty charakterizující určitý stav (např. indexy kvality života).
  • Vizuální škála – pacient hodnotí své obtíže na škále (např. hodnocení kvality života).

Další typy dat – cenzorovaná data

  • Cenzorovaná data – sledujeme čas do výskytu události, ale událost nenastane u všech subjektů v průběhu sledování.
  • Událost je cenzorována, pokud nenastane v průběhu sledování.

Vizualizace a popis různých typů dat

  • Data je vhodné vizualizovat a popsat pro lepší porozumění a extrahování zajímavých faktů.

Reálná data

  • Reálná data obvykle zahrnují informace o osobách, jejich charakteristikách a měřených hodnotách.
  • Reálné datové sady mají obvykle různé varianty položek a mohou být nestrukturované, s chybami nebo neúplné.

Proč je popis a vizualizace dat třeba?

  • Data se zpřehledňují ve vhodných grafech.
  • Identifikují se odlehlé, nelogické hodnoty.
  • Popíší se naměřené hodnoty.
  • Vypočítají se sumární statistiky.

Jaké jsou výstupy popisné analýzy?

  • Shrnují pozorované data.
  • Vztahují se na pozorovaná data (nebo experimentální vzorek).
  • Mohou sloužit jako podklad pro stanovení hypotéz.

Co chceme u dat popsat?

  • Kvalitativní data – četnosti jednotlivých kategorií.
  • Kvantitativní data – těžiště a rozsah pozorovaných hodnot.

Popis „těžiště“ – míry polohy

  • Minimum a maximum – nejmenší a největší pozorovaná hodnota.
  • Průměr – průměrná hodnota pozorovaných hodnot.
  • Medián – hodnota uprostřed seřazený hodnot.

Výpočet mediánu

  • Výpočet mediánu z dat.

Průměr vs. medián

  • Symetrická data, průměr se shoduje s mediánem
  • Nesymetrická data, odchylka průměru od mediánu může být výrazná, je nevhodné používat průměr

Pojem kvantil

  • Kvantil – číslo na reálné ose, které rozděluje pozorovaná data na části.
  • Existuje 0%-99% kvantil
  • Používají se např. 25%, 50% a 75% kvantily.

Kvantil - příklad

  • Určení 80% kvantilu ze souboru hodnot.

Významné kvantily

  • Minimum, dolní kvartil, medián, horní kvartil, maximum.

Popis "rozsahu" – míry variability

  • Rozsah / rozpětí hodnot – rozdíl mezi maximální a minimální hodnotou.
  • Kvantilové rozpětí – rozdíl mezi horním a dolním kvantilem.
  • Rozptyl – průměr čtverců odchylek od průměru.
  • Směrodatná odchylka – odmocnina z rozptylu.

Vizualizace a popis kvalitativních dat

  • K vizualizaci kvalitativních dat slouží sloupcové a koláčové grafy, frekvenční tabulky.

Vizualizace a popis nominálních dat

  • K vizualizaci nominálních dat: sloupcové a koláčové grafy.

Vizualizace a popis ordinálních dat

  • K vizualizaci ordinálních dat: sloupcové grafy, koláčové grafy.

Příklady zavádějících vizualizací dat

  • Vizualizace, která nezohledňuje rozdíly v počtu respondentů v jednotlivých skupinách.
  • Vizualizace jsou nesprávně zvoleny.

Vizualizace a popis kvantitativních dat

  • Histogram
  • Krabicový graf (box plot)

Frekvenční tabulka pro kvantitativní data

  • Frekvenční tabulka pro kvantitativní data.

Histogram

  • Histogram je grafické znázornění kvantitativních dat.
  • Důležité je stejná šířka intervalů pro srovnatelnost.

Sumarizace kvantitativních dat histogramem

  • Vytvoření intervalů na ose x.
  • Výpočet absolutních/relativních četností.
  • Vykreslení samotného histogramu.

Histogram jako odhad

  • Histogram je grafické znázornění dat vhodný pro kvantitativní data.
  • Plocha histogramu odpovídá pravděpodobnosti.

Který histogram je korektní a proč?

  • Korektní histogram vykazuje správné znázornění dat – zohledňuje věkové kategorie

Histogram

  • Histogram je odhad hustoty pravděpodobnosti.

Počet intervalů určuje kvalitu výstupu

  • Počet intervalů v histogramu ovlivňuje vykreslení a interpretaci dat.

Krabicový graf – box plot

  • Krabicový graf – znázorňuje 25%, 50% a 75% kvantily.

Co je extrémní (odlehlá) hodnota?

  • Extrémní hodnota je hodnota, která je netypická pro data v souboru, mimo pravděpodobnostní chování souboru dat.
  • Je identifikovaná pomocí 3, 5, 7 směrodatných odchylek.

Vliv odlehlé hodnoty na popisné statistiky

  • Odlehlé hodnoty silně ovlivňují průměr, směrodatnou odchylku.

Identifikace odlehlých hodnot

  • U menších souborů stačí vizualizace
  • U větších souborů je potřeba histogram a boxploty, případně srovnání mediánu a průměru.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Tato přednáška se zaměřuje na klíčové aspekty dat, včetně jejich popisu, typů a vizualizace. Prozkoumáme náhodné výběry, cílové a výběrové populace a rozdíly mezi kvalitativními a kvantitativními daty. Taktéž se dotkneme významu kvality dat a způsobů jejich vzniku.

More Like This

Types of Data Representation in Geography
8 questions
Types of Graphs in Data Representation
16 questions
Data Types and Visualization Techniques
63 questions
Use Quizgecko on...
Browser
Browser