Vizualizacija podataka i Python biblioteke

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Koja je primarna svrha vizualizacije podataka?

Stvaranje složenih matematičkih modela.
Pisanje izvješća i tehničkih dokumenata.
Spremanje podataka u bazu podataka.
Predstavljanje informacija i podataka u grafičkom obliku. (correct)

Koji od navedenih Python biblioteka je temeljna biblioteka za vizualizaciju podataka?

Bokeh
Matplotlib (correct)
Plotly
Seaborn

Što su 'wrapperi' u kontekstu Matplotlib biblioteke?

Biblioteke koje omogućuju pristup Matplotlib metodama s manje koda (correct)
Funkcije za čišćenje podataka
Alati za izradu interaktivnih vizualizacija
Posebne vrste grafikona

Na čemu se temelji Bokeh biblioteka?

Na 'Gramatici grafike'. (C) Signup and view all the answers

Koja biblioteka je specijalizirana za stvaranje mapa i prikaz geografskih podataka?

Geoplotlib (B) Signup and view all the answers

Koju vrstu vizualizacije se koristi za ilustriranje razlika između dvije ili više stavki?

Usporedbenu vizualizaciju (C) Signup and view all the answers

Što prikazuje grafikon kutije (boxplot)?

Pet-brojčani sažetak i odvojene ekstremne vrijednosti. (C) Signup and view all the answers

Za što se najčešće koristi boxplot?

Za usporedbu distribucije kontinuirane značajke naspram vrijednosti kategoričke značajke. (C) Signup and view all the answers

Što označavaju komponente transakcije?

Roba, predmeti itd. (A) Signup and view all the answers

Što se koristi za pohranu podataka u grafičkom obliku?

Čvorovi grafa (A) Signup and view all the answers

Koji od navedenih pojmova opisuje princip 'Smeće unutra, smeće van' (GIGO) u kontekstu podataka?

Rezultati obrade netočnih podataka bit će netočni, bez obzira na ispravnost postupka obrade. (A) Signup and view all the answers

Što se smatra šumom u podacima kada postoji klasifikacijska pogreška?

Neusklađena opažanja ili klasifikacije (B) Signup and view all the answers

Što je svrha deskriptivne statistike u kontekstu obrade podataka?

Proučavanje i kvantificiranje karakteristika podataka i rezultata. (A) Signup and view all the answers

Što je to distribucija podataka?

Prikaz učestalosti pojavljivanja različitih vrijednosti unutar skupa podataka. (C) Signup and view all the answers

Što od navedenog ne predstavlja atributni šum?

Potpuno ispravne vrijednosti atributa (A) Signup and view all the answers

Što znači pozitivna vrijednost korelacije između dvije varijable?

Povećanje jedne varijable uzrokuje povećanje druge varijable, ili smanjenje jedne varijable uzrokuje smanjenje druge varijable. (C) Signup and view all the answers

Koja od sljedećih mogućnosti predstavlja primjer kvalitativnog atributa?

Spol osobe (C) Signup and view all the answers

Koje su dvije glavne kategorije statističkih mjera?

Mjere središnje tendencije i mjere raspršenosti. (B) Signup and view all the answers

Kako se izračunava srednja vrijednost (mean) skupa podataka?

Zbrajanjem svih vrijednosti i dijeljenjem s brojem vrijednosti. (C) Signup and view all the answers

Što je karakteristično za vrijednosti kategoričkih varijabli?

Uvijek su ograničene i nazivaju se oznakama. (B) Signup and view all the answers

Koji od navedenih koeficijenata korelacije je neparametarski?

Kendallov koeficijent korelacije tau i Spearmanov koeficijent rang korelacije. (B) Signup and view all the answers

Kada se koristi Spearmanov koeficijent rang korelacije umjesto Pearsonovog koeficijenta?

Kada je distribucija podataka iskrivljena ili ima outlier-e. (C) Signup and view all the answers

Što je nominalni atribut?

Kvalitativni podatak bez određenog redoslijeda (D) Signup and view all the answers

Što predstavlja medijan u skupu podataka?

Vrijednost koja dijeli skup podataka na dva jednaka dijela. (B) Signup and view all the answers

Koja je glavna svrha predobrade podataka?

Uklanjanje pogrešaka i priprema podataka (C) Signup and view all the answers

Što mjeri Kendallov koeficijent korelacije?

Sličnost ili različitost između dva ordinalne varijable. (C) Signup and view all the answers

Koji su koraci u procesu upravljanja podacima u strojnom učenju?

Razumijevanje problema, razumijevanje podataka, priprema podataka, modeliranje, evaluacija, implementacija. (C) Signup and view all the answers

Prema navedenom, koji su koraci potrebni za proračun medijana?

Sortiranje brojeva od najmanjeg do najvećeg, te odabiranje središnjeg broja (B) Signup and view all the answers

Kako se još naziva Gaussova distribucija u strojnom učenju?

Normalna distribucija. (D) Signup and view all the answers

Što mjere statističke mjere raspršenosti podataka?

Koliko su vrijednosti raspoređene unutar raspona podataka. (D) Signup and view all the answers

Koje svojstvo karakterizira normalnu distribuciju?

Ima oblik zvonolike krivulje i simetrična je oko srednje vrijednosti. (B) Signup and view all the answers

Koji od navedenih koeficijenata korelacije je prikladan za binarnu varijablu?

Pearsonov, Spearmanov i Kendallov koeficijent tau. (D) Signup and view all the answers

Koja od navedenih tvrdnji ne opisuje problem koji mogu uzrokovati odstupanja u podacima prilikom izgradnje prediktivnih modela?

Povećanje točnosti modela. (D) Signup and view all the answers

Koji grafički prikaz najučinkovitije prikazuje odstupanja koristeći interkvartilni raspon?

Box Plot. (C) Signup and view all the answers

Što je osnovna pretpostavka korištenja Z-score metode za detekciju odstupanja?

Normalna distribucija podataka. (A) Signup and view all the answers

Koji je glavni cilj skaliranja značajki u procesu pripreme podataka za strojno učenje?

Dovesti sve značajke na istu razinu magnitude. (B) Signup and view all the answers

Koja je srednja vrijednost i standardna devijacija normaliziranih vrijednosti nakon primjene Z-score standardizacije?

Srednja vrijednost 0, standardna devijacija 1. (C) Signup and view all the answers

Kojem intervalu se transformiraju originalni podaci prilikom min-max normalizacije?

[0, 1]. (C) Signup and view all the answers

Što znači AUC (Area Under the Curve) vrijednost od 0.6 u kontekstu klasifikacijskog modela?

Loš klasifikator. (C) Signup and view all the answers

Kako se izračunava False Positive Rate (FPR) u matrici konfuzije?

$FP / (TN + FP)$ (C) Signup and view all the answers

Kako se generiraju bazni modeli u boosting algoritmu?

Korištenjem istog skupa podataka za obuku i različitih vektora težina. (B) Signup and view all the answers

Što se događa s težinom točke tijekom iteracija u boosting algoritmu ako je točka ispravno klasificirana?

Težina se smanjuje. (D) Signup and view all the answers

Kako se izračunava `ϵ` u primjeru boosting algoritma?

Kao suma težina pogrešno klasificiranih točaka. (A) Signup and view all the answers

Što predstavlja `α` u kontekstu ažuriranja težina u boosting algoritmu?

Faktor kojim se množe težine pogrešno klasificiranih točaka. (C) Signup and view all the answers

U primjeru s deset opservacija, koja je početna težina svake opservacije?

Težina je 0.1 (B) Signup and view all the answers

Kako se izračunavaju nove težine za pogrešno klasificirane točke?

Množenjem stare težine s <code>e</code> podignutim na <code>α</code>. (B) Signup and view all the answers

Što je cilj ponovnog ponderiranja točaka tijekom iteracija boosting algoritma?

Povećati utjecaj točaka koje su teže za klasificirati. (C) Signup and view all the answers

Ako model pogrešno klasificira točke 7, 8, 9 i 10, koja je vrijednost `ϵ` ako je početna težina svake točke 0.1?

0.4 (A) Signup and view all the answers

Flashcards

Grafički prikaz podataka

Podaci u grafičkom obliku prikazuju podatke kao vrhove, a njihove veze kao rubove.

Kvaliteta podataka

Kvaliteta ulaznih podataka utječe na kvalitetu izlaza. Loši ulazi dovode do loših rezultata.

Šum u podacima (label noise)

Netočni podaci koji utječu na klasifikaciju ili prepoznavanje obrasca, npr. pogrešno procijenjeni podatak.

Šum u podacima (attribute noise)

Netočni podaci u atributu koji mogu biti pogrešni, nedostajući ili nepotpuni, npr. netočan broj, nedostajuću vrijednost ili nečitljivu informaciju.