Data Mining și Avantaje

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Care este metoda folosită pentru completarea valorilor lipsa, în cazul în care eticheta clasei lipsește?

Completarea cu o valoare constantă (correct)
Binning
Normalizare min-max
Regresie liniară

Ce tehnică este utilizată pentru identificarea valorilor aberante în seturile de date?

Normalizare
Agregare
Discretizare
Clustering (correct)

În contextul transformării datelor, ce presupune procesul de netezire?

Securizarea datelor sensibile
Combinarea mai multor surse de date
Calcularea mediei atributului
Eliminarea zgomotului din date (correct)

Ce metodă este folosită pentru a înlocui valorile numerice continue cu valori discrete?

Discretizare (D) Signup and view all the answers

Care este scopul integrării datelor?

Eliminarea datelor redundante și inconsistentaților (D) Signup and view all the answers

Ce implică procesul de normalizare min-max?

Cunoasterea valorilor minime și maxime ale atributului (A) Signup and view all the answers

Care între metodele de completare a valorilor lipsă este considerată ineficientă atunci când multe atribute au valori lipsă?

Ignorarea tuplelor (A) Signup and view all the answers

Ce tehnică de netezire implică utilizarea mediei, medianei sau marginilor pentru valorile datelor sortate?

Netezire prin binning (C) Signup and view all the answers

Ce presupune normalizarea z-mediu?

Normalizarea pe baza mediei și deviației standard (D) Signup and view all the answers

Care dintre următoarele afirmatii descrie cel mai bine normalizarea nominală?

Transformarea valorilor într-un interval de [0,1] (A) Signup and view all the answers

Ce reprezintă entropia în contextul selecției datelor?

O măsură a distribuției egale a claselor (C) Signup and view all the answers

Care este principalul avantaj al metodelor de filtrare în selecția atributelor?

Sunt mai rapide și mai eficiente (C) Signup and view all the answers

Cum se definește câștigul informațional?

Reducerea entropiei prin gruparea eşantioanelor (C) Signup and view all the answers

Ce implica normalizarea ITF?

Normalizarea datelor pe baza frecvenței inverse (C) Signup and view all the answers

Care dintre următoarele metode utilizează un model pentru a determina calitatea unui subset de atribute?

Metode wrapper (C) Signup and view all the answers

Ce presupune discretizarea în procesul de selecție a datelor?

Înlocuirea valorilor unui atribut cu concepte de nivel superior (A) Signup and view all the answers

Care dintre următoarele măsuri descrie gradul de ușurință în interpretarea regulilor de asociere?

Simplitatea (A) Signup and view all the answers

Ce tehnică nu este menționată pentru îmbunătățirea eficienței algoritmului Apriori?

Algoritmul Bucket (B) Signup and view all the answers

În procesul FP-Growth, ce se face prima dată?

Se scanează baza de date pentru a genera mulţimea de 1-itemseturi frecvente (A) Signup and view all the answers

Cum sunt ordonate item-urile în mulțimea generată de FP-Growth?

Descrescător după contorul fiecăruia (D) Signup and view all the answers

Care este funcția nodului rădăcină în arborele de frecvențe creat de FP-Growth?

Să indice începutul arborelui (C) Signup and view all the answers

Ce se întâmplă cu nodurile comune în FP-tree?

Nu se introduc în arbore, dar se incrementează contorul corespunzător (A) Signup and view all the answers

Ce nu se face în timpul mineritului pattern-urilor frecvente?

Utilizarea metodei de îmbunătățire a raportului (C) Signup and view all the answers

Ce tehnică reduce volumul de date procesate în algoritmul FP-Growth?

Eșantionare (C) Signup and view all the answers

Ce reprezintă regula 70-30 în procesul de testare a modelului?

70% din date sunt folosite pentru antrenare și 30% pentru testare. (D) Signup and view all the answers

Care dintre următoarele măsurători externe indică omogenitatea unui cluster?

Entropia (B) Signup and view all the answers

În metoda de 10-Fold Crossvalidation, cum se utilizează datele?

Datele sunt împărțite în 10 subseturi și fiecare subset este testat pe rând. (D) Signup and view all the answers

Ce măsură examinesază disimilaritatea dintre clustere?

Separability (A) Signup and view all the answers

Care este scopul etapelor de învățare și clasificare în clasificare?

Pentru a construi un clasificator și a-l aplica pe exemple noi. (C) Signup and view all the answers

Ce reprezintă recall-ul într-un set de date?

Raportul dintre răspunsuri corecte și totalul răspunsurilor așteptate. (D) Signup and view all the answers

Ce măsură evaluează cât de compacte sunt elementele dintr-un cluster?

Compactness (C) Signup and view all the answers

Ce indică F-measure în procesul de clasificare?

Combinația dintre precizie și recall crescute. (A) Signup and view all the answers

Ce tip de reguli implică asocierile între item-uri dintr-o singură dimensiune?

Reguli unidimensionale (C) Signup and view all the answers

Care dintre următoarele metode de învățare se bazează pe utilizarea unor exemple de antrenament organizate sub formă de perechi intrare-ieșire?

Învățare supervizată (B) Signup and view all the answers

Ce caracteristică definește regulile de asociere cantitativă?

Implica asocieri între item-uri sau atribute cantitative (A) Signup and view all the answers

Ce descrie cel mai bine procesul de clustering în metoda de învățare nesupervizată?

Crearea de grupuri de date pe baza similarităților (A) Signup and view all the answers

Care este diferența principală între învățarea on-line și învățarea off-line?

Învățarea on-line actualizează modelele continuu (B) Signup and view all the answers

Ce tip de regulă permite o analiză detaliată și complexă a datelor, generând la multiple nivele de abstractizare?

Reguli la diferite nivele de abstractizare (B) Signup and view all the answers

Ce presupune modul de antrenare în învățarea automată?

Selectarea datelor care vor fi utilizate pentru antrenament (D) Signup and view all the answers

Ce tip de regulă se bazează pe asocierea între prezența sau absența item-urilor?

Reguli de asociere booleană (A) Signup and view all the answers

Ce tip de abordare utilizează metodele aglomerative pentru a forma clustere?

Abordare ascendentă (A) Signup and view all the answers

Care dintre următoarele descrieri este corectă pentru metoda 'Average Link'?

Se utilizează distanța medie dintre toate perechile de elemente (C) Signup and view all the answers

Ce se întâmplă în metoda de clustering bazată pe densitate?

Se identifică zonele de densitate ridicată pentru a forma clustere (C) Signup and view all the answers

Care este obiectivul principal al metodei partitionale în clustering?

Selectarea unui centroid pentru fiecare cluster (A) Signup and view all the answers

În ce constă metoda 'Single Link' în formarea clusterelor?

Se determină distanța minimă între cele mai similare elemente din clustere (D) Signup and view all the answers

Ce se întâmplă când similaritatea dintre două clustere este sub un prag prestabilit?

Ele se unesc într-un nou cluster (C) Signup and view all the answers

Cum se actualizează matricea de similaritate după unirea a două clustere?

Se elimină rândurile și coloanele corespunzătoare clusterele unite (A) Signup and view all the answers

Care este un aspect specific al metodelor bazate pe grid în clustering?

Împart spațiul într-o rețea de unități uniforme (B) Signup and view all the answers

Flashcards

Completarea valorilor lipsă prin ignorarea tuplelor

Metoda de completare a valorilor lipsă din date prin ignorarea tuplelor cu valori lipsă. Nu este eficientă dacă multe atribute au valori lipsă.

Completarea valorilor lipsă cu o valoare constantă

Metoda de completare a valorilor lipsă prin atribuirea unei valori constante. Poate duce la interpretări greșite.

Completarea valorilor lipsă cu media atributului

Metoda de completare a valorilor lipsă prin calcularea mediei valorilor existente ale atributului.

Completarea valorilor lipsă cu media pentru aceeași clasă

Metoda de completare a valorilor lipsă prin calcularea media valorilor atributului pentru aceeași clasă.