Data Mining și Avantaje
48 Questions
1 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Care este metoda folosită pentru completarea valorilor lipsa, în cazul în care eticheta clasei lipsește?

  • Completarea cu o valoare constantă (correct)
  • Binning
  • Normalizare min-max
  • Regresie liniară

Ce tehnică este utilizată pentru identificarea valorilor aberante în seturile de date?

  • Normalizare
  • Agregare
  • Discretizare
  • Clustering (correct)

În contextul transformării datelor, ce presupune procesul de netezire?

  • Securizarea datelor sensibile
  • Combinarea mai multor surse de date
  • Calcularea mediei atributului
  • Eliminarea zgomotului din date (correct)

Ce metodă este folosită pentru a înlocui valorile numerice continue cu valori discrete?

<p>Discretizare (D)</p> Signup and view all the answers

Care este scopul integrării datelor?

<p>Eliminarea datelor redundante și inconsistentaților (D)</p> Signup and view all the answers

Ce implică procesul de normalizare min-max?

<p>Cunoasterea valorilor minime și maxime ale atributului (A)</p> Signup and view all the answers

Care între metodele de completare a valorilor lipsă este considerată ineficientă atunci când multe atribute au valori lipsă?

<p>Ignorarea tuplelor (A)</p> Signup and view all the answers

Ce tehnică de netezire implică utilizarea mediei, medianei sau marginilor pentru valorile datelor sortate?

<p>Netezire prin binning (C)</p> Signup and view all the answers

Ce presupune normalizarea z-mediu?

<p>Normalizarea pe baza mediei și deviației standard (D)</p> Signup and view all the answers

Care dintre următoarele afirmatii descrie cel mai bine normalizarea nominală?

<p>Transformarea valorilor într-un interval de [0,1] (A)</p> Signup and view all the answers

Ce reprezintă entropia în contextul selecției datelor?

<p>O măsură a distribuției egale a claselor (C)</p> Signup and view all the answers

Care este principalul avantaj al metodelor de filtrare în selecția atributelor?

<p>Sunt mai rapide și mai eficiente (C)</p> Signup and view all the answers

Cum se definește câștigul informațional?

<p>Reducerea entropiei prin gruparea eşantioanelor (C)</p> Signup and view all the answers

Ce implica normalizarea ITF?

<p>Normalizarea datelor pe baza frecvenței inverse (C)</p> Signup and view all the answers

Care dintre următoarele metode utilizează un model pentru a determina calitatea unui subset de atribute?

<p>Metode wrapper (C)</p> Signup and view all the answers

Ce presupune discretizarea în procesul de selecție a datelor?

<p>Înlocuirea valorilor unui atribut cu concepte de nivel superior (A)</p> Signup and view all the answers

Care dintre următoarele măsuri descrie gradul de ușurință în interpretarea regulilor de asociere?

<p>Simplitatea (A)</p> Signup and view all the answers

Ce tehnică nu este menționată pentru îmbunătățirea eficienței algoritmului Apriori?

<p>Algoritmul Bucket (B)</p> Signup and view all the answers

În procesul FP-Growth, ce se face prima dată?

<p>Se scanează baza de date pentru a genera mulţimea de 1-itemseturi frecvente (A)</p> Signup and view all the answers

Cum sunt ordonate item-urile în mulțimea generată de FP-Growth?

<p>Descrescător după contorul fiecăruia (D)</p> Signup and view all the answers

Care este funcția nodului rădăcină în arborele de frecvențe creat de FP-Growth?

<p>Să indice începutul arborelui (C)</p> Signup and view all the answers

Ce se întâmplă cu nodurile comune în FP-tree?

<p>Nu se introduc în arbore, dar se incrementează contorul corespunzător (A)</p> Signup and view all the answers

Ce nu se face în timpul mineritului pattern-urilor frecvente?

<p>Utilizarea metodei de îmbunătățire a raportului (C)</p> Signup and view all the answers

Ce tehnică reduce volumul de date procesate în algoritmul FP-Growth?

<p>Eșantionare (C)</p> Signup and view all the answers

Ce reprezintă regula 70-30 în procesul de testare a modelului?

<p>70% din date sunt folosite pentru antrenare și 30% pentru testare. (D)</p> Signup and view all the answers

Care dintre următoarele măsurători externe indică omogenitatea unui cluster?

<p>Entropia (B)</p> Signup and view all the answers

În metoda de 10-Fold Crossvalidation, cum se utilizează datele?

<p>Datele sunt împărțite în 10 subseturi și fiecare subset este testat pe rând. (D)</p> Signup and view all the answers

Ce măsură examinesază disimilaritatea dintre clustere?

<p>Separability (A)</p> Signup and view all the answers

Care este scopul etapelor de învățare și clasificare în clasificare?

<p>Pentru a construi un clasificator și a-l aplica pe exemple noi. (C)</p> Signup and view all the answers

Ce reprezintă recall-ul într-un set de date?

<p>Raportul dintre răspunsuri corecte și totalul răspunsurilor așteptate. (D)</p> Signup and view all the answers

Ce măsură evaluează cât de compacte sunt elementele dintr-un cluster?

<p>Compactness (C)</p> Signup and view all the answers

Ce indică F-measure în procesul de clasificare?

<p>Combinația dintre precizie și recall crescute. (A)</p> Signup and view all the answers

Ce tip de reguli implică asocierile între item-uri dintr-o singură dimensiune?

<p>Reguli unidimensionale (C)</p> Signup and view all the answers

Care dintre următoarele metode de învățare se bazează pe utilizarea unor exemple de antrenament organizate sub formă de perechi intrare-ieșire?

<p>Învățare supervizată (B)</p> Signup and view all the answers

Ce caracteristică definește regulile de asociere cantitativă?

<p>Implica asocieri între item-uri sau atribute cantitative (A)</p> Signup and view all the answers

Ce descrie cel mai bine procesul de clustering în metoda de învățare nesupervizată?

<p>Crearea de grupuri de date pe baza similarităților (A)</p> Signup and view all the answers

Care este diferența principală între învățarea on-line și învățarea off-line?

<p>Învățarea on-line actualizează modelele continuu (B)</p> Signup and view all the answers

Ce tip de regulă permite o analiză detaliată și complexă a datelor, generând la multiple nivele de abstractizare?

<p>Reguli la diferite nivele de abstractizare (B)</p> Signup and view all the answers

Ce presupune modul de antrenare în învățarea automată?

<p>Selectarea datelor care vor fi utilizate pentru antrenament (D)</p> Signup and view all the answers

Ce tip de regulă se bazează pe asocierea între prezența sau absența item-urilor?

<p>Reguli de asociere booleană (A)</p> Signup and view all the answers

Ce tip de abordare utilizează metodele aglomerative pentru a forma clustere?

<p>Abordare ascendentă (A)</p> Signup and view all the answers

Care dintre următoarele descrieri este corectă pentru metoda 'Average Link'?

<p>Se utilizează distanța medie dintre toate perechile de elemente (C)</p> Signup and view all the answers

Ce se întâmplă în metoda de clustering bazată pe densitate?

<p>Se identifică zonele de densitate ridicată pentru a forma clustere (C)</p> Signup and view all the answers

Care este obiectivul principal al metodei partitionale în clustering?

<p>Selectarea unui centroid pentru fiecare cluster (A)</p> Signup and view all the answers

În ce constă metoda 'Single Link' în formarea clusterelor?

<p>Se determină distanța minimă între cele mai similare elemente din clustere (D)</p> Signup and view all the answers

Ce se întâmplă când similaritatea dintre două clustere este sub un prag prestabilit?

<p>Ele se unesc într-un nou cluster (C)</p> Signup and view all the answers

Cum se actualizează matricea de similaritate după unirea a două clustere?

<p>Se elimină rândurile și coloanele corespunzătoare clusterele unite (A)</p> Signup and view all the answers

Care este un aspect specific al metodelor bazate pe grid în clustering?

<p>Împart spațiul într-o rețea de unități uniforme (B)</p> Signup and view all the answers

Flashcards

Completarea valorilor lipsă prin ignorarea tuplelor

Metoda de completare a valorilor lipsă din date prin ignorarea tuplelor cu valori lipsă. Nu este eficientă dacă multe atribute au valori lipsă.

Completarea valorilor lipsă cu o valoare constantă

Metoda de completare a valorilor lipsă prin atribuirea unei valori constante. Poate duce la interpretări greșite.

Completarea valorilor lipsă cu media atributului

Metoda de completare a valorilor lipsă prin calcularea mediei valorilor existente ale atributului.

Completarea valorilor lipsă cu media pentru aceeași clasă

Metoda de completare a valorilor lipsă prin calcularea media valorilor atributului pentru aceeași clasă.

Signup and view all the flashcards

Completarea valorilor lipsă cu cea mai probabilă valoare

Metoda de completare a valorilor lipsă prin atribuirea celei mai probabile valori.

Signup and view all the flashcards

Binning (netezește zgomotul)

Tehnica de netezire a zgomotului din date prin gruparea datelor sortate în intervale și calcularea mediei, medianei sau marginilor intervalului.

Signup and view all the flashcards

Regresie liniară

Tehnica de netezire a zgomotului din date prin găsirea celei mai bune linii care unește două atribute.

Signup and view all the flashcards

Integrarea datelor

Procesul de combinare a datelor din mai multe surse pentru a crea un depozit de date unificat.

Signup and view all the flashcards

Normalizarea z-mediu

Atributul A este normalizat în baza unei medii și a unei deviații standard.

Signup and view all the flashcards

Normalizare nominală

Valoarea unui atribut A este trecută în intervalul [0,1] în funcție de valorile acelui atribut din toate înregistrările.

Signup and view all the flashcards

Căștigul informațional

Reducerea entropiei unui atribut prin gruparea valorilor sale în noduri.

Signup and view all the flashcards

Entropia

Măsură a omogenităţii setului de date. Entropia este maximă când datele sunt distribuite uniform în clase.

Signup and view all the flashcards

Metode de filtrare

Metode care utilizează o altă metodă pentru a calcula un scor pentru fiecare atribut. Este mai rapid decât metodele de tip wrapper.

Signup and view all the flashcards

Metode wrapper

Metode wrapper

Signup and view all the flashcards

Metode Embedded

Algoritmi de învățare care pe parcursul învățării reduc din numărul de exemple.

Signup and view all the flashcards

Entropy Based Discretization

Discretizarea bazată pe entropie

Signup and view all the flashcards

Reguli unidimensionale

Regulile extrag asocieri între item-uri dintr-o singură dimensiune a datelor.

Signup and view all the flashcards

Reguli multidimensionale

Regulile extrag asocieri între item-uri din mai multe dimensiuni ale datelor.

Signup and view all the flashcards

Extragere reguli la un singur nivel de abstractizare

Regulile sunt generate la un singur nivel de detaliu.

Signup and view all the flashcards

Extragere reguli la diferite nivele de abstractizare

Regulile sunt generate la multiple nivele de detaliu, permițând analize detaliate și complexe ale datelor.

Signup and view all the flashcards

Reguli booleene

Regulile implică prezența sau absența item-urilor.

Signup and view all the flashcards

Reguli cantitative

Regulile implică asocieri între item-uri sau atribute cantitative.

Signup and view all the flashcards

Invatare supervizata

Modelul este antrenat cu exemple de antrenament care conțin atat date de intrare cât și ieșire dorită.

Signup and view all the flashcards

Invatare nesupervizata

Modelul este antrenat cu exemple de antrenament care conțin doar date de intrare.

Signup and view all the flashcards

Simplitatea (regulilor de asociere)

Măsura care indică cât de ușor de înțeles sunt regulile de asociere, indicând complexitatea lor.

Signup and view all the flashcards

Încrederea (regulilor de asociere)

Probabilitatea ca regula să fie adevărată, bazată pe numărul de tranzacții care o confirmă.

Signup and view all the flashcards

Suportul (regulilor de asociere)

Frecvența cu care regula apare în setul de date, reflectând popularitatea sa.

Signup and view all the flashcards

Hash tables (în algoritmul Apriori)

Optimizează eficiența algoritmului Apriori prin gruparea item-urilor în funcție de apariția lor în setul de date.

Signup and view all the flashcards

Reducerea Tranzacțiilor (în algoritmul Apriori)

Îmbunătățește algoritmul Apriori prin eliminarea tranzacțiilor ce nu conțin item-seturi frecvente la un anumit nivel.

Signup and view all the flashcards

FP-Growth

Implementează o strategie de 'divide-and-conquer' pentru găsirea pattern-urilor frecvente.

Signup and view all the flashcards

Arborele de Frecvențe (FP-Tree)

O structură de date arborească care stochează informații despre frecvența item-urilor și relațiile lor.

Signup and view all the flashcards

Mineritul pattern-urilor frecvente

Procesul de identificare a regulilor de asociere din date, folosind diverse metode și algoritmi.

Signup and view all the flashcards

Testare

Procesul de selectare a datelor care vor fi folosite pentru a evalua performanța modelului. Setul de testare trebuie să fie diferit de setul de antrenare.

Signup and view all the flashcards

Regula 70-30

O metodă de divizare a datelor în 70% pentru antrenare și 30% pentru testare, asigurând o evaluare precisă a performanței modelului.

Signup and view all the flashcards

10-Crossvalidation

O tehnică de validare încrucișată în care setul de date este împărțit în 10 subseturi, modelul fiind antrenat de 10 ori, de fiecare dată folosind un subset diferit pentru testare.

Signup and view all the flashcards

Acuratetea

Procentul de elemente clasificate corect într-un set de date.

Signup and view all the flashcards

Precizia

Raportul dintre răspunsurile corecte și totalul răspunsurilor propuse pentru un anumit subiect.

Signup and view all the flashcards

Recall

Raportul dintre răspunsurile corecte și numărul total de răspunsuri așteptate pentru un anumit subiect.

Signup and view all the flashcards

F-measure

Măsura care combină precizia și recall-ul folosind media armonică, oferind o evaluare mai completă a performanței modelului.

Signup and view all the flashcards

Clasificarea

Procesul de atribuire a uneia sau mai multor etichete (clase) unui exemplu dintr-o mulțime de etichete existente.

Signup and view all the flashcards

Metode ierarhice

Metodele ierarhice de grupare organizează datele într-o structură ierarhică, asemănătoare cu un arbore. Există doua tipuri: aglomerative și divizive.

Signup and view all the flashcards

Metode aglomerative

Metodele aglomerative încep cu fiecare element ca un singur cluster și le îmbină treptat până când se formează un singur cluster mare.

Signup and view all the flashcards

Metode divizive

Metodele divizive încep cu toate elementele într-un singur cluster și îl divizează treptat până când se obțin clusteruri mai mici.

Signup and view all the flashcards

Metode partitionale

Metodele partitionale găsesc o partiție optimă a datelor în k clustere, unde k este specificat în prealabil.

Signup and view all the flashcards

Metode bazate pe densitate

Metodele bazate pe densitate identifică clusterurile ca zone cu o densitate mare de puncte de date.

Signup and view all the flashcards

Metode bazate pe grid

Metodele bazate pe grid împart spațiul datelor în celule și formează clusteruri bazate pe distribuția datelor în aceste celule.

Signup and view all the flashcards

Algoritmi bazati pe modele si retele

Metode bazate pe modele sau rețele, precum algoritmul Self-Organizing Maps (SOM), creează o reprezentare a datelor într-o rețea de noduri, unde nodurile apropiate reprezintă clusteruri similare.

Signup and view all the flashcards

Metode bazate pe ordinea atributelor

Metodele bazate pe ordinea atributelor analizează relația dintre variabilele din setul de date și formează clusteruri în funcție de ordinea în care apar atributele.

Signup and view all the flashcards

Study Notes

Data Mining și Avantaje

  • Data mining este extragerea cunoștințelor din cantități mari de date.
  • Este similar cu Knowledge Discovery from Data (KDD).
  • Include pași iterativi: curățarea, integrarea, transformarea, selectarea, minarea datelor, evaluarea și prezentarea cunoștințelor.
  • Scopul principal este găsirea informațiilor valoroase din cantități mari de date.
  • Data mining furnizează cunoștințe noi din datele existente (baze de date publice, guvernamentale și companii).
  • Aceste date îmbunătățesc serviciile, producția și procesele de extragere a cunoștințelor.

Pași Data Mining

  • Preprocesarea datelor: pregătirea datelor pentru minerit, inclusiv curățarea datelor (eliminarea zgomotului și inconsistențelor), integrarea datelor (combinarea datelor din mai multe surse - crearea de depozite de date/data warehouses), și transformarea datelor (adaptarea datelor la forma necesară pentru minerit, prin sumarizare/agregație). Selectarea datelor pentru a extrage cele relevante. Procesul interacționează cu utilizatorul sau o bază de cunoștințe.
  • Analiza datelor: aplică metode pentru a extrage modele din date, incluzând asocieri, corelări, clasificare, clustering, și analiza evoluției în timp.
  • Evaluarea modelelor: identificarea modelelor cu adevărat interesante, bazată pe măsuri precum suport, încredere, acuratețe, precizie, și recall.

Data Warehouse(DW)

  • Un DW este un depozit centralizat de date integrat, structurat pentru interogare și analiză, nu pentru procesarea tranzacțiilor.
  • Stochează date din surse diferite pentru raportare și analiză.
  • Caracteristici: orientat pe subiecte, integrat, nevolatil, variabil în timp.

Preprocesarea datelor în Data Mining

  • Curățarea datelor: elimină date incomplete, zgomotoase și inconsistente (ex: date lipsă, valori aberante), prin diverse metode, inclusiv tehnici de completare sau netezire.
  • Integrarea datelor: combină date din surse multiple într-o bază unificată.
  • Transformarea datelor: convertește date în formatele necesare pentru minerit.

Normalizarea datelor

  • Normalizarea binară: transformă valorile unui atribut în 0 sau 1 în funcție de prezența sau absența atributului respectiv în înregistrări.
  • Normalizarea min-max: ajustează valorile unui atribut într-un interval specific (ex: 0-1).
  • Normalizarea z-mediu: centrrează valorile unui atribut în jurul mediei și le standardizează (divizează prin deviația standard).
  • Alte tipuri de normalizare: nominală, suma 1, logaritmică, ITF.

Selectarea datelor

  • Selectează datele relevante, esențiale pentru analiza inițială.
  • Metode wrapper și metode de filtrare.

Entropia și câștigul informațional

  • Măsuri pentru evaluarea și caracterizarea purității unui set de date.
  • Măsoară omogenitatea seturilor de date.
  • Câștigul informațional reprezintă reducerea în entropie datorată grupării datelor conform unui atribut.

Mineritul regulilor de asociere

  • Identifică dependențe/asociații între elementele datelor.
  • Reprezintă seturi de articole frecvente.
  • Se creează reguli în forma A => B, unde A și B sunt seturi de articole, conform pragului minim de suport și încredere.
  • Algoritmul Apriori identifică aceste reguli.

Evaluarea algoritmilor învățare

  • Masuri pentru evaluarea performanței algoritmilor de învățare.
  • Se determină exactitatea, precizia, recall-ul, F-measure, entropia, balance, separability, compactness.

Clustering

  • Gruparea automată a datelor în cluster-e pe baza similarităților.
  • Necesită scalabilitate, dimensionalitate, adaptabilitate, insensibilitate, și interpretabilitate.
  • Algoritmul k-Means și algoritmi ierarhici.

Clasificarea

  • Atribuirea etichetelor datelor din diverse clase.
  • Necesită date de antrenament.
  • Metode: K-Nearest Neighbor (KNN), arbori de decizie, Mașini cu Vectori de Suport (SVM), Rețele Neuronale, clasificarea prin analogie.

Centroizi

  • Reprezintă punctul central al elementelor din aceeasi clasa (centroidul).
  • Calculul centroizilor permite clasificarea datelor nou-venite.

Algoritme de clasificare

  • Algoritme care permit atribuirea datelor la diferite clase.
  • Metoda clasificatorului Rocchio utilizează centroizi pentru a defini granitele de separare dintre clase.
  • Centrele de greutate ale datelor din fiecare clasă.
  • Delimitarea granițelor clasei
  • Determinarea algoritmilor de atribuire a datelor la clase.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Rezumat Data Mining PDF

Description

Acest quiz explorează conceptele fundamentale ale data mining-ului, inclusiv definirea acestuia și pașii necesari pentru extragerea cunoștințelor din date. Vei învăța despre procesul de preprocesare a datelor, curățarea și integrarea acestora, precum și importanța datelor pentru îmbunătățirea serviciilor și proceselor. Testează-ți cunoștințele acum!

More Like This

DSAA5002 Data Mining and Knowledge Discovery Quiz
12 questions
Data Mining Overview
37 questions

Data Mining Overview

IrresistibleGorgon avatar
IrresistibleGorgon
Data Mining and Knowledge Discovery Concepts
21 questions
Use Quizgecko on...
Browser
Browser