Podcast
Questions and Answers
Care este metoda folosită pentru completarea valorilor lipsa, în cazul în care eticheta clasei lipsește?
Care este metoda folosită pentru completarea valorilor lipsa, în cazul în care eticheta clasei lipsește?
- Completarea cu o valoare constantă (correct)
- Binning
- Normalizare min-max
- Regresie liniară
Ce tehnică este utilizată pentru identificarea valorilor aberante în seturile de date?
Ce tehnică este utilizată pentru identificarea valorilor aberante în seturile de date?
- Normalizare
- Agregare
- Discretizare
- Clustering (correct)
În contextul transformării datelor, ce presupune procesul de netezire?
În contextul transformării datelor, ce presupune procesul de netezire?
- Securizarea datelor sensibile
- Combinarea mai multor surse de date
- Calcularea mediei atributului
- Eliminarea zgomotului din date (correct)
Ce metodă este folosită pentru a înlocui valorile numerice continue cu valori discrete?
Ce metodă este folosită pentru a înlocui valorile numerice continue cu valori discrete?
Care este scopul integrării datelor?
Care este scopul integrării datelor?
Ce implică procesul de normalizare min-max?
Ce implică procesul de normalizare min-max?
Care între metodele de completare a valorilor lipsă este considerată ineficientă atunci când multe atribute au valori lipsă?
Care între metodele de completare a valorilor lipsă este considerată ineficientă atunci când multe atribute au valori lipsă?
Ce tehnică de netezire implică utilizarea mediei, medianei sau marginilor pentru valorile datelor sortate?
Ce tehnică de netezire implică utilizarea mediei, medianei sau marginilor pentru valorile datelor sortate?
Ce presupune normalizarea z-mediu?
Ce presupune normalizarea z-mediu?
Care dintre următoarele afirmatii descrie cel mai bine normalizarea nominală?
Care dintre următoarele afirmatii descrie cel mai bine normalizarea nominală?
Ce reprezintă entropia în contextul selecției datelor?
Ce reprezintă entropia în contextul selecției datelor?
Care este principalul avantaj al metodelor de filtrare în selecția atributelor?
Care este principalul avantaj al metodelor de filtrare în selecția atributelor?
Cum se definește câștigul informațional?
Cum se definește câștigul informațional?
Ce implica normalizarea ITF?
Ce implica normalizarea ITF?
Care dintre următoarele metode utilizează un model pentru a determina calitatea unui subset de atribute?
Care dintre următoarele metode utilizează un model pentru a determina calitatea unui subset de atribute?
Ce presupune discretizarea în procesul de selecție a datelor?
Ce presupune discretizarea în procesul de selecție a datelor?
Care dintre următoarele măsuri descrie gradul de ușurință în interpretarea regulilor de asociere?
Care dintre următoarele măsuri descrie gradul de ușurință în interpretarea regulilor de asociere?
Ce tehnică nu este menționată pentru îmbunătățirea eficienței algoritmului Apriori?
Ce tehnică nu este menționată pentru îmbunătățirea eficienței algoritmului Apriori?
În procesul FP-Growth, ce se face prima dată?
În procesul FP-Growth, ce se face prima dată?
Cum sunt ordonate item-urile în mulțimea generată de FP-Growth?
Cum sunt ordonate item-urile în mulțimea generată de FP-Growth?
Care este funcția nodului rădăcină în arborele de frecvențe creat de FP-Growth?
Care este funcția nodului rădăcină în arborele de frecvențe creat de FP-Growth?
Ce se întâmplă cu nodurile comune în FP-tree?
Ce se întâmplă cu nodurile comune în FP-tree?
Ce nu se face în timpul mineritului pattern-urilor frecvente?
Ce nu se face în timpul mineritului pattern-urilor frecvente?
Ce tehnică reduce volumul de date procesate în algoritmul FP-Growth?
Ce tehnică reduce volumul de date procesate în algoritmul FP-Growth?
Ce reprezintă regula 70-30 în procesul de testare a modelului?
Ce reprezintă regula 70-30 în procesul de testare a modelului?
Care dintre următoarele măsurători externe indică omogenitatea unui cluster?
Care dintre următoarele măsurători externe indică omogenitatea unui cluster?
În metoda de 10-Fold Crossvalidation, cum se utilizează datele?
În metoda de 10-Fold Crossvalidation, cum se utilizează datele?
Ce măsură examinesază disimilaritatea dintre clustere?
Ce măsură examinesază disimilaritatea dintre clustere?
Care este scopul etapelor de învățare și clasificare în clasificare?
Care este scopul etapelor de învățare și clasificare în clasificare?
Ce reprezintă recall-ul într-un set de date?
Ce reprezintă recall-ul într-un set de date?
Ce măsură evaluează cât de compacte sunt elementele dintr-un cluster?
Ce măsură evaluează cât de compacte sunt elementele dintr-un cluster?
Ce indică F-measure în procesul de clasificare?
Ce indică F-measure în procesul de clasificare?
Ce tip de reguli implică asocierile între item-uri dintr-o singură dimensiune?
Ce tip de reguli implică asocierile între item-uri dintr-o singură dimensiune?
Care dintre următoarele metode de învățare se bazează pe utilizarea unor exemple de antrenament organizate sub formă de perechi intrare-ieșire?
Care dintre următoarele metode de învățare se bazează pe utilizarea unor exemple de antrenament organizate sub formă de perechi intrare-ieșire?
Ce caracteristică definește regulile de asociere cantitativă?
Ce caracteristică definește regulile de asociere cantitativă?
Ce descrie cel mai bine procesul de clustering în metoda de învățare nesupervizată?
Ce descrie cel mai bine procesul de clustering în metoda de învățare nesupervizată?
Care este diferența principală între învățarea on-line și învățarea off-line?
Care este diferența principală între învățarea on-line și învățarea off-line?
Ce tip de regulă permite o analiză detaliată și complexă a datelor, generând la multiple nivele de abstractizare?
Ce tip de regulă permite o analiză detaliată și complexă a datelor, generând la multiple nivele de abstractizare?
Ce presupune modul de antrenare în învățarea automată?
Ce presupune modul de antrenare în învățarea automată?
Ce tip de regulă se bazează pe asocierea între prezența sau absența item-urilor?
Ce tip de regulă se bazează pe asocierea între prezența sau absența item-urilor?
Ce tip de abordare utilizează metodele aglomerative pentru a forma clustere?
Ce tip de abordare utilizează metodele aglomerative pentru a forma clustere?
Care dintre următoarele descrieri este corectă pentru metoda 'Average Link'?
Care dintre următoarele descrieri este corectă pentru metoda 'Average Link'?
Ce se întâmplă în metoda de clustering bazată pe densitate?
Ce se întâmplă în metoda de clustering bazată pe densitate?
Care este obiectivul principal al metodei partitionale în clustering?
Care este obiectivul principal al metodei partitionale în clustering?
În ce constă metoda 'Single Link' în formarea clusterelor?
În ce constă metoda 'Single Link' în formarea clusterelor?
Ce se întâmplă când similaritatea dintre două clustere este sub un prag prestabilit?
Ce se întâmplă când similaritatea dintre două clustere este sub un prag prestabilit?
Cum se actualizează matricea de similaritate după unirea a două clustere?
Cum se actualizează matricea de similaritate după unirea a două clustere?
Care este un aspect specific al metodelor bazate pe grid în clustering?
Care este un aspect specific al metodelor bazate pe grid în clustering?
Flashcards
Completarea valorilor lipsă prin ignorarea tuplelor
Completarea valorilor lipsă prin ignorarea tuplelor
Metoda de completare a valorilor lipsă din date prin ignorarea tuplelor cu valori lipsă. Nu este eficientă dacă multe atribute au valori lipsă.
Completarea valorilor lipsă cu o valoare constantă
Completarea valorilor lipsă cu o valoare constantă
Metoda de completare a valorilor lipsă prin atribuirea unei valori constante. Poate duce la interpretări greșite.
Completarea valorilor lipsă cu media atributului
Completarea valorilor lipsă cu media atributului
Metoda de completare a valorilor lipsă prin calcularea mediei valorilor existente ale atributului.
Completarea valorilor lipsă cu media pentru aceeași clasă
Completarea valorilor lipsă cu media pentru aceeași clasă
Metoda de completare a valorilor lipsă prin calcularea media valorilor atributului pentru aceeași clasă.
Signup and view all the flashcards
Completarea valorilor lipsă cu cea mai probabilă valoare
Completarea valorilor lipsă cu cea mai probabilă valoare
Metoda de completare a valorilor lipsă prin atribuirea celei mai probabile valori.
Signup and view all the flashcards
Binning (netezește zgomotul)
Binning (netezește zgomotul)
Tehnica de netezire a zgomotului din date prin gruparea datelor sortate în intervale și calcularea mediei, medianei sau marginilor intervalului.
Signup and view all the flashcards
Regresie liniară
Regresie liniară
Tehnica de netezire a zgomotului din date prin găsirea celei mai bune linii care unește două atribute.
Signup and view all the flashcards
Integrarea datelor
Integrarea datelor
Procesul de combinare a datelor din mai multe surse pentru a crea un depozit de date unificat.
Signup and view all the flashcards
Normalizarea z-mediu
Normalizarea z-mediu
Atributul A este normalizat în baza unei medii și a unei deviații standard.
Signup and view all the flashcards
Normalizare nominală
Normalizare nominală
Valoarea unui atribut A este trecută în intervalul [0,1] în funcție de valorile acelui atribut din toate înregistrările.
Signup and view all the flashcards
Căștigul informațional
Căștigul informațional
Reducerea entropiei unui atribut prin gruparea valorilor sale în noduri.
Signup and view all the flashcards
Entropia
Entropia
Măsură a omogenităţii setului de date. Entropia este maximă când datele sunt distribuite uniform în clase.
Signup and view all the flashcards
Metode de filtrare
Metode de filtrare
Metode care utilizează o altă metodă pentru a calcula un scor pentru fiecare atribut. Este mai rapid decât metodele de tip wrapper.
Signup and view all the flashcards
Metode wrapper
Metode wrapper
Metode wrapper
Signup and view all the flashcards
Metode Embedded
Metode Embedded
Algoritmi de învățare care pe parcursul învățării reduc din numărul de exemple.
Signup and view all the flashcards
Entropy Based Discretization
Entropy Based Discretization
Discretizarea bazată pe entropie
Signup and view all the flashcards
Reguli unidimensionale
Reguli unidimensionale
Regulile extrag asocieri între item-uri dintr-o singură dimensiune a datelor.
Signup and view all the flashcards
Reguli multidimensionale
Reguli multidimensionale
Regulile extrag asocieri între item-uri din mai multe dimensiuni ale datelor.
Signup and view all the flashcards
Extragere reguli la un singur nivel de abstractizare
Extragere reguli la un singur nivel de abstractizare
Regulile sunt generate la un singur nivel de detaliu.
Signup and view all the flashcards
Extragere reguli la diferite nivele de abstractizare
Extragere reguli la diferite nivele de abstractizare
Regulile sunt generate la multiple nivele de detaliu, permițând analize detaliate și complexe ale datelor.
Signup and view all the flashcards
Reguli booleene
Reguli booleene
Regulile implică prezența sau absența item-urilor.
Signup and view all the flashcards
Reguli cantitative
Reguli cantitative
Regulile implică asocieri între item-uri sau atribute cantitative.
Signup and view all the flashcards
Invatare supervizata
Invatare supervizata
Modelul este antrenat cu exemple de antrenament care conțin atat date de intrare cât și ieșire dorită.
Signup and view all the flashcards
Invatare nesupervizata
Invatare nesupervizata
Modelul este antrenat cu exemple de antrenament care conțin doar date de intrare.
Signup and view all the flashcards
Simplitatea (regulilor de asociere)
Simplitatea (regulilor de asociere)
Măsura care indică cât de ușor de înțeles sunt regulile de asociere, indicând complexitatea lor.
Signup and view all the flashcards
Încrederea (regulilor de asociere)
Încrederea (regulilor de asociere)
Probabilitatea ca regula să fie adevărată, bazată pe numărul de tranzacții care o confirmă.
Signup and view all the flashcards
Suportul (regulilor de asociere)
Suportul (regulilor de asociere)
Frecvența cu care regula apare în setul de date, reflectând popularitatea sa.
Signup and view all the flashcards
Hash tables (în algoritmul Apriori)
Hash tables (în algoritmul Apriori)
Optimizează eficiența algoritmului Apriori prin gruparea item-urilor în funcție de apariția lor în setul de date.
Signup and view all the flashcards
Reducerea Tranzacțiilor (în algoritmul Apriori)
Reducerea Tranzacțiilor (în algoritmul Apriori)
Îmbunătățește algoritmul Apriori prin eliminarea tranzacțiilor ce nu conțin item-seturi frecvente la un anumit nivel.
Signup and view all the flashcards
FP-Growth
FP-Growth
Implementează o strategie de 'divide-and-conquer' pentru găsirea pattern-urilor frecvente.
Signup and view all the flashcards
Arborele de Frecvențe (FP-Tree)
Arborele de Frecvențe (FP-Tree)
O structură de date arborească care stochează informații despre frecvența item-urilor și relațiile lor.
Signup and view all the flashcards
Mineritul pattern-urilor frecvente
Mineritul pattern-urilor frecvente
Procesul de identificare a regulilor de asociere din date, folosind diverse metode și algoritmi.
Signup and view all the flashcards
Testare
Testare
Procesul de selectare a datelor care vor fi folosite pentru a evalua performanța modelului. Setul de testare trebuie să fie diferit de setul de antrenare.
Signup and view all the flashcards
Regula 70-30
Regula 70-30
O metodă de divizare a datelor în 70% pentru antrenare și 30% pentru testare, asigurând o evaluare precisă a performanței modelului.
Signup and view all the flashcards
10-Crossvalidation
10-Crossvalidation
O tehnică de validare încrucișată în care setul de date este împărțit în 10 subseturi, modelul fiind antrenat de 10 ori, de fiecare dată folosind un subset diferit pentru testare.
Signup and view all the flashcards
Acuratetea
Acuratetea
Procentul de elemente clasificate corect într-un set de date.
Signup and view all the flashcards
Precizia
Precizia
Raportul dintre răspunsurile corecte și totalul răspunsurilor propuse pentru un anumit subiect.
Signup and view all the flashcards
Recall
Recall
Raportul dintre răspunsurile corecte și numărul total de răspunsuri așteptate pentru un anumit subiect.
Signup and view all the flashcards
F-measure
F-measure
Măsura care combină precizia și recall-ul folosind media armonică, oferind o evaluare mai completă a performanței modelului.
Signup and view all the flashcards
Clasificarea
Clasificarea
Procesul de atribuire a uneia sau mai multor etichete (clase) unui exemplu dintr-o mulțime de etichete existente.
Signup and view all the flashcards
Metode ierarhice
Metode ierarhice
Metodele ierarhice de grupare organizează datele într-o structură ierarhică, asemănătoare cu un arbore. Există doua tipuri: aglomerative și divizive.
Signup and view all the flashcards
Metode aglomerative
Metode aglomerative
Metodele aglomerative încep cu fiecare element ca un singur cluster și le îmbină treptat până când se formează un singur cluster mare.
Signup and view all the flashcards
Metode divizive
Metode divizive
Metodele divizive încep cu toate elementele într-un singur cluster și îl divizează treptat până când se obțin clusteruri mai mici.
Signup and view all the flashcards
Metode partitionale
Metode partitionale
Metodele partitionale găsesc o partiție optimă a datelor în k clustere, unde k este specificat în prealabil.
Signup and view all the flashcards
Metode bazate pe densitate
Metode bazate pe densitate
Metodele bazate pe densitate identifică clusterurile ca zone cu o densitate mare de puncte de date.
Signup and view all the flashcards
Metode bazate pe grid
Metode bazate pe grid
Metodele bazate pe grid împart spațiul datelor în celule și formează clusteruri bazate pe distribuția datelor în aceste celule.
Signup and view all the flashcards
Algoritmi bazati pe modele si retele
Algoritmi bazati pe modele si retele
Metode bazate pe modele sau rețele, precum algoritmul Self-Organizing Maps (SOM), creează o reprezentare a datelor într-o rețea de noduri, unde nodurile apropiate reprezintă clusteruri similare.
Signup and view all the flashcards
Metode bazate pe ordinea atributelor
Metode bazate pe ordinea atributelor
Metodele bazate pe ordinea atributelor analizează relația dintre variabilele din setul de date și formează clusteruri în funcție de ordinea în care apar atributele.
Signup and view all the flashcardsStudy Notes
Data Mining și Avantaje
- Data mining este extragerea cunoștințelor din cantități mari de date.
- Este similar cu Knowledge Discovery from Data (KDD).
- Include pași iterativi: curățarea, integrarea, transformarea, selectarea, minarea datelor, evaluarea și prezentarea cunoștințelor.
- Scopul principal este găsirea informațiilor valoroase din cantități mari de date.
- Data mining furnizează cunoștințe noi din datele existente (baze de date publice, guvernamentale și companii).
- Aceste date îmbunătățesc serviciile, producția și procesele de extragere a cunoștințelor.
Pași Data Mining
- Preprocesarea datelor: pregătirea datelor pentru minerit, inclusiv curățarea datelor (eliminarea zgomotului și inconsistențelor), integrarea datelor (combinarea datelor din mai multe surse - crearea de depozite de date/data warehouses), și transformarea datelor (adaptarea datelor la forma necesară pentru minerit, prin sumarizare/agregație). Selectarea datelor pentru a extrage cele relevante. Procesul interacționează cu utilizatorul sau o bază de cunoștințe.
- Analiza datelor: aplică metode pentru a extrage modele din date, incluzând asocieri, corelări, clasificare, clustering, și analiza evoluției în timp.
- Evaluarea modelelor: identificarea modelelor cu adevărat interesante, bazată pe măsuri precum suport, încredere, acuratețe, precizie, și recall.
Data Warehouse(DW)
- Un DW este un depozit centralizat de date integrat, structurat pentru interogare și analiză, nu pentru procesarea tranzacțiilor.
- Stochează date din surse diferite pentru raportare și analiză.
- Caracteristici: orientat pe subiecte, integrat, nevolatil, variabil în timp.
Preprocesarea datelor în Data Mining
- Curățarea datelor: elimină date incomplete, zgomotoase și inconsistente (ex: date lipsă, valori aberante), prin diverse metode, inclusiv tehnici de completare sau netezire.
- Integrarea datelor: combină date din surse multiple într-o bază unificată.
- Transformarea datelor: convertește date în formatele necesare pentru minerit.
Normalizarea datelor
- Normalizarea binară: transformă valorile unui atribut în 0 sau 1 în funcție de prezența sau absența atributului respectiv în înregistrări.
- Normalizarea min-max: ajustează valorile unui atribut într-un interval specific (ex: 0-1).
- Normalizarea z-mediu: centrrează valorile unui atribut în jurul mediei și le standardizează (divizează prin deviația standard).
- Alte tipuri de normalizare: nominală, suma 1, logaritmică, ITF.
Selectarea datelor
- Selectează datele relevante, esențiale pentru analiza inițială.
- Metode wrapper și metode de filtrare.
Entropia și câștigul informațional
- Măsuri pentru evaluarea și caracterizarea purității unui set de date.
- Măsoară omogenitatea seturilor de date.
- Câștigul informațional reprezintă reducerea în entropie datorată grupării datelor conform unui atribut.
Mineritul regulilor de asociere
- Identifică dependențe/asociații între elementele datelor.
- Reprezintă seturi de articole frecvente.
- Se creează reguli în forma A => B, unde A și B sunt seturi de articole, conform pragului minim de suport și încredere.
- Algoritmul Apriori identifică aceste reguli.
Evaluarea algoritmilor învățare
- Masuri pentru evaluarea performanței algoritmilor de învățare.
- Se determină exactitatea, precizia, recall-ul, F-measure, entropia, balance, separability, compactness.
Clustering
- Gruparea automată a datelor în cluster-e pe baza similarităților.
- Necesită scalabilitate, dimensionalitate, adaptabilitate, insensibilitate, și interpretabilitate.
- Algoritmul k-Means și algoritmi ierarhici.
Clasificarea
- Atribuirea etichetelor datelor din diverse clase.
- Necesită date de antrenament.
- Metode: K-Nearest Neighbor (KNN), arbori de decizie, Mașini cu Vectori de Suport (SVM), Rețele Neuronale, clasificarea prin analogie.
Centroizi
- Reprezintă punctul central al elementelor din aceeasi clasa (centroidul).
- Calculul centroizilor permite clasificarea datelor nou-venite.
Algoritme de clasificare
- Algoritme care permit atribuirea datelor la diferite clase.
- Metoda clasificatorului Rocchio utilizează centroizi pentru a defini granitele de separare dintre clase.
- Centrele de greutate ale datelor din fiecare clasă.
- Delimitarea granițelor clasei
- Determinarea algoritmilor de atribuire a datelor la clase.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.