IoT Filtering and Aggregation Techniques Quiz
45 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Care dintre următoarele exemple este o aplicație a filtrării spațiale în IoT?

  • O platformă IoT colectează date despre consumul de energie din toate casele dintr-un cartier.
  • Un senzor de temperatură trimite date o dată la fiecare oră.
  • Datele despre nivelurile de poluare sunt colectate doar din anumite zone ale orașului. (correct)
  • Un senzor de vibrații trimite date doar când depășește o anumită limită.
  • Care este scopul principal al normalizării în IoT?

  • Reducerea volumului de date transmise.
  • Crearea de rapoarte concise și semnificative.
  • Asigurara interoperabilității între dispozitivele IoT. (correct)
  • Convertirea datelor în unități de măsură standard.
  • Care din următoarele opțiuni NU este o tehnică comună de normalizare în IoT?

  • Scalarea datelor într-un interval standard.
  • Conversia unităților de măsură.
  • Eliminarea datelor redundante. (correct)
  • Convertirea datelor la formate comune.
  • Care este scopul agregării temporale în IoT?

    <p>Gruparea datelor pe baza intervalelor de timp. (D)</p> Signup and view all the answers

    Care dintre următoarele exemple ilustrează agregarea spațială în IoT?

    <p>Determinarea calității aerului mediu într-o zonă metropolitană, prin combinarea datelor de la senzori din diverse locații. (A)</p> Signup and view all the answers

    Care dintre următoarele afirmații este adevărată despre agregarea evenimentuală?

    <p>Se bazează pe gruparea datelor pe baza unor evenimente specifice. (C)</p> Signup and view all the answers

    Care dintre următorii factori determină tipul de filtrare aplicat datelor IoT?

    <p>Obiectivele analizei datelor. (B)</p> Signup and view all the answers

    Ce tip de filtrare este utilizat în cazul transmiterii datelor de la un senzor de temperatură din fiecare oră?

    <p>Filtrare temporală (C)</p> Signup and view all the answers

    Care dintre următoarele este o tehnică de machine learning folosită pentru a crea un model puternic din modele slabe?

    <p>Gradient Boosting (D)</p> Signup and view all the answers

    Care dintre următoarele este un model de bază (weak learner) folosit în Gradient Boosting?

    <p>Arbore de decizie (B)</p> Signup and view all the answers

    Care dintre următoarele afirmații despre Gradient Boosting este adevărată?

    <p>Gradient Boosting se concentrează pe minimizarea erorii prin antrenarea fiecărui model suplimentar să corecteze greșelile modelului anterior. (C)</p> Signup and view all the answers

    Care dintre următoarele este o caracteristică a Random Forest?

    <p>Este un clasificator care conține un număr de arbori de decizie definiți pe diferite subseturi ale setului de date dat. (B)</p> Signup and view all the answers

    Care dintre următoarele este un tip de model potrivit pentru analiza seriilor temporale, ținând cont de dependențele temporale?

    <p>Rețele neuronale recurente (RNN) (D)</p> Signup and view all the answers

    Care dintre următoarele afirmații despre anomalii este adevărată?

    <p>Anomaliile reprezintă valori rare sau neașteptate care se abat semnificativ de la tiparul general al datelor. (A)</p> Signup and view all the answers

    Care dintre următoarele este un exemplu de filtrare digitală folosită pentru eliminarea zgomotului?

    <p>Filtru mediu mobil (C)</p> Signup and view all the answers

    Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a identifica și a elimina zgomotul specific?

    <p>Rețele neuronale convoluționale (CNN) (B)</p> Signup and view all the answers

    Care dintre următoarele este o tehnică avansată de filtrare digitală care combină măsurători actuale și istorice pentru a estima starea reală?

    <p>Filtru Kalman (D)</p> Signup and view all the answers

    Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a reconstrui semnalul fără zgomot?

    <p>Rețele autoencoder (D)</p> Signup and view all the answers

    Ce metodă poate fi utilizată pentru a estima valorile lipsă bazate pe datele anterioare și următoare?

    <p>Interpolare liniară (A)</p> Signup and view all the answers

    Care dintre următoarele opțiuni nu reprezintă un factor extern care poate influența datele?

    <p>Estimarea statistică (A)</p> Signup and view all the answers

    Ce se consideră când datele nu sunt primite la intervalele așteptate?

    <p>Lipsa datelor (B)</p> Signup and view all the answers

    Ce tehnică avansată poate fi utilizată pentru imputarea datelor lipsă, bazându-se pe seria temporală?

    <p>Filtre Kalman (D)</p> Signup and view all the answers

    Ce metodă poate fi folosită pentru a completa golurile folosind media, mediana sau modul?

    <p>Imputare bazată pe medii (C)</p> Signup and view all the answers

    Care dintre următoarele este o caracteristică a lui Apache Kafka?

    <p>Stocarea datelor într-un sistem distribuit. (A), Analiza datelor în timp real. (C), Gestionarea traficului de date între servere. (E)</p> Signup and view all the answers

    Care este rolul unui "broker" în Apache Kafka?

    <p>Stocarea datelor primite înainte ca acestea să fie prelucrate. (D)</p> Signup and view all the answers

    Ce este "Spark SQL"?

    <p>O componentă a Apache Spark care permite interogarea datelor folosind SQL. (C)</p> Signup and view all the answers

    Ce se înțelege prin „procesare unificată” în contextul Apache Spark?

    <p>Capacitatea de a prelucra diferite tipuri de sarcini. (C)</p> Signup and view all the answers

    Care dintre următoarele nu este o caracteristică a lui Apache Spark?

    <p>Programare orientată pe obiecte. (D)</p> Signup and view all the answers

    Ce rol joacă Zookeeper în Apache Kafka?

    <p>Gestionarea conectivității între componentele Kafka. (B)</p> Signup and view all the answers

    Care dintre următoarele este un avantaj al procesării în timp real cu latență scăzută cu Apache Flink?

    <p>Apache Flink permite procesarea fluxurilor de date în timp real cu o latență scăzută. (D)</p> Signup and view all the answers

    Care dintre următoarele este o caracteristică specifică Apache Spark pentru procesarea batch?

    <p>Apache Spark folosește un model de micro-batch, procesând datele în bucăți mici. (C)</p> Signup and view all the answers

    Care dintre următoarele este un avantaj al procesării cu Apache Flink în comparație cu Apache Spark?

    <p>Procesarea fluxurilor întârziate (event-time) (A)</p> Signup and view all the answers

    Care dintre următoarele este un scop al filtrării în IoT?

    <p>Reducerea volumului de date transmise sau procesate. (B)</p> Signup and view all the answers

    Care dintre următoarele este o metodă de implementare a filtrării în IoT?

    <p>La nivel de senzor, datele sunt filtrate direct la sursă. (D)</p> Signup and view all the answers

    Care dintre următoarele este un exemplu de filtrare bazată pe praguri (threshold-based filtering)?

    <p>Transmiterea doar a temperaturilor sub 0°C. (D)</p> Signup and view all the answers

    Care dintre următoarele este un avantaj al procesării batch cu Apache Spark?

    <p>Performanță ridicată și maturitate. (C)</p> Signup and view all the answers

    Care dintre următoarele este o caracteristică a procesării în timp real?

    <p>Datele sunt procesate conform timestamp-ului real al evenimentului. (A)</p> Signup and view all the answers

    Ce componentă din Apache Flink se ocupă de coordonarea executării sarcinilor în cluster și gestionarea distribuției sarcinilor, checkpoint-urilor și resurselor?

    <p>JobManager (B)</p> Signup and view all the answers

    Care dintre următoarele tehnologii este un standard în aplicațiile moderne de Big Data și formează o soluție robustă pentru aplicații de procesare în flux (stream processing)?

    <p>Apache Kafka + Apache Spark (A)</p> Signup and view all the answers

    Care dintre următoarele beneficii sunt asociate cu Apache Flink?

    <p>Scalabilitate ridicată, toleranță la erori ridicată, flexibilitate în procesarea datelor (A)</p> Signup and view all the answers

    Care dintre urmatoarele sunt exemple de utilizare a tehnologiei Apache Kafka + Apache Spark?

    <p>Monitorizarea IoT, detectarea fraudelor si sistemele de recomandare (C)</p> Signup and view all the answers

    Ce este Spark Streaming?

    <p>Un framework pentru procesarea datelor în flux (streaming) aproape în timp real (B)</p> Signup and view all the answers

    Ce permite integrarea Spark - Kafka?

    <p>Citirea și procesarea datelor din Kafka folosind Spark Streaming pentru prelucrarea datelor în timp real (D)</p> Signup and view all the answers

    Care dintre următoarele este o caracteristică a TaskManager în Apache Flink?

    <p>Executarea sarcinilor alocate de JobManager pe nodurile din cluster (C)</p> Signup and view all the answers

    Ce este MLlib?

    <p>O bibliotecă pentru machine learning, care include algoritmi pentru clasificare, regresie, clustering, reducerea dimensionalității, etc. (C)</p> Signup and view all the answers

    Study Notes

    Analiza, Prelucrarea și Curățarea Datelor IoT (Cursul 6)

    • Prezentarea generală a analizei, prelucrării și curățării datelor IoT
    • Cuprins: Instrumente și tehnologii, Filtrare, Normalizare și Agregare în IoT, Identificarea și gestionarea datelor lipsă, Eliminarea anomaliilor și detectarea zgomotului, Validarea datelor, Modele ARIMA, LSTM.

    Instrumente și Tehnologii

    • Se prezintă Apache Kafka, o platformă pentru transportul fluxurilor de date masive
    • Kafka este similară cu un serviciu de curierat, gestionând transportul datelor de la un punct la altul în timp real
    • Funcționalități cheie: Procesare în timp real, Scalabilitate, Durabilitate, si gestionarea căderilor de sistem
    • Componente: Producer, Broker (gestionează mesajele), Topic (clasificarea mesajelor), Partition (împărțirea topic-urilor), Consumer (extrage mesajele), Zookeeper (supraveghează brokerii)

    Apache Spark

    • Este un motor de analiză de date open-source, destinat pentru procesarea datelor la scară largă
    • Oferă o interfață pentru programarea clusterelor prin mecanisme de analiză paralelă
    • Funcționalități: Performanță ridicată, Procesare în memorie/pe disc, Procesare unificată, Diferite tipuri de sarcini (batch, streaming, SQL, machine learning, grafuri), API-uri prietenoase pentru limbaje populare (Python, Java, Scala, R) și Compatibilitate cu ecosistemul Hadoop (stocare durabilă)
    • Componente: Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX

    Integrarea Kafka - Spark

    • Funcționalitatea de integrare permite citirea și procesarea datelor din Kafka folosind Spark Streaming pentru procesarea datelor în timp real.
    • Kafka ca sursă de date: Spark citește datele din topicuri
    • Procesarea în Spark: Transformări, filtrare și analiză
    • Kafka ca destinație: Rezultatele procesării scrise înapoi în Kafka
    • Exemple de integrare: HDFS, baze de date, sisteme cloud

    Exemple de utilizare a Kafka+Spark

    • Monitorizarea IoT pentru alarme și analize predictive
    • Detectarea fraudelor utilizând machine learning
    • Sisteme de recomandare personalizate în timp real
    • O platformă open-source pentru procesarea datelor distribuite și în timp real
    • Permite analiza continuă cu latență mică și suportă și procesarea în regim batch
    • Recunoscut pentru: Scalabilitate ridicată, Toleranță la erori și Flexibilitate în procesarea datelor
    • Componente: JobManager (coordonează sarcinile în cluster), TaskManager (execută sarcinile), Backend pentru stocarea stării aplicației (de ex. RocksDB), Checkpointing (creează puncte de salvare), Event Time vs. Processing Time (procesare în funcție de timestamp real sau de timp de procesare)
    • Compararea pe criterii cum ar fi: Procesare în flux/batch și integrarea externă (ex. API-uri)

    Filtrare în IoT

    • Este procesul de selectare a informațiilor relevante dintr-un flux mare de date, eliminând zgomotul și datele neimportante.
    • Obiective: Reducerea volumului de date, Excluderea datelor redundante, Creșterea eficienței sistemului
    • Implementare: Nivelul senzorilor, Gateway-uri, Procesare (după colectare)
    • Tipuri de filtrare: Bazată pe praguri, Temporală, Spațială, Bazată pe evenimente

    Normalizarea datelor în IoT

    • Implică standardizarea datelor pentru compatibilitate independent de sursa și formatul inițial
    • Obiective: Reprezentare consistentă a datelor, Facilitare integrare/procesare, Asigurare interoperabilitate
    • Implementare: La nivel de senzor, gateway, cloud

    Agregarea datelor în IoT

    • Procesul de grupare, combinare sau sumarizare a datelor brute pentru extragerea informațiilor utile
    • Obiective: Reducerea încărcării rețelei, Crearea rapoartelor concise, Identificarea tendințelor în date
    • Tipuri: Temporală (pe intervale de timp), Spațială (pe bază de locație), Statistică (bazată pe funcții statistice), Evenimentuală (bazată pe evenimente specifice)
    • Implementare: Edge Aggregation, Cloud Aggregation, Hierarchical Aggregation

    Resampling în IoT

    • Modificarea frecvenței datelor pentru a se potrivi cu cerințelor de procesare sau analiză (reducerea sau creșterea numărului de puncte de date)
    • Tipuri: Downsampling (reducerea frecvenţei), Upsampling (creșterea frecvenţei), Agregare temporală, Interpolare

    Reconfigurarea fluxurilor de date în IoT

    • Modificarea structurii, direcției sau conținutului fluxurilor pentru a se ajusta cerințelor de rețea/aplicații
    • Motive: Integrare date din surse multiple, Optimizarea resurselor, Adaptare la schimbări infrastructură IoT, Gestionarea erorilor/latențelor
    • Tipuri: Redistribuire, Fusionare, Separare, Reordonare, Transformare Format

    Identificarea și Gestionarea datelor lipsă

    • Cauze frecvente: Defecțiuni hardware, Probleme de conectivitate, Erori de transmisie, Deficienţe software, Factori externi
    • Validare în timp real: Comparare cu limitele acceptabile sau modele referință
    • Detectare goluri temporale: Monitorizare frecvență transmitere
    • Analiza statistică: Identificarea valorilor aberante
    • Monitorizare erori transmisie: Verificare rapoarte transmisie
    • Gestionare: Imputare (interpolare liniară, bazate pe medii, predictive), Procesare la margine, Măsuri de redundanță, Stocare tampon, Îmbunătățiri arhitectură/notificări, Excludere

    Algoritmi ML utilizați pentru imputarea datelor

    • Modele avansate: Random Forest, Gradient Boosting
    • Modele Deep Learning: Rețele neuronale dense sau convoluționale, Rețele neuronale recurente (RNN) sau LSTM

    Random Forest

    • Clasificator care conține mai mulți arbori de decizie pe subseturi ale datelor
    • Media predictiilor pentru îmbunătățirea acurateții

    Gradient Boosting

    • Tehnică ML care construiește un ansamblu de modele slabe pentru a forma un model puternic
    • Antrenare iterativă pentru a corecta greșelile modelului anterior

    ARIMA (AutoRegressive Integrated Moving Average)

    • Model statistic pentru prognoza seriilor temporale, potrivit pentru datele care prezintă o dependență în timp

    LSTM (Long Short-Term Memory)

    • Un tip de RNN, potrivit pentru fluxuri de date complexe și neregulate
    • Aplicatii in IoT: Prelucrarea datelor, Predictie, Detectarea anomaliilor

    Filtre digitale

    • Filtru mediu mobil (Moving Average)
    • Filtru median
    • Filtru Kalman
    • Transformata Wavelet

    Detectare și eliminare anomalii

    • Metode statistice: Analiza deviației standard, Interquartile Range (IQR)
    • Metode bazate pe învăţare automată: Clustering (K-means, DBScan), Regresia robustă, Isolation Forest, One-Class SVM, Autoencoders
    • Metode bazate pe seriile temporale: Analiza sezonieră

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Acest quiz testează cunoștințele tale despre tehnicile de filtrare și agregare în Internetul Lucrurilor (IoT). Întrebările acoperă diverse aplicații, scopuri și tehnici importante, incluzând machine learning. Pregătește-te să îți verifici cunoștințele despre aceste concepte esențiale în IoT.

    More Like This

    Use Quizgecko on...
    Browser
    Browser