Podcast
Questions and Answers
Care dintre următoarele exemple este o aplicație a filtrării spațiale în IoT?
Care dintre următoarele exemple este o aplicație a filtrării spațiale în IoT?
Care este scopul principal al normalizării în IoT?
Care este scopul principal al normalizării în IoT?
Care din următoarele opțiuni NU este o tehnică comună de normalizare în IoT?
Care din următoarele opțiuni NU este o tehnică comună de normalizare în IoT?
Care este scopul agregării temporale în IoT?
Care este scopul agregării temporale în IoT?
Signup and view all the answers
Care dintre următoarele exemple ilustrează agregarea spațială în IoT?
Care dintre următoarele exemple ilustrează agregarea spațială în IoT?
Signup and view all the answers
Care dintre următoarele afirmații este adevărată despre agregarea evenimentuală?
Care dintre următoarele afirmații este adevărată despre agregarea evenimentuală?
Signup and view all the answers
Care dintre următorii factori determină tipul de filtrare aplicat datelor IoT?
Care dintre următorii factori determină tipul de filtrare aplicat datelor IoT?
Signup and view all the answers
Ce tip de filtrare este utilizat în cazul transmiterii datelor de la un senzor de temperatură din fiecare oră?
Ce tip de filtrare este utilizat în cazul transmiterii datelor de la un senzor de temperatură din fiecare oră?
Signup and view all the answers
Care dintre următoarele este o tehnică de machine learning folosită pentru a crea un model puternic din modele slabe?
Care dintre următoarele este o tehnică de machine learning folosită pentru a crea un model puternic din modele slabe?
Signup and view all the answers
Care dintre următoarele este un model de bază (weak learner) folosit în Gradient Boosting?
Care dintre următoarele este un model de bază (weak learner) folosit în Gradient Boosting?
Signup and view all the answers
Care dintre următoarele afirmații despre Gradient Boosting este adevărată?
Care dintre următoarele afirmații despre Gradient Boosting este adevărată?
Signup and view all the answers
Care dintre următoarele este o caracteristică a Random Forest?
Care dintre următoarele este o caracteristică a Random Forest?
Signup and view all the answers
Care dintre următoarele este un tip de model potrivit pentru analiza seriilor temporale, ținând cont de dependențele temporale?
Care dintre următoarele este un tip de model potrivit pentru analiza seriilor temporale, ținând cont de dependențele temporale?
Signup and view all the answers
Care dintre următoarele afirmații despre anomalii este adevărată?
Care dintre următoarele afirmații despre anomalii este adevărată?
Signup and view all the answers
Care dintre următoarele este un exemplu de filtrare digitală folosită pentru eliminarea zgomotului?
Care dintre următoarele este un exemplu de filtrare digitală folosită pentru eliminarea zgomotului?
Signup and view all the answers
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a identifica și a elimina zgomotul specific?
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a identifica și a elimina zgomotul specific?
Signup and view all the answers
Care dintre următoarele este o tehnică avansată de filtrare digitală care combină măsurători actuale și istorice pentru a estima starea reală?
Care dintre următoarele este o tehnică avansată de filtrare digitală care combină măsurători actuale și istorice pentru a estima starea reală?
Signup and view all the answers
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a reconstrui semnalul fără zgomot?
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a reconstrui semnalul fără zgomot?
Signup and view all the answers
Ce metodă poate fi utilizată pentru a estima valorile lipsă bazate pe datele anterioare și următoare?
Ce metodă poate fi utilizată pentru a estima valorile lipsă bazate pe datele anterioare și următoare?
Signup and view all the answers
Care dintre următoarele opțiuni nu reprezintă un factor extern care poate influența datele?
Care dintre următoarele opțiuni nu reprezintă un factor extern care poate influența datele?
Signup and view all the answers
Ce se consideră când datele nu sunt primite la intervalele așteptate?
Ce se consideră când datele nu sunt primite la intervalele așteptate?
Signup and view all the answers
Ce tehnică avansată poate fi utilizată pentru imputarea datelor lipsă, bazându-se pe seria temporală?
Ce tehnică avansată poate fi utilizată pentru imputarea datelor lipsă, bazându-se pe seria temporală?
Signup and view all the answers
Ce metodă poate fi folosită pentru a completa golurile folosind media, mediana sau modul?
Ce metodă poate fi folosită pentru a completa golurile folosind media, mediana sau modul?
Signup and view all the answers
Care dintre următoarele este o caracteristică a lui Apache Kafka?
Care dintre următoarele este o caracteristică a lui Apache Kafka?
Signup and view all the answers
Care este rolul unui "broker" în Apache Kafka?
Care este rolul unui "broker" în Apache Kafka?
Signup and view all the answers
Ce este "Spark SQL"?
Ce este "Spark SQL"?
Signup and view all the answers
Ce se înțelege prin „procesare unificată” în contextul Apache Spark?
Ce se înțelege prin „procesare unificată” în contextul Apache Spark?
Signup and view all the answers
Care dintre următoarele nu este o caracteristică a lui Apache Spark?
Care dintre următoarele nu este o caracteristică a lui Apache Spark?
Signup and view all the answers
Ce rol joacă Zookeeper în Apache Kafka?
Ce rol joacă Zookeeper în Apache Kafka?
Signup and view all the answers
Care dintre următoarele este un avantaj al procesării în timp real cu latență scăzută cu Apache Flink?
Care dintre următoarele este un avantaj al procesării în timp real cu latență scăzută cu Apache Flink?
Signup and view all the answers
Care dintre următoarele este o caracteristică specifică Apache Spark pentru procesarea batch?
Care dintre următoarele este o caracteristică specifică Apache Spark pentru procesarea batch?
Signup and view all the answers
Care dintre următoarele este un avantaj al procesării cu Apache Flink în comparație cu Apache Spark?
Care dintre următoarele este un avantaj al procesării cu Apache Flink în comparație cu Apache Spark?
Signup and view all the answers
Care dintre următoarele este un scop al filtrării în IoT?
Care dintre următoarele este un scop al filtrării în IoT?
Signup and view all the answers
Care dintre următoarele este o metodă de implementare a filtrării în IoT?
Care dintre următoarele este o metodă de implementare a filtrării în IoT?
Signup and view all the answers
Care dintre următoarele este un exemplu de filtrare bazată pe praguri (threshold-based filtering)?
Care dintre următoarele este un exemplu de filtrare bazată pe praguri (threshold-based filtering)?
Signup and view all the answers
Care dintre următoarele este un avantaj al procesării batch cu Apache Spark?
Care dintre următoarele este un avantaj al procesării batch cu Apache Spark?
Signup and view all the answers
Care dintre următoarele este o caracteristică a procesării în timp real?
Care dintre următoarele este o caracteristică a procesării în timp real?
Signup and view all the answers
Ce componentă din Apache Flink se ocupă de coordonarea executării sarcinilor în cluster și gestionarea distribuției sarcinilor, checkpoint-urilor și resurselor?
Ce componentă din Apache Flink se ocupă de coordonarea executării sarcinilor în cluster și gestionarea distribuției sarcinilor, checkpoint-urilor și resurselor?
Signup and view all the answers
Care dintre următoarele tehnologii este un standard în aplicațiile moderne de Big Data și formează o soluție robustă pentru aplicații de procesare în flux (stream processing)?
Care dintre următoarele tehnologii este un standard în aplicațiile moderne de Big Data și formează o soluție robustă pentru aplicații de procesare în flux (stream processing)?
Signup and view all the answers
Care dintre următoarele beneficii sunt asociate cu Apache Flink?
Care dintre următoarele beneficii sunt asociate cu Apache Flink?
Signup and view all the answers
Care dintre urmatoarele sunt exemple de utilizare a tehnologiei Apache Kafka + Apache Spark?
Care dintre urmatoarele sunt exemple de utilizare a tehnologiei Apache Kafka + Apache Spark?
Signup and view all the answers
Ce este Spark Streaming?
Ce este Spark Streaming?
Signup and view all the answers
Ce permite integrarea Spark - Kafka?
Ce permite integrarea Spark - Kafka?
Signup and view all the answers
Care dintre următoarele este o caracteristică a TaskManager în Apache Flink?
Care dintre următoarele este o caracteristică a TaskManager în Apache Flink?
Signup and view all the answers
Ce este MLlib?
Ce este MLlib?
Signup and view all the answers
Study Notes
Analiza, Prelucrarea și Curățarea Datelor IoT (Cursul 6)
- Prezentarea generală a analizei, prelucrării și curățării datelor IoT
- Cuprins: Instrumente și tehnologii, Filtrare, Normalizare și Agregare în IoT, Identificarea și gestionarea datelor lipsă, Eliminarea anomaliilor și detectarea zgomotului, Validarea datelor, Modele ARIMA, LSTM.
Instrumente și Tehnologii
- Se prezintă Apache Kafka, o platformă pentru transportul fluxurilor de date masive
- Kafka este similară cu un serviciu de curierat, gestionând transportul datelor de la un punct la altul în timp real
- Funcționalități cheie: Procesare în timp real, Scalabilitate, Durabilitate, si gestionarea căderilor de sistem
- Componente: Producer, Broker (gestionează mesajele), Topic (clasificarea mesajelor), Partition (împărțirea topic-urilor), Consumer (extrage mesajele), Zookeeper (supraveghează brokerii)
Apache Spark
- Este un motor de analiză de date open-source, destinat pentru procesarea datelor la scară largă
- Oferă o interfață pentru programarea clusterelor prin mecanisme de analiză paralelă
- Funcționalități: Performanță ridicată, Procesare în memorie/pe disc, Procesare unificată, Diferite tipuri de sarcini (batch, streaming, SQL, machine learning, grafuri), API-uri prietenoase pentru limbaje populare (Python, Java, Scala, R) și Compatibilitate cu ecosistemul Hadoop (stocare durabilă)
- Componente: Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX
Integrarea Kafka - Spark
- Funcționalitatea de integrare permite citirea și procesarea datelor din Kafka folosind Spark Streaming pentru procesarea datelor în timp real.
- Kafka ca sursă de date: Spark citește datele din topicuri
- Procesarea în Spark: Transformări, filtrare și analiză
- Kafka ca destinație: Rezultatele procesării scrise înapoi în Kafka
- Exemple de integrare: HDFS, baze de date, sisteme cloud
Exemple de utilizare a Kafka+Spark
- Monitorizarea IoT pentru alarme și analize predictive
- Detectarea fraudelor utilizând machine learning
- Sisteme de recomandare personalizate în timp real
Apache Flink
- O platformă open-source pentru procesarea datelor distribuite și în timp real
- Permite analiza continuă cu latență mică și suportă și procesarea în regim batch
- Recunoscut pentru: Scalabilitate ridicată, Toleranță la erori și Flexibilitate în procesarea datelor
- Componente: JobManager (coordonează sarcinile în cluster), TaskManager (execută sarcinile), Backend pentru stocarea stării aplicației (de ex. RocksDB), Checkpointing (creează puncte de salvare), Event Time vs. Processing Time (procesare în funcție de timestamp real sau de timp de procesare)
Apache Flink vs Apache Spark
- Compararea pe criterii cum ar fi: Procesare în flux/batch și integrarea externă (ex. API-uri)
Filtrare în IoT
- Este procesul de selectare a informațiilor relevante dintr-un flux mare de date, eliminând zgomotul și datele neimportante.
- Obiective: Reducerea volumului de date, Excluderea datelor redundante, Creșterea eficienței sistemului
- Implementare: Nivelul senzorilor, Gateway-uri, Procesare (după colectare)
- Tipuri de filtrare: Bazată pe praguri, Temporală, Spațială, Bazată pe evenimente
Normalizarea datelor în IoT
- Implică standardizarea datelor pentru compatibilitate independent de sursa și formatul inițial
- Obiective: Reprezentare consistentă a datelor, Facilitare integrare/procesare, Asigurare interoperabilitate
- Implementare: La nivel de senzor, gateway, cloud
Agregarea datelor în IoT
- Procesul de grupare, combinare sau sumarizare a datelor brute pentru extragerea informațiilor utile
- Obiective: Reducerea încărcării rețelei, Crearea rapoartelor concise, Identificarea tendințelor în date
- Tipuri: Temporală (pe intervale de timp), Spațială (pe bază de locație), Statistică (bazată pe funcții statistice), Evenimentuală (bazată pe evenimente specifice)
- Implementare: Edge Aggregation, Cloud Aggregation, Hierarchical Aggregation
Resampling în IoT
- Modificarea frecvenței datelor pentru a se potrivi cu cerințelor de procesare sau analiză (reducerea sau creșterea numărului de puncte de date)
- Tipuri: Downsampling (reducerea frecvenţei), Upsampling (creșterea frecvenţei), Agregare temporală, Interpolare
Reconfigurarea fluxurilor de date în IoT
- Modificarea structurii, direcției sau conținutului fluxurilor pentru a se ajusta cerințelor de rețea/aplicații
- Motive: Integrare date din surse multiple, Optimizarea resurselor, Adaptare la schimbări infrastructură IoT, Gestionarea erorilor/latențelor
- Tipuri: Redistribuire, Fusionare, Separare, Reordonare, Transformare Format
Identificarea și Gestionarea datelor lipsă
- Cauze frecvente: Defecțiuni hardware, Probleme de conectivitate, Erori de transmisie, Deficienţe software, Factori externi
- Validare în timp real: Comparare cu limitele acceptabile sau modele referință
- Detectare goluri temporale: Monitorizare frecvență transmitere
- Analiza statistică: Identificarea valorilor aberante
- Monitorizare erori transmisie: Verificare rapoarte transmisie
- Gestionare: Imputare (interpolare liniară, bazate pe medii, predictive), Procesare la margine, Măsuri de redundanță, Stocare tampon, Îmbunătățiri arhitectură/notificări, Excludere
Algoritmi ML utilizați pentru imputarea datelor
- Modele avansate: Random Forest, Gradient Boosting
- Modele Deep Learning: Rețele neuronale dense sau convoluționale, Rețele neuronale recurente (RNN) sau LSTM
Random Forest
- Clasificator care conține mai mulți arbori de decizie pe subseturi ale datelor
- Media predictiilor pentru îmbunătățirea acurateții
Gradient Boosting
- Tehnică ML care construiește un ansamblu de modele slabe pentru a forma un model puternic
- Antrenare iterativă pentru a corecta greșelile modelului anterior
ARIMA (AutoRegressive Integrated Moving Average)
- Model statistic pentru prognoza seriilor temporale, potrivit pentru datele care prezintă o dependență în timp
LSTM (Long Short-Term Memory)
- Un tip de RNN, potrivit pentru fluxuri de date complexe și neregulate
- Aplicatii in IoT: Prelucrarea datelor, Predictie, Detectarea anomaliilor
Filtre digitale
- Filtru mediu mobil (Moving Average)
- Filtru median
- Filtru Kalman
- Transformata Wavelet
Detectare și eliminare anomalii
- Metode statistice: Analiza deviației standard, Interquartile Range (IQR)
- Metode bazate pe învăţare automată: Clustering (K-means, DBScan), Regresia robustă, Isolation Forest, One-Class SVM, Autoencoders
- Metode bazate pe seriile temporale: Analiza sezonieră
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Acest quiz testează cunoștințele tale despre tehnicile de filtrare și agregare în Internetul Lucrurilor (IoT). Întrebările acoperă diverse aplicații, scopuri și tehnici importante, incluzând machine learning. Pregătește-te să îți verifici cunoștințele despre aceste concepte esențiale în IoT.