Podcast
Questions and Answers
Care dintre următoarele exemple este o aplicație a filtrării spațiale în IoT?
Care dintre următoarele exemple este o aplicație a filtrării spațiale în IoT?
- O platformă IoT colectează date despre consumul de energie din toate casele dintr-un cartier.
- Un senzor de temperatură trimite date o dată la fiecare oră.
- Datele despre nivelurile de poluare sunt colectate doar din anumite zone ale orașului. (correct)
- Un senzor de vibrații trimite date doar când depășește o anumită limită.
Care este scopul principal al normalizării în IoT?
Care este scopul principal al normalizării în IoT?
- Reducerea volumului de date transmise.
- Crearea de rapoarte concise și semnificative.
- Asigurara interoperabilității între dispozitivele IoT. (correct)
- Convertirea datelor în unități de măsură standard.
Care din următoarele opțiuni NU este o tehnică comună de normalizare în IoT?
Care din următoarele opțiuni NU este o tehnică comună de normalizare în IoT?
- Scalarea datelor într-un interval standard.
- Conversia unităților de măsură.
- Eliminarea datelor redundante. (correct)
- Convertirea datelor la formate comune.
Care este scopul agregării temporale în IoT?
Care este scopul agregării temporale în IoT?
Care dintre următoarele exemple ilustrează agregarea spațială în IoT?
Care dintre următoarele exemple ilustrează agregarea spațială în IoT?
Care dintre următoarele afirmații este adevărată despre agregarea evenimentuală?
Care dintre următoarele afirmații este adevărată despre agregarea evenimentuală?
Care dintre următorii factori determină tipul de filtrare aplicat datelor IoT?
Care dintre următorii factori determină tipul de filtrare aplicat datelor IoT?
Ce tip de filtrare este utilizat în cazul transmiterii datelor de la un senzor de temperatură din fiecare oră?
Ce tip de filtrare este utilizat în cazul transmiterii datelor de la un senzor de temperatură din fiecare oră?
Care dintre următoarele este o tehnică de machine learning folosită pentru a crea un model puternic din modele slabe?
Care dintre următoarele este o tehnică de machine learning folosită pentru a crea un model puternic din modele slabe?
Care dintre următoarele este un model de bază (weak learner) folosit în Gradient Boosting?
Care dintre următoarele este un model de bază (weak learner) folosit în Gradient Boosting?
Care dintre următoarele afirmații despre Gradient Boosting este adevărată?
Care dintre următoarele afirmații despre Gradient Boosting este adevărată?
Care dintre următoarele este o caracteristică a Random Forest?
Care dintre următoarele este o caracteristică a Random Forest?
Care dintre următoarele este un tip de model potrivit pentru analiza seriilor temporale, ținând cont de dependențele temporale?
Care dintre următoarele este un tip de model potrivit pentru analiza seriilor temporale, ținând cont de dependențele temporale?
Care dintre următoarele afirmații despre anomalii este adevărată?
Care dintre următoarele afirmații despre anomalii este adevărată?
Care dintre următoarele este un exemplu de filtrare digitală folosită pentru eliminarea zgomotului?
Care dintre următoarele este un exemplu de filtrare digitală folosită pentru eliminarea zgomotului?
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a identifica și a elimina zgomotul specific?
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a identifica și a elimina zgomotul specific?
Care dintre următoarele este o tehnică avansată de filtrare digitală care combină măsurători actuale și istorice pentru a estima starea reală?
Care dintre următoarele este o tehnică avansată de filtrare digitală care combină măsurători actuale și istorice pentru a estima starea reală?
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a reconstrui semnalul fără zgomot?
Care dintre următoarele tehnici de eliminare a zgomotului se bazează pe învățarea automată pentru a reconstrui semnalul fără zgomot?
Ce metodă poate fi utilizată pentru a estima valorile lipsă bazate pe datele anterioare și următoare?
Ce metodă poate fi utilizată pentru a estima valorile lipsă bazate pe datele anterioare și următoare?
Care dintre următoarele opțiuni nu reprezintă un factor extern care poate influența datele?
Care dintre următoarele opțiuni nu reprezintă un factor extern care poate influența datele?
Ce se consideră când datele nu sunt primite la intervalele așteptate?
Ce se consideră când datele nu sunt primite la intervalele așteptate?
Ce tehnică avansată poate fi utilizată pentru imputarea datelor lipsă, bazându-se pe seria temporală?
Ce tehnică avansată poate fi utilizată pentru imputarea datelor lipsă, bazându-se pe seria temporală?
Ce metodă poate fi folosită pentru a completa golurile folosind media, mediana sau modul?
Ce metodă poate fi folosită pentru a completa golurile folosind media, mediana sau modul?
Care dintre următoarele este o caracteristică a lui Apache Kafka?
Care dintre următoarele este o caracteristică a lui Apache Kafka?
Care este rolul unui "broker" în Apache Kafka?
Care este rolul unui "broker" în Apache Kafka?
Ce este "Spark SQL"?
Ce este "Spark SQL"?
Ce se înțelege prin „procesare unificată” în contextul Apache Spark?
Ce se înțelege prin „procesare unificată” în contextul Apache Spark?
Care dintre următoarele nu este o caracteristică a lui Apache Spark?
Care dintre următoarele nu este o caracteristică a lui Apache Spark?
Ce rol joacă Zookeeper în Apache Kafka?
Ce rol joacă Zookeeper în Apache Kafka?
Care dintre următoarele este un avantaj al procesării în timp real cu latență scăzută cu Apache Flink?
Care dintre următoarele este un avantaj al procesării în timp real cu latență scăzută cu Apache Flink?
Care dintre următoarele este o caracteristică specifică Apache Spark pentru procesarea batch?
Care dintre următoarele este o caracteristică specifică Apache Spark pentru procesarea batch?
Care dintre următoarele este un avantaj al procesării cu Apache Flink în comparație cu Apache Spark?
Care dintre următoarele este un avantaj al procesării cu Apache Flink în comparație cu Apache Spark?
Care dintre următoarele este un scop al filtrării în IoT?
Care dintre următoarele este un scop al filtrării în IoT?
Care dintre următoarele este o metodă de implementare a filtrării în IoT?
Care dintre următoarele este o metodă de implementare a filtrării în IoT?
Care dintre următoarele este un exemplu de filtrare bazată pe praguri (threshold-based filtering)?
Care dintre următoarele este un exemplu de filtrare bazată pe praguri (threshold-based filtering)?
Care dintre următoarele este un avantaj al procesării batch cu Apache Spark?
Care dintre următoarele este un avantaj al procesării batch cu Apache Spark?
Care dintre următoarele este o caracteristică a procesării în timp real?
Care dintre următoarele este o caracteristică a procesării în timp real?
Ce componentă din Apache Flink se ocupă de coordonarea executării sarcinilor în cluster și gestionarea distribuției sarcinilor, checkpoint-urilor și resurselor?
Ce componentă din Apache Flink se ocupă de coordonarea executării sarcinilor în cluster și gestionarea distribuției sarcinilor, checkpoint-urilor și resurselor?
Care dintre următoarele tehnologii este un standard în aplicațiile moderne de Big Data și formează o soluție robustă pentru aplicații de procesare în flux (stream processing)?
Care dintre următoarele tehnologii este un standard în aplicațiile moderne de Big Data și formează o soluție robustă pentru aplicații de procesare în flux (stream processing)?
Care dintre următoarele beneficii sunt asociate cu Apache Flink?
Care dintre următoarele beneficii sunt asociate cu Apache Flink?
Care dintre urmatoarele sunt exemple de utilizare a tehnologiei Apache Kafka + Apache Spark?
Care dintre urmatoarele sunt exemple de utilizare a tehnologiei Apache Kafka + Apache Spark?
Ce este Spark Streaming?
Ce este Spark Streaming?
Ce permite integrarea Spark - Kafka?
Ce permite integrarea Spark - Kafka?
Care dintre următoarele este o caracteristică a TaskManager în Apache Flink?
Care dintre următoarele este o caracteristică a TaskManager în Apache Flink?
Ce este MLlib?
Ce este MLlib?
Flashcards
Apache Kafka
Apache Kafka
O platformă pentru transportul fluxurilor de date mari, asigurându-se că acestea ajung intacte și la timp.
Producer în Kafka
Producer în Kafka
Componenta care creează sau trimite mesaje către brokeri.
Broker în Kafka
Broker în Kafka
Componenta care primește mesaje de la producători și le stochează până la utilizare.
Topic în Kafka
Topic în Kafka
Signup and view all the flashcards
Apache Spark
Apache Spark
Signup and view all the flashcards
Spark Core
Spark Core
Signup and view all the flashcards
Spark SQL
Spark SQL
Signup and view all the flashcards
Zookeeper în Kafka
Zookeeper în Kafka
Signup and view all the flashcards
Timpul Evenimentului
Timpul Evenimentului
Signup and view all the flashcards
Timpul de Procesare
Timpul de Procesare
Signup and view all the flashcards
Apache Flink
Apache Flink
Signup and view all the flashcards
Filtrarea în IoT
Filtrarea în IoT
Signup and view all the flashcards
Obiectivele filtrării
Obiectivele filtrării
Signup and view all the flashcards
Filtrarea Bazată pe Praguri
Filtrarea Bazată pe Praguri
Signup and view all the flashcards
Tipuri de Filtrare în IoT
Tipuri de Filtrare în IoT
Signup and view all the flashcards
DataFrames și Datasets
DataFrames și Datasets
Signup and view all the flashcards
Spark Streaming
Spark Streaming
Signup and view all the flashcards
MLlib
MLlib
Signup and view all the flashcards
GraphX
GraphX
Signup and view all the flashcards
Monitorizarea IoT
Monitorizarea IoT
Signup and view all the flashcards
JobManager
JobManager
Signup and view all the flashcards
Factori externi
Factori externi
Signup and view all the flashcards
Validarea datelor în timp real
Validarea datelor în timp real
Signup and view all the flashcards
Imputarea datelor lipsă
Imputarea datelor lipsă
Signup and view all the flashcards
Procesare la margine (Edge Computing)
Procesare la margine (Edge Computing)
Signup and view all the flashcards
Măsuri de redundanță
Măsuri de redundanță
Signup and view all the flashcards
Filtrare temporală
Filtrare temporală
Signup and view all the flashcards
Filtrare spațială
Filtrare spațială
Signup and view all the flashcards
Filtrare bazată pe evenimente
Filtrare bazată pe evenimente
Signup and view all the flashcards
Normalizarea în IoT
Normalizarea în IoT
Signup and view all the flashcards
Obiectivele normalizării
Obiectivele normalizării
Signup and view all the flashcards
Agregarea în IoT
Agregarea în IoT
Signup and view all the flashcards
Tipuri de agregare
Tipuri de agregare
Signup and view all the flashcards
Agregare temporală
Agregare temporală
Signup and view all the flashcards
Random Forest
Random Forest
Signup and view all the flashcards
Gradient Boosting
Gradient Boosting
Signup and view all the flashcards
Rețele neuronale
Rețele neuronale
Signup and view all the flashcards
Rețele neuronale recurente (RNN)
Rețele neuronale recurente (RNN)
Signup and view all the flashcards
Anomalii (Outliers)
Anomalii (Outliers)
Signup and view all the flashcards
Zgomot (Noise)
Zgomot (Noise)
Signup and view all the flashcards
Filtru mediu mobil
Filtru mediu mobil
Signup and view all the flashcards
Filtru median
Filtru median
Signup and view all the flashcards
Algoritmi ML pentru eliminarea zgomotului
Algoritmi ML pentru eliminarea zgomotului
Signup and view all the flashcards
Rata de învățare (Learning rate)
Rata de învățare (Learning rate)
Signup and view all the flashcards
Study Notes
Analiza, Prelucrarea și Curățarea Datelor IoT (Cursul 6)
- Prezentarea generală a analizei, prelucrării și curățării datelor IoT
- Cuprins: Instrumente și tehnologii, Filtrare, Normalizare și Agregare în IoT, Identificarea și gestionarea datelor lipsă, Eliminarea anomaliilor și detectarea zgomotului, Validarea datelor, Modele ARIMA, LSTM.
Instrumente și Tehnologii
- Se prezintă Apache Kafka, o platformă pentru transportul fluxurilor de date masive
- Kafka este similară cu un serviciu de curierat, gestionând transportul datelor de la un punct la altul în timp real
- Funcționalități cheie: Procesare în timp real, Scalabilitate, Durabilitate, si gestionarea căderilor de sistem
- Componente: Producer, Broker (gestionează mesajele), Topic (clasificarea mesajelor), Partition (împărțirea topic-urilor), Consumer (extrage mesajele), Zookeeper (supraveghează brokerii)
Apache Spark
- Este un motor de analiză de date open-source, destinat pentru procesarea datelor la scară largă
- Oferă o interfață pentru programarea clusterelor prin mecanisme de analiză paralelă
- Funcționalități: Performanță ridicată, Procesare în memorie/pe disc, Procesare unificată, Diferite tipuri de sarcini (batch, streaming, SQL, machine learning, grafuri), API-uri prietenoase pentru limbaje populare (Python, Java, Scala, R) și Compatibilitate cu ecosistemul Hadoop (stocare durabilă)
- Componente: Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX
Integrarea Kafka - Spark
- Funcționalitatea de integrare permite citirea și procesarea datelor din Kafka folosind Spark Streaming pentru procesarea datelor în timp real.
- Kafka ca sursă de date: Spark citește datele din topicuri
- Procesarea în Spark: Transformări, filtrare și analiză
- Kafka ca destinație: Rezultatele procesării scrise înapoi în Kafka
- Exemple de integrare: HDFS, baze de date, sisteme cloud
Exemple de utilizare a Kafka+Spark
- Monitorizarea IoT pentru alarme și analize predictive
- Detectarea fraudelor utilizând machine learning
- Sisteme de recomandare personalizate în timp real
Apache Flink
- O platformă open-source pentru procesarea datelor distribuite și în timp real
- Permite analiza continuă cu latență mică și suportă și procesarea în regim batch
- Recunoscut pentru: Scalabilitate ridicată, Toleranță la erori și Flexibilitate în procesarea datelor
- Componente: JobManager (coordonează sarcinile în cluster), TaskManager (execută sarcinile), Backend pentru stocarea stării aplicației (de ex. RocksDB), Checkpointing (creează puncte de salvare), Event Time vs. Processing Time (procesare în funcție de timestamp real sau de timp de procesare)
Apache Flink vs Apache Spark
- Compararea pe criterii cum ar fi: Procesare în flux/batch și integrarea externă (ex. API-uri)
Filtrare în IoT
- Este procesul de selectare a informațiilor relevante dintr-un flux mare de date, eliminând zgomotul și datele neimportante.
- Obiective: Reducerea volumului de date, Excluderea datelor redundante, Creșterea eficienței sistemului
- Implementare: Nivelul senzorilor, Gateway-uri, Procesare (după colectare)
- Tipuri de filtrare: Bazată pe praguri, Temporală, Spațială, Bazată pe evenimente
Normalizarea datelor în IoT
- Implică standardizarea datelor pentru compatibilitate independent de sursa și formatul inițial
- Obiective: Reprezentare consistentă a datelor, Facilitare integrare/procesare, Asigurare interoperabilitate
- Implementare: La nivel de senzor, gateway, cloud
Agregarea datelor în IoT
- Procesul de grupare, combinare sau sumarizare a datelor brute pentru extragerea informațiilor utile
- Obiective: Reducerea încărcării rețelei, Crearea rapoartelor concise, Identificarea tendințelor în date
- Tipuri: Temporală (pe intervale de timp), Spațială (pe bază de locație), Statistică (bazată pe funcții statistice), Evenimentuală (bazată pe evenimente specifice)
- Implementare: Edge Aggregation, Cloud Aggregation, Hierarchical Aggregation
Resampling în IoT
- Modificarea frecvenței datelor pentru a se potrivi cu cerințelor de procesare sau analiză (reducerea sau creșterea numărului de puncte de date)
- Tipuri: Downsampling (reducerea frecvenţei), Upsampling (creșterea frecvenţei), Agregare temporală, Interpolare
Reconfigurarea fluxurilor de date în IoT
- Modificarea structurii, direcției sau conținutului fluxurilor pentru a se ajusta cerințelor de rețea/aplicații
- Motive: Integrare date din surse multiple, Optimizarea resurselor, Adaptare la schimbări infrastructură IoT, Gestionarea erorilor/latențelor
- Tipuri: Redistribuire, Fusionare, Separare, Reordonare, Transformare Format
Identificarea și Gestionarea datelor lipsă
- Cauze frecvente: Defecțiuni hardware, Probleme de conectivitate, Erori de transmisie, Deficienţe software, Factori externi
- Validare în timp real: Comparare cu limitele acceptabile sau modele referință
- Detectare goluri temporale: Monitorizare frecvență transmitere
- Analiza statistică: Identificarea valorilor aberante
- Monitorizare erori transmisie: Verificare rapoarte transmisie
- Gestionare: Imputare (interpolare liniară, bazate pe medii, predictive), Procesare la margine, Măsuri de redundanță, Stocare tampon, Îmbunătățiri arhitectură/notificări, Excludere
Algoritmi ML utilizați pentru imputarea datelor
- Modele avansate: Random Forest, Gradient Boosting
- Modele Deep Learning: Rețele neuronale dense sau convoluționale, Rețele neuronale recurente (RNN) sau LSTM
Random Forest
- Clasificator care conține mai mulți arbori de decizie pe subseturi ale datelor
- Media predictiilor pentru îmbunătățirea acurateții
Gradient Boosting
- Tehnică ML care construiește un ansamblu de modele slabe pentru a forma un model puternic
- Antrenare iterativă pentru a corecta greșelile modelului anterior
ARIMA (AutoRegressive Integrated Moving Average)
- Model statistic pentru prognoza seriilor temporale, potrivit pentru datele care prezintă o dependență în timp
LSTM (Long Short-Term Memory)
- Un tip de RNN, potrivit pentru fluxuri de date complexe și neregulate
- Aplicatii in IoT: Prelucrarea datelor, Predictie, Detectarea anomaliilor
Filtre digitale
- Filtru mediu mobil (Moving Average)
- Filtru median
- Filtru Kalman
- Transformata Wavelet
Detectare și eliminare anomalii
- Metode statistice: Analiza deviației standard, Interquartile Range (IQR)
- Metode bazate pe învăţare automată: Clustering (K-means, DBScan), Regresia robustă, Isolation Forest, One-Class SVM, Autoencoders
- Metode bazate pe seriile temporale: Analiza sezonieră
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.