Podcast
Questions and Answers
Care dintre următoarele este o caracteristică cheie a platformei Apache Kafka?
Care dintre următoarele este o caracteristică cheie a platformei Apache Kafka?
Care dintre următoarele componente ale Apache Kafka este responsabilă pentru stocarea mesajelor până când sunt necesare?
Care dintre următoarele componente ale Apache Kafka este responsabilă pentru stocarea mesajelor până când sunt necesare?
Care dintre următoarele componente din Apache Spark este responsabilă pentru gestionarea procesării distribuite și comunicării cu clusterele?
Care dintre următoarele componente din Apache Spark este responsabilă pentru gestionarea procesării distribuite și comunicării cu clusterele?
Care dintre următoarele metode bazate pe serii temporale poate fi utilizată pentru detectarea anomaliilor?
Care dintre următoarele metode bazate pe serii temporale poate fi utilizată pentru detectarea anomaliilor?
Signup and view all the answers
Care dintre următoarele este o caracteristică a motorului de analiză Apache Spark?
Care dintre următoarele este o caracteristică a motorului de analiză Apache Spark?
Signup and view all the answers
Care dintre următoarele este un avantaj al utilizării Apache Spark pentru analiza datelor?
Care dintre următoarele este un avantaj al utilizării Apache Spark pentru analiza datelor?
Signup and view all the answers
Care este scopul principal al unui filtru mediu mobil?
Care este scopul principal al unui filtru mediu mobil?
Signup and view all the answers
Ce componentă din Kafka este responsabilă pentru gestionarea și supravegherea brokerilor, asigurându-se că aceștia funcționează corect împreună?
Ce componentă din Kafka este responsabilă pentru gestionarea și supravegherea brokerilor, asigurându-se că aceștia funcționează corect împreună?
Signup and view all the answers
Care este diferența principală între un filtru mediu mobil simplu și un filtru mediu mobil ponderat?
Care este diferența principală între un filtru mediu mobil simplu și un filtru mediu mobil ponderat?
Signup and view all the answers
Ce tip de filtru este cel mai eficient pentru a elimina valorile extreme din datele colectate de senzori?
Ce tip de filtru este cel mai eficient pentru a elimina valorile extreme din datele colectate de senzori?
Signup and view all the answers
Care dintre următoarele este un avantaj al utilizării Apache Spark pentru procesarea datelor?
Care dintre următoarele este un avantaj al utilizării Apache Spark pentru procesarea datelor?
Signup and view all the answers
Care dintre următoarele caracteristici ale Apache Kafka este un avantaj pentru procesarea datelor în timp real?
Care dintre următoarele caracteristici ale Apache Kafka este un avantaj pentru procesarea datelor în timp real?
Signup and view all the answers
Care dintre următoarele afirmații este adevărată despre modelarea prin ARIMA și LSTM?
Care dintre următoarele afirmații este adevărată despre modelarea prin ARIMA și LSTM?
Signup and view all the answers
Care dintre următoarele este o tehnică de filtrare temporală în contextul IoT?
Care dintre următoarele este o tehnică de filtrare temporală în contextul IoT?
Signup and view all the answers
Care dintre următoarele este un exemplu de filtrare spatială în IoT?
Care dintre următoarele este un exemplu de filtrare spatială în IoT?
Signup and view all the answers
Care dintre următoarele este un obiectiv al normalizării datelor în IoT?
Care dintre următoarele este un obiectiv al normalizării datelor în IoT?
Signup and view all the answers
Care dintre următoarele este o tehnică comună de normalizare a datelor în IoT?
Care dintre următoarele este o tehnică comună de normalizare a datelor în IoT?
Signup and view all the answers
Care dintre următoarele este un obiectiv al agregării datelor în IoT?
Care dintre următoarele este un obiectiv al agregării datelor în IoT?
Signup and view all the answers
Care tip de agregare implică combinarea datelor pe baza locației geografice?
Care tip de agregare implică combinarea datelor pe baza locației geografice?
Signup and view all the answers
Care dintre următoarele este un exemplu de agregare temporală?
Care dintre următoarele este un exemplu de agregare temporală?
Signup and view all the answers
Care dintre următoarele este un tip de agregare care se bazează pe evenimente specifice?
Care dintre următoarele este un tip de agregare care se bazează pe evenimente specifice?
Signup and view all the answers
Ce funcționalitate permite trimiterea de comenzi către dispozitivele conectate?
Ce funcționalitate permite trimiterea de comenzi către dispozitivele conectate?
Signup and view all the answers
Ce sistem permite monitorizarea dispozitivelor pe hărți interactive?
Ce sistem permite monitorizarea dispozitivelor pe hărți interactive?
Signup and view all the answers
Ce metodă este utilizată pentru actualizări de firmware over-the-air (OTA)?
Ce metodă este utilizată pentru actualizări de firmware over-the-air (OTA)?
Signup and view all the answers
Ce tip de analiză a datelor este realizat la nivelul dispozitivelor sau gateway-urilor?
Ce tip de analiză a datelor este realizat la nivelul dispozitivelor sau gateway-urilor?
Signup and view all the answers
Ce dispozitiv din ecosistemul Particle IoT este destinat conectivității Wi-Fi?
Ce dispozitiv din ecosistemul Particle IoT este destinat conectivității Wi-Fi?
Signup and view all the answers
Ce sistem oferă un control granular al permisiunilor utilizatorilor?
Ce sistem oferă un control granular al permisiunilor utilizatorilor?
Signup and view all the answers
Ce modul anterior a fost retras, dar a fost folosit pentru scenarii locale?
Ce modul anterior a fost retras, dar a fost folosit pentru scenarii locale?
Signup and view all the answers
Ce metodă de procesare a datelor permite definirea regulilor folosind un editor vizual?
Ce metodă de procesare a datelor permite definirea regulilor folosind un editor vizual?
Signup and view all the answers
Ce permite integrarea cu Google Cloud IAM?
Ce permite integrarea cu Google Cloud IAM?
Signup and view all the answers
Care dintre următoarele caracteristici aparține Microsoft Azure IoT Hub?
Care dintre următoarele caracteristici aparține Microsoft Azure IoT Hub?
Signup and view all the answers
Ce protocol nu este suportat de Microsoft Azure IoT Hub?
Ce protocol nu este suportat de Microsoft Azure IoT Hub?
Signup and view all the answers
Ce rol are Cloud Functions în ecosistemul Google Cloud IoT?
Ce rol are Cloud Functions în ecosistemul Google Cloud IoT?
Signup and view all the answers
Ce caracteristică oferă Azure Active Directory în contextul Microsoft Azure IoT Hub?
Ce caracteristică oferă Azure Active Directory în contextul Microsoft Azure IoT Hub?
Signup and view all the answers
Ce permite Cloud Dataflow în contextul IoT?
Ce permite Cloud Dataflow în contextul IoT?
Signup and view all the answers
Care dintre următoarele opțiuni se referă la actualizările de firmware în Microsoft Azure IoT Hub?
Care dintre următoarele opțiuni se referă la actualizările de firmware în Microsoft Azure IoT Hub?
Signup and view all the answers
Ce funcționalitate oferă Google Cloud Pub/Sub pentru dispozitivele IoT?
Ce funcționalitate oferă Google Cloud Pub/Sub pentru dispozitivele IoT?
Signup and view all the answers
Care dintre următoarele afirmații despre Filtrul Kalman este adevărată?
Care dintre următoarele afirmații despre Filtrul Kalman este adevărată?
Signup and view all the answers
Ce este Transformata Wavelet?
Ce este Transformata Wavelet?
Signup and view all the answers
Care dintre următoarele afirmații referitoare la aplicarea ferestrei glisante este adevărată?
Care dintre următoarele afirmații referitoare la aplicarea ferestrei glisante este adevărată?
Signup and view all the answers
Care dintre următoarele afirmații despre Transformata Wavelet este adevărată?
Care dintre următoarele afirmații despre Transformata Wavelet este adevărată?
Signup and view all the answers
Care dintre următoarele afirmații despre aplicarea ferestrei glisante este corecta?
Care dintre următoarele afirmații despre aplicarea ferestrei glisante este corecta?
Signup and view all the answers
Study Notes
Analiza, Prelucrarea și Curățarea Datelor IoT (Cursul 6)
- Acest curs se concentrează pe analiza, prelucrarea și curățarea datelor provenite din Internetul obiectelor (IoT).
Cuprins
- Instrumente și tehnologii
- Filtrare, Normalizare și Agregare în IoT
- Identificarea și gestionarea datelor lipsă
- Eliminarea anomaliilor și detectarea zgomotului
- Validarea datelor
- Modele ARIMA, LSTM
Instrumente și tehnologii (Apache Kafka)
- Asemănător unui serviciu de curierat, o platformă pentru transportul unor fluxuri masive de date de la un punct la altul.
- Kafka gestionează transportul datelor, asigurând livrarea intacte și la timp.
- Caracteristici:
- Procesare în timp real (poate gestiona milioane de surse de date).
- Scalabilitate ridicată (poate stoca și gestiona căderi de sistem).
- Durabilitate (asigurând că datele sunt stocate într-o manieră sigură).
Kafka - componente
- Producer: Creează sau trimite mesaje.
- Broker: Primește mesaje de la producător și le păstrează în siguranță până când sunt necesare.
- Topic: Clasificarea mesajelor.
- Partition: Împărțirea unui topic (ex. pe bază de date, luni, ani).
- Consumer: Extrage mesaje din mediul de stocare.
- Zookeeper: Supraveghează și gestionează brokerii.
Apache Spark
- Un motor de analiză de date open-source pentru procesarea datelor la scară largă.
- Oferă o interfață de programare a clusterelor cu mecanisme de analiză paralelă.
- Caracteristici:
- Performanță ridicată, folosind un motor de procesare în memorie.
- Procesare unificată pentru diverse tipuri de sarcini (batch, streaming, SQL, machine learning).
- Compatibilitate cu ecosistemul Hadoop (stocare durabilă).
- API-uri prietenoase pentru limbaje populare (Python, Java, Scala, R).
Apache Spark - componente
- Spark Core: Gestionează procesarea distribuită, comunicarea cu clusterele și manipularea datelor.
- Spark SQL: Permise interogarea datelor folosind tehnici SQL.
- Spark Streaming: Procesarea datelor în flux (streaming) aproape în timp real.
- MLlib: Bibliotecă de machine learning.
- GraphX: Bibliotecă pentru procesarea și analiza grafurilor (ex. rețele sociale).
Apache Kafka + Apache Spark
- O soluție robustă pentru aplicații de procesare în flux (stream processing) în cadrul Big Data.
- Integrarea Spark - Kafka permite citirea și procesarea datelor din Kafka folosind Spark Streaming pentru procesare în timp real.
Exemple de utilizare Apache Kafka + Apache Spark
- Monitorizarea IoT (procesarea datelor de la senzori).
- Detectarea fraudelor (monitorizarea tranzacțiilor).
- Sisteme de recomandare (generarea de recomandări personalizate).
Apache Flink
- O platformă open-source pentru procesarea datelor distribuite și în timp real (stream processing).
- Permite analiza continuă și procesarea batch.
- Caracteristici:
- Scalabilitate ridicată.
- Toleranță la erori.
- Flexibilitate în procesarea datelor.
Apache Flink - componente
- JobManager: Coordonează execuția sarcinilor în cluster.
- TaskManager/TaskManagers: Execută sarcinile alocate de JobManager.
- State Backend: Stochează starea aplicației.
- Checkpointing: Creează puncte de salvare pentru recuperare după erori.
- Event Time vs. Processing Time: Mecanisme de procesare a datelor din flux logic.
Apache Flink vs Apache Spark
- Diferențe în funcțiile și performanța, în special pentru procesarea în flux și batch.
- Procesarea în flux:
- Apache Flink: Optimizat pentru stream processing și infinite fluxuri de date.
- Apache Spark: Folosește un model micro-batch pentru procesarea în bucăți mici.
- Procesare batch:
- Apache Spark: Cunoscut pentru performanța și maturitatea în procesarea batch.
Filtrare, Normalizare și Agregare în IoT
- Filtrare: Procesul de selectare a informațiilor relevante dintr-un flux mare de date.
- Obiectivele filtrării: Reducerea volumului de date, excluderea datelor redundante sau eronate, îmbunătățirea eficienței analizelor.
- Implementare: La nivel de senzor, gateway sau procesare centrală.
-
Tipuri de filtrare:
- Bazată pe praguri (threshold-based).
- Temporală.
- Spaţială.
- Evenimentală (bazată pe evenimente).
Normalizare în IoT
- Standardizarea datelor pentru compatibilitate.
- Creaare de reprezentări consistente ale datelor.
- Facilitarea integrării datelor din surse diverse.
- Asigurarea interoperabilității între dispozitive IoT.
Tehnici comune de normalizare
- Conversia unităților de măsurare (ex. livre în kilograme).
- Scalarea valorilor într-un interval standard.
- Conversia la formate comune.
Agregare în IoT
- Gruparea, combinarea sau sumarizarea datelor brute pentru a reduce volumul și a extrage informații utile. -Obiectivele agregării: Reducerea volumului de date, crearea de rapoarte concise și semnificative, identificarea tendințelor sau modelelor în date. Tipuri de agregare
- Temporală (ex. media temperaturilor pe oră).
- Spațială (ex. media calității aerului într-o zonă).
- Statistică (ex. sumă, medie, minim, maxim).
- Evenimentală (ex. număr de alarme pe interval).
Resampling în IoT
- Modificarea frecvenței datelor într-un flux de date pentru a se adapta la cerințele specifice de procesare.
- Tipuri:
- Downsampling (reducerea frecvenței).
- Upsampling (creșterea frecvenței):
- Agregare temporală.
- Interpolare.
Reconfigurarea fluxurilor de date în IoT
- Procesul de modificare a structurii, direcției sau conținutului fluxurilor de date pentru a îndeplini noile cerințe.
- Motive: Integrarea datelor, optimizarea utilizării resurselor etc.
Identificarea și gestionarea datelor lipsă
- Cauze frecvente: Defecţiuni hardware, probleme de conectivitate, erori de transmisie, deficiențe software, factori externi.
- Validarea datelor în timp real: Compararea valorilor recepționate cu limitele acceptabile sau cu modele de referință.
- Identificare goluri temporale: Monitorizarea frecvenței de transmitere a datelor.
- Analiza statistică: Identificarea valorilor lipsă/aberante.
Gestionarea datelor lipsă
- Imputarea datelor lipsă: Metode de estimare a valorilor lipsă (interpolare liniară, metode bazate pe medii, modele predictive, metode avansate).
- Prelucrare la margine (Edge Computing): Detectarea și completarea datelor lipsă direct la dispozitiv sau gateway.
- Măsuri de redundanță: Utilizarea unor senzori suplimentari pentru a acoperi goluri de date.
- Stocare tampon (Buffering): Stocarea temporară a datelor în caz de pierdere a conectivității.
- Îmbunătățirea arhitecturii rețelei: Utilizarea unei arhitecturi reziliente, notificări de erori etc.
Algoritmi ML utilizați pentru imputarea datelor lipsă
- Modele avansate: Random Forest, Gradient Boosting.
- Modele de deep learning: Ronete neuronale dense/convoluționale, Ronete neuronale recurente (RNN) sau LSTM.
Filtru mediu mobil (Moving Average)
- Unul dintre cele mai simple filtre digitale pentru eliminarea zgomotului.
- Înlocuiește fiecare valoare cu media valorilor dintr-o fereastră glisantă.
- Tipuri: Mediu mobil simplu, Mediu mobil ponderat.
Filtru median
- Înlocuiește fiecare valoare cu mediana valorilor dintr-o fereastră glisantă.
- Eficient pentru eliminarea valorilor extreme.
Filtru Kalman
- Algoritm recursiv care folosește un model matematic pentru a prezice stări și incertitudini asociate.
- Ajustează predicțiile cu informații reale și reduce incertitudinea.
Transformata Wavelet
- Generalizarea transformatei Fourier pentru descompunerea semnalelor în frecvențe.
- Permite separarea semnalelor de zgomot.
LSTM în IoT
- Tip de rețea neuronală recurentă (RNN) pentru învățarea dependențelor pe termen lung în date secvențiale.
- Folosită în IoT pentru prelucrarea datelor, detectarea de tipare și predicții.
- Colectarea, preprocesarea datelor (normalizare, curățare, definirea seriilor temporale), intrarea în modelul LSTM (date transformate).
Decomisionare (Offboarding)
- Procesul de retragere sigură a unui dispozitiv IoT dintr-o rețea.
- Motive: Înlocuirea dispozitivului vechi, defecțiuni, upgrade la noi tehnologii etc.
- Etape: Evaluarea dispozitivului, deconectarea dispozitivului din rețea, resetarea/ștergerea datelor, monitorizarea și validarea procesului.
Platforme de management IoT cloud
- AWS IoT Core.
- Google Cloud IoT Core.
- Microsoft Azure IoT Hub.
Platforme independente pentru IoT
- ThingsBoard.
- Particle IoT.
- Balena IoT.
Platforme de securitate IoT
- Armis Security.
- Forescout.
Caracteristici și Comparații
- Comparațiile între platforme (caracteristici, funcţionalități, integrare, costuri etc.) sunt prezentate în prezentări.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Acest quiz testează cunoștințele tale despre caracteristicile și compozițiile platformelor Apache Kafka și Apache Spark. Întrebările acoperă aspecte esențiale cum ar fi stocarea mesajelor și procesarea distribuită. Demonstrează-ți abilitățile și înțelegerea acestor tehnologii moderne de procesare a datelor.