Apache Kafka și Spark - Quiz Teoretic

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Care dintre următoarele este o caracteristică cheie a platformei Apache Kafka?

  • Stocare durabilă a datelor
  • Transportul în timp real al fluxurilor masive de date (correct)
  • Gestionarea procesării grafurilor
  • Analiza datelor la scară largă

Care dintre următoarele componente ale Apache Kafka este responsabilă pentru stocarea mesajelor până când sunt necesare?

  • Producer
  • Consumer
  • Topic
  • Broker (correct)

Care dintre următoarele componente din Apache Spark este responsabilă pentru gestionarea procesării distribuite și comunicării cu clusterele?

  • Spark Core (correct)
  • Spark Streaming
  • Spark SQL
  • Spark MLlib

Care dintre următoarele metode bazate pe serii temporale poate fi utilizată pentru detectarea anomaliilor?

<p>Analiza sezonieră (C)</p> Signup and view all the answers

Care dintre următoarele este o caracteristică a motorului de analiză Apache Spark?

<p>Interfață prietenoasă pentru programarea clusterele (C)</p> Signup and view all the answers

Care dintre următoarele este un avantaj al utilizării Apache Spark pentru analiza datelor?

<p>Performanță ridicată datorită procesării în memorie (B)</p> Signup and view all the answers

Care este scopul principal al unui filtru mediu mobil?

<p>A netezi semnalul și a reduce fluctuațiile bruște cauzate de zgomot (B)</p> Signup and view all the answers

Ce componentă din Kafka este responsabilă pentru gestionarea și supravegherea brokerilor, asigurându-se că aceștia funcționează corect împreună?

<p>Zookeeper (A)</p> Signup and view all the answers

Care este diferența principală între un filtru mediu mobil simplu și un filtru mediu mobil ponderat?

<p>Filtrul mediu mobil simplu acordă o greutate uniformă tuturor valorilor din fereastră, în timp ce filtru mediu mobil ponderat acordă ponderi mai mari valorilor recente (D)</p> Signup and view all the answers

Ce tip de filtru este cel mai eficient pentru a elimina valorile extreme din datele colectate de senzori?

<p>Filtru median (A)</p> Signup and view all the answers

Care dintre următoarele este un avantaj al utilizării Apache Spark pentru procesarea datelor?

<p>Procesare unificată pentru diferite tipuri de sarcini (D)</p> Signup and view all the answers

Care dintre următoarele caracteristici ale Apache Kafka este un avantaj pentru procesarea datelor în timp real?

<p>Scalabilitate (B)</p> Signup and view all the answers

Care dintre următoarele afirmații este adevărată despre modelarea prin ARIMA și LSTM?

<p>Modelarea prin LSTM este mai complexă de implementat decât modelarea prin ARIMA (B)</p> Signup and view all the answers

Care dintre următoarele este o tehnică de filtrare temporală în contextul IoT?

<p>Transmițând date despre temperatura exterioară o dată la fiecare oră (A)</p> Signup and view all the answers

Care dintre următoarele este un exemplu de filtrare spatială în IoT?

<p>Utilizarea senzorilor de temperatură doar în zonele cu risc de îngheț (A)</p> Signup and view all the answers

Care dintre următoarele este un obiectiv al normalizării datelor în IoT?

<p>Crearea unui format standard pentru datele colectate de la diverse surse (B)</p> Signup and view all the answers

Care dintre următoarele este o tehnică comună de normalizare a datelor în IoT?

<p>Convertirea unităților de măsură din metri în picioare (A)</p> Signup and view all the answers

Care dintre următoarele este un obiectiv al agregării datelor în IoT?

<p>Reducerea volumului de date transmise prin rețea (C)</p> Signup and view all the answers

Care tip de agregare implică combinarea datelor pe baza locației geografice?

<p>Agregare spațială (B)</p> Signup and view all the answers

Care dintre următoarele este un exemplu de agregare temporală?

<p>Calculând media temperaturii din fiecare oră (A)</p> Signup and view all the answers

Care dintre următoarele este un tip de agregare care se bazează pe evenimente specifice?

<p>Agregare evenimentuală (B)</p> Signup and view all the answers

Ce funcționalitate permite trimiterea de comenzi către dispozitivele conectate?

<p>Control la distanță (D)</p> Signup and view all the answers

Ce sistem permite monitorizarea dispozitivelor pe hărți interactive?

<p>Geolocație (D)</p> Signup and view all the answers

Ce metodă este utilizată pentru actualizări de firmware over-the-air (OTA)?

<p>Firmware Updates (D)</p> Signup and view all the answers

Ce tip de analiză a datelor este realizat la nivelul dispozitivelor sau gateway-urilor?

<p>Edge Analytics (B)</p> Signup and view all the answers

Ce dispozitiv din ecosistemul Particle IoT este destinat conectivității Wi-Fi?

<p>Argon (D)</p> Signup and view all the answers

Ce sistem oferă un control granular al permisiunilor utilizatorilor?

<p>RBAC (A)</p> Signup and view all the answers

Ce modul anterior a fost retras, dar a fost folosit pentru scenarii locale?

<p>Xenon (D)</p> Signup and view all the answers

Ce metodă de procesare a datelor permite definirea regulilor folosind un editor vizual?

<p>Rule Engine (D)</p> Signup and view all the answers

Ce permite integrarea cu Google Cloud IAM?

<p>Definirea politicilor de acces la resurse IoT (D)</p> Signup and view all the answers

Care dintre următoarele caracteristici aparține Microsoft Azure IoT Hub?

<p>Gestionarea de dispozitive prin Device Twin (B)</p> Signup and view all the answers

Ce protocol nu este suportat de Microsoft Azure IoT Hub?

<p>FTP (A)</p> Signup and view all the answers

Ce rol are Cloud Functions în ecosistemul Google Cloud IoT?

<p>Rularea de funcții serverless pentru procesarea datelor (C)</p> Signup and view all the answers

Ce caracteristică oferă Azure Active Directory în contextul Microsoft Azure IoT Hub?

<p>Control detaliat al accesului (C)</p> Signup and view all the answers

Ce permite Cloud Dataflow în contextul IoT?

<p>Procesarea fluxurilor de date IoT în timp real (B)</p> Signup and view all the answers

Care dintre următoarele opțiuni se referă la actualizările de firmware în Microsoft Azure IoT Hub?

<p>Firmware Over-the-Air (OTA) (A)</p> Signup and view all the answers

Ce funcționalitate oferă Google Cloud Pub/Sub pentru dispozitivele IoT?

<p>Transmisia de date pentru procesarea în timp real (D)</p> Signup and view all the answers

Care dintre următoarele afirmații despre Filtrul Kalman este adevărată?

<p>Filtrul Kalman integrează datele reale și ajustează predicția, reducând incertitudinea. (C)</p> Signup and view all the answers

Ce este Transformata Wavelet?

<p>O metodă de descompunere a datelor în niveluri de rezoluție, folosind funcții wavelet. (D)</p> Signup and view all the answers

Care dintre următoarele afirmații referitoare la aplicarea ferestrei glisante este adevărată?

<p>Fereastra glisantă poate fi folosită pentru a identifica modele și tendințe în date. (C)</p> Signup and view all the answers

Care dintre următoarele afirmații despre Transformata Wavelet este adevărată?

<p>Transformata Wavelet descompune un semnal în mai multe niveluri de rezoluție folosind funcții wavelet. (D)</p> Signup and view all the answers

Care dintre următoarele afirmații despre aplicarea ferestrei glisante este corecta?

<p>Fereastra glisantă poate fi folosită pentru a calcula media datelor din setul de date. (D)</p> Signup and view all the answers

Flashcards

Detectarea anomaliilor

Identificarea abaterilor în date comparându-le cu valorile istorice.

ARIMA/LSTM

Modele statistice care antrenează comportamentele normale pentru detectarea abaterilor.

Filtru mediu mobil

Un filtru care elimină zgomotul din date calculând media pe o fereastră de timp.

Mediu mobil simplu

Tip de filtru mediu mobil unde toate valorile au greutate egală la calculul mediei.

Signup and view all the flashcards

Filtrul median

Înlocuiește fiecare valoare din semnal cu mediana valorilor dintr-o fereastră fixă.

Signup and view all the flashcards

Apache Kafka

O platformă care transportă fluxuri mari de date în timp real.

Signup and view all the flashcards

Producer

Componenta care creează sau trimite mesaje în Kafka.

Signup and view all the flashcards

Broker

Primește mesaje de la producători și le stochează temporar.

Signup and view all the flashcards

Topic

Modul în care sunt clasificate mesajele în Kafka.

Signup and view all the flashcards

Apache Spark

Un motor open-source pentru analiza de date la scară largă.

Signup and view all the flashcards

Spark SQL

Permite interogarea datelor folosind interogări SQL.

Signup and view all the flashcards

Durabilitate în Kafka

Asigură stocarea sigură a datelor și gestionarea căderilor de sistem.

Signup and view all the flashcards

Scalabilitate

Capacitatea de a gestiona creșterea fluxurilor de date eficient.

Signup and view all the flashcards

Filtrare temporală

Trimite date doar la intervale specifice de timp.

Signup and view all the flashcards

Filtrare spațială

Selectează date relevante doar din anumite regiuni geografice.

Signup and view all the flashcards

Filtrare bazată pe evenimente

Datele sunt transmise doar în cazul apariției unui eveniment specific.

Signup and view all the flashcards

Normalizarea în IoT

Standardizarea datelor pentru compatibilitate și comparabilitate.

Signup and view all the flashcards

Conversia unităților de măsură

Transformarea valorilor dintr-o unitate în alta (ex: lire în kilograme).

Signup and view all the flashcards

Agregarea în IoT

Gruparea, combinarea sau sumarizarea datelor brute pentru a extrage informații utile.

Signup and view all the flashcards

Agregare temporală

Datele sunt grupate pe baza intervalelor de timp, cum ar fi media temperaturilor pe oră.

Signup and view all the flashcards

Agregare statistică

Utilizarea funcțiilor statistice pentru a analiza date, cum ar fi medii sau suma.

Signup and view all the flashcards

Fereastră glisantă

O metodă de procesare a datelor prin sortarea valorilor într-o fereastră mobilă.

Signup and view all the flashcards

Filtrul Kalman

Un algoritm recursiv care prezice starea viitoare a unui sistem și o actualizează cu date observate.

Signup and view all the flashcards

Pasul de predicție

Etapa în care se folosește un model matematic pentru a anticipa starea unui sistem.

Signup and view all the flashcards

Dezcompoziție Wavelet

Separa un semnal în mai multe niveluri de rezoluție folosind funcții wavelet.

Signup and view all the flashcards

Reconstrucție Wavelet

Combina componentele filtrate pentru a restaura datele originale fără zgomot.

Signup and view all the flashcards

Control granular al accesului

Definirea politicilor de acces la resurse în Google Cloud folosind IAM.

Signup and view all the flashcards

Google Cloud Pub/Sub

Un serviciu care permite transmiterea datelor între dispozitive și procese în timp real.

Signup and view all the flashcards

BigQuery

Un serviciu de analiză pentru volume mari de date IoT folosind SQL.

Signup and view all the flashcards

Cloud Dataflow

Utilizat pentru procesarea fluxurilor de date IoT în timp real.

Signup and view all the flashcards

Microsoft Azure IoT Hub

Un serviciu gestionat pentru conectarea și controlul dispozitivelor IoT la Microsoft Azure.

Signup and view all the flashcards

Device Twin

Modele digitale ale dispozitivelor care stochează metadate și starea acestora.

Signup and view all the flashcards

Autentificare bazată pe certificat

Metoda de autentificare care folosește chei sau certificate pentru securitate.

Signup and view all the flashcards

Firmware Over-the-Air (OTA)

Permite actualizarea firmware-ului dispozitivelor de la distanță.

Signup and view all the flashcards

Control la distanță

Permite trimiterea de comenzi către dispozitivele conectate.

Signup and view all the flashcards

Firmware Updates

Suportă actualizări de firmware over-the-air (OTA) pentru dispozitive compatibile.

Signup and view all the flashcards

Dashboard-uri personalizabile

Oferă un editor vizual pentru a crea dashboard-uri care afișează telemetria în timp real.

Signup and view all the flashcards

Alertare

Posibilitatea de a seta reguli și alerte bazate pe evenimente sau praguri definite.

Signup and view all the flashcards

Geolocație

Suport pentru monitorizarea dispozitivelor pe hărți interactive.

Signup and view all the flashcards

Rule Engine

Un motor pentru procesarea fluxurilor de date și declanșarea automată a acțiunilor.

Signup and view all the flashcards

Edge Analytics

Funcționalități pentru analizarea datelor la nivelul dispozitivelor, reducând dependența de cloud.

Signup and view all the flashcards

Autentificare și autorizare

Suportă autentificarea utilizatorilor și dispozitivelor prin chei API, OAuth 2.0 și token-uri.

Signup and view all the flashcards

Study Notes

Analiza, Prelucrarea și Curățarea Datelor IoT (Cursul 6)

  • Acest curs se concentrează pe analiza, prelucrarea și curățarea datelor provenite din Internetul obiectelor (IoT).

Cuprins

  • Instrumente și tehnologii
  • Filtrare, Normalizare și Agregare în IoT
  • Identificarea și gestionarea datelor lipsă
  • Eliminarea anomaliilor și detectarea zgomotului
  • Validarea datelor
  • Modele ARIMA, LSTM

Instrumente și tehnologii (Apache Kafka)

  • Asemănător unui serviciu de curierat, o platformă pentru transportul unor fluxuri masive de date de la un punct la altul.
  • Kafka gestionează transportul datelor, asigurând livrarea intacte și la timp.
  • Caracteristici:
    • Procesare în timp real (poate gestiona milioane de surse de date).
    • Scalabilitate ridicată (poate stoca și gestiona căderi de sistem).
    • Durabilitate (asigurând că datele sunt stocate într-o manieră sigură).

Kafka - componente

  • Producer: Creează sau trimite mesaje.
  • Broker: Primește mesaje de la producător și le păstrează în siguranță până când sunt necesare.
  • Topic: Clasificarea mesajelor.
  • Partition: Împărțirea unui topic (ex. pe bază de date, luni, ani).
  • Consumer: Extrage mesaje din mediul de stocare.
  • Zookeeper: Supraveghează și gestionează brokerii.

Apache Spark

  • Un motor de analiză de date open-source pentru procesarea datelor la scară largă.
  • Oferă o interfață de programare a clusterelor cu mecanisme de analiză paralelă.
  • Caracteristici:
    • Performanță ridicată, folosind un motor de procesare în memorie.
    • Procesare unificată pentru diverse tipuri de sarcini (batch, streaming, SQL, machine learning).
    • Compatibilitate cu ecosistemul Hadoop (stocare durabilă).
    • API-uri prietenoase pentru limbaje populare (Python, Java, Scala, R).

Apache Spark - componente

  • Spark Core: Gestionează procesarea distribuită, comunicarea cu clusterele și manipularea datelor.
  • Spark SQL: Permise interogarea datelor folosind tehnici SQL.
  • Spark Streaming: Procesarea datelor în flux (streaming) aproape în timp real.
  • MLlib: Bibliotecă de machine learning.
  • GraphX: Bibliotecă pentru procesarea și analiza grafurilor (ex. rețele sociale).

Apache Kafka + Apache Spark

  • O soluție robustă pentru aplicații de procesare în flux (stream processing) în cadrul Big Data.
  • Integrarea Spark - Kafka permite citirea și procesarea datelor din Kafka folosind Spark Streaming pentru procesare în timp real.

Exemple de utilizare Apache Kafka + Apache Spark

  • Monitorizarea IoT (procesarea datelor de la senzori).
  • Detectarea fraudelor (monitorizarea tranzacțiilor).
  • Sisteme de recomandare (generarea de recomandări personalizate).
  • O platformă open-source pentru procesarea datelor distribuite și în timp real (stream processing).
  • Permite analiza continuă și procesarea batch.
  • Caracteristici:
    • Scalabilitate ridicată.
    • Toleranță la erori.
    • Flexibilitate în procesarea datelor.
  • JobManager: Coordonează execuția sarcinilor în cluster.
  • TaskManager/TaskManagers: Execută sarcinile alocate de JobManager.
  • State Backend: Stochează starea aplicației.
  • Checkpointing: Creează puncte de salvare pentru recuperare după erori.
  • Event Time vs. Processing Time: Mecanisme de procesare a datelor din flux logic.
  • Diferențe în funcțiile și performanța, în special pentru procesarea în flux și batch.
  • Procesarea în flux:
    • Apache Flink: Optimizat pentru stream processing și infinite fluxuri de date.
    • Apache Spark: Folosește un model micro-batch pentru procesarea în bucăți mici.
  • Procesare batch:
    • Apache Spark: Cunoscut pentru performanța și maturitatea în procesarea batch.

Filtrare, Normalizare și Agregare în IoT

  • Filtrare: Procesul de selectare a informațiilor relevante dintr-un flux mare de date.
  • Obiectivele filtrării: Reducerea volumului de date, excluderea datelor redundante sau eronate, îmbunătățirea eficienței analizelor.
  • Implementare: La nivel de senzor, gateway sau procesare centrală.
  • Tipuri de filtrare:
    • Bazată pe praguri (threshold-based).
    • Temporală.
    • Spaţială.
    • Evenimentală (bazată pe evenimente).

Normalizare în IoT

  • Standardizarea datelor pentru compatibilitate.
  • Creaare de reprezentări consistente ale datelor.
  • Facilitarea integrării datelor din surse diverse.
  • Asigurarea interoperabilității între dispozitive IoT.

Tehnici comune de normalizare

  • Conversia unităților de măsurare (ex. livre în kilograme).
  • Scalarea valorilor într-un interval standard.
  • Conversia la formate comune.

Agregare în IoT

  • Gruparea, combinarea sau sumarizarea datelor brute pentru a reduce volumul și a extrage informații utile. -Obiectivele agregării: Reducerea volumului de date, crearea de rapoarte concise și semnificative, identificarea tendințelor sau modelelor în date. Tipuri de agregare
  • Temporală (ex. media temperaturilor pe oră).
  • Spațială (ex. media calității aerului într-o zonă).
  • Statistică (ex. sumă, medie, minim, maxim).
  • Evenimentală (ex. număr de alarme pe interval).

Resampling în IoT

  • Modificarea frecvenței datelor într-un flux de date pentru a se adapta la cerințele specifice de procesare.
  • Tipuri:
  • Downsampling (reducerea frecvenței).
  • Upsampling (creșterea frecvenței):
  • Agregare temporală.
  • Interpolare.

Reconfigurarea fluxurilor de date în IoT

  • Procesul de modificare a structurii, direcției sau conținutului fluxurilor de date pentru a îndeplini noile cerințe.
  • Motive: Integrarea datelor, optimizarea utilizării resurselor etc.

Identificarea și gestionarea datelor lipsă

  • Cauze frecvente: Defecţiuni hardware, probleme de conectivitate, erori de transmisie, deficiențe software, factori externi.
  • Validarea datelor în timp real: Compararea valorilor recepționate cu limitele acceptabile sau cu modele de referință.
  • Identificare goluri temporale: Monitorizarea frecvenței de transmitere a datelor.
  • Analiza statistică: Identificarea valorilor lipsă/aberante.

Gestionarea datelor lipsă

  • Imputarea datelor lipsă: Metode de estimare a valorilor lipsă (interpolare liniară, metode bazate pe medii, modele predictive, metode avansate).
  • Prelucrare la margine (Edge Computing): Detectarea și completarea datelor lipsă direct la dispozitiv sau gateway.
  • Măsuri de redundanță: Utilizarea unor senzori suplimentari pentru a acoperi goluri de date.
  • Stocare tampon (Buffering): Stocarea temporară a datelor în caz de pierdere a conectivității.
  • Îmbunătățirea arhitecturii rețelei: Utilizarea unei arhitecturi reziliente, notificări de erori etc.

Algoritmi ML utilizați pentru imputarea datelor lipsă

  • Modele avansate: Random Forest, Gradient Boosting.
  • Modele de deep learning: Ronete neuronale dense/convoluționale, Ronete neuronale recurente (RNN) sau LSTM.

Filtru mediu mobil (Moving Average)

  • Unul dintre cele mai simple filtre digitale pentru eliminarea zgomotului.
  • Înlocuiește fiecare valoare cu media valorilor dintr-o fereastră glisantă.
  • Tipuri: Mediu mobil simplu, Mediu mobil ponderat.

Filtru median

  • Înlocuiește fiecare valoare cu mediana valorilor dintr-o fereastră glisantă.
  • Eficient pentru eliminarea valorilor extreme.

Filtru Kalman

  • Algoritm recursiv care folosește un model matematic pentru a prezice stări și incertitudini asociate.
  • Ajustează predicțiile cu informații reale și reduce incertitudinea.

Transformata Wavelet

  • Generalizarea transformatei Fourier pentru descompunerea semnalelor în frecvențe.
  • Permite separarea semnalelor de zgomot.

LSTM în IoT

  • Tip de rețea neuronală recurentă (RNN) pentru învățarea dependențelor pe termen lung în date secvențiale.
  • Folosită în IoT pentru prelucrarea datelor, detectarea de tipare și predicții.
  • Colectarea, preprocesarea datelor (normalizare, curățare, definirea seriilor temporale), intrarea în modelul LSTM (date transformate).

Decomisionare (Offboarding)

  • Procesul de retragere sigură a unui dispozitiv IoT dintr-o rețea.
  • Motive: Înlocuirea dispozitivului vechi, defecțiuni, upgrade la noi tehnologii etc.
  • Etape: Evaluarea dispozitivului, deconectarea dispozitivului din rețea, resetarea/ștergerea datelor, monitorizarea și validarea procesului.

Platforme de management IoT cloud

  • AWS IoT Core.
  • Google Cloud IoT Core.
  • Microsoft Azure IoT Hub.

Platforme independente pentru IoT

  • ThingsBoard.
  • Particle IoT.
  • Balena IoT.

Platforme de securitate IoT

  • Armis Security.
  • Forescout.

Caracteristici și Comparații

  • Comparațiile între platforme (caracteristici, funcţionalități, integrare, costuri etc.) sunt prezentate în prezentări.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser