Apache Kafka și Spark - Quiz Teoretic
42 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Care dintre următoarele este o caracteristică cheie a platformei Apache Kafka?

  • Stocare durabilă a datelor
  • Transportul în timp real al fluxurilor masive de date (correct)
  • Gestionarea procesării grafurilor
  • Analiza datelor la scară largă
  • Care dintre următoarele componente ale Apache Kafka este responsabilă pentru stocarea mesajelor până când sunt necesare?

  • Producer
  • Consumer
  • Topic
  • Broker (correct)
  • Care dintre următoarele componente din Apache Spark este responsabilă pentru gestionarea procesării distribuite și comunicării cu clusterele?

  • Spark Core (correct)
  • Spark Streaming
  • Spark SQL
  • Spark MLlib
  • Care dintre următoarele metode bazate pe serii temporale poate fi utilizată pentru detectarea anomaliilor?

    <p>Analiza sezonieră (C)</p> Signup and view all the answers

    Care dintre următoarele este o caracteristică a motorului de analiză Apache Spark?

    <p>Interfață prietenoasă pentru programarea clusterele (C)</p> Signup and view all the answers

    Care dintre următoarele este un avantaj al utilizării Apache Spark pentru analiza datelor?

    <p>Performanță ridicată datorită procesării în memorie (B)</p> Signup and view all the answers

    Care este scopul principal al unui filtru mediu mobil?

    <p>A netezi semnalul și a reduce fluctuațiile bruște cauzate de zgomot (B)</p> Signup and view all the answers

    Ce componentă din Kafka este responsabilă pentru gestionarea și supravegherea brokerilor, asigurându-se că aceștia funcționează corect împreună?

    <p>Zookeeper (A)</p> Signup and view all the answers

    Care este diferența principală între un filtru mediu mobil simplu și un filtru mediu mobil ponderat?

    <p>Filtrul mediu mobil simplu acordă o greutate uniformă tuturor valorilor din fereastră, în timp ce filtru mediu mobil ponderat acordă ponderi mai mari valorilor recente (D)</p> Signup and view all the answers

    Ce tip de filtru este cel mai eficient pentru a elimina valorile extreme din datele colectate de senzori?

    <p>Filtru median (A)</p> Signup and view all the answers

    Care dintre următoarele este un avantaj al utilizării Apache Spark pentru procesarea datelor?

    <p>Procesare unificată pentru diferite tipuri de sarcini (D)</p> Signup and view all the answers

    Care dintre următoarele caracteristici ale Apache Kafka este un avantaj pentru procesarea datelor în timp real?

    <p>Scalabilitate (B)</p> Signup and view all the answers

    Care dintre următoarele afirmații este adevărată despre modelarea prin ARIMA și LSTM?

    <p>Modelarea prin LSTM este mai complexă de implementat decât modelarea prin ARIMA (B)</p> Signup and view all the answers

    Care dintre următoarele este o tehnică de filtrare temporală în contextul IoT?

    <p>Transmițând date despre temperatura exterioară o dată la fiecare oră (A)</p> Signup and view all the answers

    Care dintre următoarele este un exemplu de filtrare spatială în IoT?

    <p>Utilizarea senzorilor de temperatură doar în zonele cu risc de îngheț (A)</p> Signup and view all the answers

    Care dintre următoarele este un obiectiv al normalizării datelor în IoT?

    <p>Crearea unui format standard pentru datele colectate de la diverse surse (B)</p> Signup and view all the answers

    Care dintre următoarele este o tehnică comună de normalizare a datelor în IoT?

    <p>Convertirea unităților de măsură din metri în picioare (A)</p> Signup and view all the answers

    Care dintre următoarele este un obiectiv al agregării datelor în IoT?

    <p>Reducerea volumului de date transmise prin rețea (C)</p> Signup and view all the answers

    Care tip de agregare implică combinarea datelor pe baza locației geografice?

    <p>Agregare spațială (B)</p> Signup and view all the answers

    Care dintre următoarele este un exemplu de agregare temporală?

    <p>Calculând media temperaturii din fiecare oră (A)</p> Signup and view all the answers

    Care dintre următoarele este un tip de agregare care se bazează pe evenimente specifice?

    <p>Agregare evenimentuală (B)</p> Signup and view all the answers

    Ce funcționalitate permite trimiterea de comenzi către dispozitivele conectate?

    <p>Control la distanță (D)</p> Signup and view all the answers

    Ce sistem permite monitorizarea dispozitivelor pe hărți interactive?

    <p>Geolocație (D)</p> Signup and view all the answers

    Ce metodă este utilizată pentru actualizări de firmware over-the-air (OTA)?

    <p>Firmware Updates (D)</p> Signup and view all the answers

    Ce tip de analiză a datelor este realizat la nivelul dispozitivelor sau gateway-urilor?

    <p>Edge Analytics (B)</p> Signup and view all the answers

    Ce dispozitiv din ecosistemul Particle IoT este destinat conectivității Wi-Fi?

    <p>Argon (D)</p> Signup and view all the answers

    Ce sistem oferă un control granular al permisiunilor utilizatorilor?

    <p>RBAC (A)</p> Signup and view all the answers

    Ce modul anterior a fost retras, dar a fost folosit pentru scenarii locale?

    <p>Xenon (D)</p> Signup and view all the answers

    Ce metodă de procesare a datelor permite definirea regulilor folosind un editor vizual?

    <p>Rule Engine (D)</p> Signup and view all the answers

    Ce permite integrarea cu Google Cloud IAM?

    <p>Definirea politicilor de acces la resurse IoT (D)</p> Signup and view all the answers

    Care dintre următoarele caracteristici aparține Microsoft Azure IoT Hub?

    <p>Gestionarea de dispozitive prin Device Twin (B)</p> Signup and view all the answers

    Ce protocol nu este suportat de Microsoft Azure IoT Hub?

    <p>FTP (A)</p> Signup and view all the answers

    Ce rol are Cloud Functions în ecosistemul Google Cloud IoT?

    <p>Rularea de funcții serverless pentru procesarea datelor (C)</p> Signup and view all the answers

    Ce caracteristică oferă Azure Active Directory în contextul Microsoft Azure IoT Hub?

    <p>Control detaliat al accesului (C)</p> Signup and view all the answers

    Ce permite Cloud Dataflow în contextul IoT?

    <p>Procesarea fluxurilor de date IoT în timp real (B)</p> Signup and view all the answers

    Care dintre următoarele opțiuni se referă la actualizările de firmware în Microsoft Azure IoT Hub?

    <p>Firmware Over-the-Air (OTA) (A)</p> Signup and view all the answers

    Ce funcționalitate oferă Google Cloud Pub/Sub pentru dispozitivele IoT?

    <p>Transmisia de date pentru procesarea în timp real (D)</p> Signup and view all the answers

    Care dintre următoarele afirmații despre Filtrul Kalman este adevărată?

    <p>Filtrul Kalman integrează datele reale și ajustează predicția, reducând incertitudinea. (C)</p> Signup and view all the answers

    Ce este Transformata Wavelet?

    <p>O metodă de descompunere a datelor în niveluri de rezoluție, folosind funcții wavelet. (D)</p> Signup and view all the answers

    Care dintre următoarele afirmații referitoare la aplicarea ferestrei glisante este adevărată?

    <p>Fereastra glisantă poate fi folosită pentru a identifica modele și tendințe în date. (C)</p> Signup and view all the answers

    Care dintre următoarele afirmații despre Transformata Wavelet este adevărată?

    <p>Transformata Wavelet descompune un semnal în mai multe niveluri de rezoluție folosind funcții wavelet. (D)</p> Signup and view all the answers

    Care dintre următoarele afirmații despre aplicarea ferestrei glisante este corecta?

    <p>Fereastra glisantă poate fi folosită pentru a calcula media datelor din setul de date. (D)</p> Signup and view all the answers

    Study Notes

    Analiza, Prelucrarea și Curățarea Datelor IoT (Cursul 6)

    • Acest curs se concentrează pe analiza, prelucrarea și curățarea datelor provenite din Internetul obiectelor (IoT).

    Cuprins

    • Instrumente și tehnologii
    • Filtrare, Normalizare și Agregare în IoT
    • Identificarea și gestionarea datelor lipsă
    • Eliminarea anomaliilor și detectarea zgomotului
    • Validarea datelor
    • Modele ARIMA, LSTM

    Instrumente și tehnologii (Apache Kafka)

    • Asemănător unui serviciu de curierat, o platformă pentru transportul unor fluxuri masive de date de la un punct la altul.
    • Kafka gestionează transportul datelor, asigurând livrarea intacte și la timp.
    • Caracteristici:
      • Procesare în timp real (poate gestiona milioane de surse de date).
      • Scalabilitate ridicată (poate stoca și gestiona căderi de sistem).
      • Durabilitate (asigurând că datele sunt stocate într-o manieră sigură).

    Kafka - componente

    • Producer: Creează sau trimite mesaje.
    • Broker: Primește mesaje de la producător și le păstrează în siguranță până când sunt necesare.
    • Topic: Clasificarea mesajelor.
    • Partition: Împărțirea unui topic (ex. pe bază de date, luni, ani).
    • Consumer: Extrage mesaje din mediul de stocare.
    • Zookeeper: Supraveghează și gestionează brokerii.

    Apache Spark

    • Un motor de analiză de date open-source pentru procesarea datelor la scară largă.
    • Oferă o interfață de programare a clusterelor cu mecanisme de analiză paralelă.
    • Caracteristici:
      • Performanță ridicată, folosind un motor de procesare în memorie.
      • Procesare unificată pentru diverse tipuri de sarcini (batch, streaming, SQL, machine learning).
      • Compatibilitate cu ecosistemul Hadoop (stocare durabilă).
      • API-uri prietenoase pentru limbaje populare (Python, Java, Scala, R).

    Apache Spark - componente

    • Spark Core: Gestionează procesarea distribuită, comunicarea cu clusterele și manipularea datelor.
    • Spark SQL: Permise interogarea datelor folosind tehnici SQL.
    • Spark Streaming: Procesarea datelor în flux (streaming) aproape în timp real.
    • MLlib: Bibliotecă de machine learning.
    • GraphX: Bibliotecă pentru procesarea și analiza grafurilor (ex. rețele sociale).

    Apache Kafka + Apache Spark

    • O soluție robustă pentru aplicații de procesare în flux (stream processing) în cadrul Big Data.
    • Integrarea Spark - Kafka permite citirea și procesarea datelor din Kafka folosind Spark Streaming pentru procesare în timp real.

    Exemple de utilizare Apache Kafka + Apache Spark

    • Monitorizarea IoT (procesarea datelor de la senzori).
    • Detectarea fraudelor (monitorizarea tranzacțiilor).
    • Sisteme de recomandare (generarea de recomandări personalizate).
    • O platformă open-source pentru procesarea datelor distribuite și în timp real (stream processing).
    • Permite analiza continuă și procesarea batch.
    • Caracteristici:
      • Scalabilitate ridicată.
      • Toleranță la erori.
      • Flexibilitate în procesarea datelor.
    • JobManager: Coordonează execuția sarcinilor în cluster.
    • TaskManager/TaskManagers: Execută sarcinile alocate de JobManager.
    • State Backend: Stochează starea aplicației.
    • Checkpointing: Creează puncte de salvare pentru recuperare după erori.
    • Event Time vs. Processing Time: Mecanisme de procesare a datelor din flux logic.
    • Diferențe în funcțiile și performanța, în special pentru procesarea în flux și batch.
    • Procesarea în flux:
      • Apache Flink: Optimizat pentru stream processing și infinite fluxuri de date.
      • Apache Spark: Folosește un model micro-batch pentru procesarea în bucăți mici.
    • Procesare batch:
      • Apache Spark: Cunoscut pentru performanța și maturitatea în procesarea batch.

    Filtrare, Normalizare și Agregare în IoT

    • Filtrare: Procesul de selectare a informațiilor relevante dintr-un flux mare de date.
    • Obiectivele filtrării: Reducerea volumului de date, excluderea datelor redundante sau eronate, îmbunătățirea eficienței analizelor.
    • Implementare: La nivel de senzor, gateway sau procesare centrală.
    • Tipuri de filtrare:
      • Bazată pe praguri (threshold-based).
      • Temporală.
      • Spaţială.
      • Evenimentală (bazată pe evenimente).

    Normalizare în IoT

    • Standardizarea datelor pentru compatibilitate.
    • Creaare de reprezentări consistente ale datelor.
    • Facilitarea integrării datelor din surse diverse.
    • Asigurarea interoperabilității între dispozitive IoT.

    Tehnici comune de normalizare

    • Conversia unităților de măsurare (ex. livre în kilograme).
    • Scalarea valorilor într-un interval standard.
    • Conversia la formate comune.

    Agregare în IoT

    • Gruparea, combinarea sau sumarizarea datelor brute pentru a reduce volumul și a extrage informații utile. -Obiectivele agregării: Reducerea volumului de date, crearea de rapoarte concise și semnificative, identificarea tendințelor sau modelelor în date. Tipuri de agregare
    • Temporală (ex. media temperaturilor pe oră).
    • Spațială (ex. media calității aerului într-o zonă).
    • Statistică (ex. sumă, medie, minim, maxim).
    • Evenimentală (ex. număr de alarme pe interval).

    Resampling în IoT

    • Modificarea frecvenței datelor într-un flux de date pentru a se adapta la cerințele specifice de procesare.
    • Tipuri:
    • Downsampling (reducerea frecvenței).
    • Upsampling (creșterea frecvenței):
    • Agregare temporală.
    • Interpolare.

    Reconfigurarea fluxurilor de date în IoT

    • Procesul de modificare a structurii, direcției sau conținutului fluxurilor de date pentru a îndeplini noile cerințe.
    • Motive: Integrarea datelor, optimizarea utilizării resurselor etc.

    Identificarea și gestionarea datelor lipsă

    • Cauze frecvente: Defecţiuni hardware, probleme de conectivitate, erori de transmisie, deficiențe software, factori externi.
    • Validarea datelor în timp real: Compararea valorilor recepționate cu limitele acceptabile sau cu modele de referință.
    • Identificare goluri temporale: Monitorizarea frecvenței de transmitere a datelor.
    • Analiza statistică: Identificarea valorilor lipsă/aberante.

    Gestionarea datelor lipsă

    • Imputarea datelor lipsă: Metode de estimare a valorilor lipsă (interpolare liniară, metode bazate pe medii, modele predictive, metode avansate).
    • Prelucrare la margine (Edge Computing): Detectarea și completarea datelor lipsă direct la dispozitiv sau gateway.
    • Măsuri de redundanță: Utilizarea unor senzori suplimentari pentru a acoperi goluri de date.
    • Stocare tampon (Buffering): Stocarea temporară a datelor în caz de pierdere a conectivității.
    • Îmbunătățirea arhitecturii rețelei: Utilizarea unei arhitecturi reziliente, notificări de erori etc.

    Algoritmi ML utilizați pentru imputarea datelor lipsă

    • Modele avansate: Random Forest, Gradient Boosting.
    • Modele de deep learning: Ronete neuronale dense/convoluționale, Ronete neuronale recurente (RNN) sau LSTM.

    Filtru mediu mobil (Moving Average)

    • Unul dintre cele mai simple filtre digitale pentru eliminarea zgomotului.
    • Înlocuiește fiecare valoare cu media valorilor dintr-o fereastră glisantă.
    • Tipuri: Mediu mobil simplu, Mediu mobil ponderat.

    Filtru median

    • Înlocuiește fiecare valoare cu mediana valorilor dintr-o fereastră glisantă.
    • Eficient pentru eliminarea valorilor extreme.

    Filtru Kalman

    • Algoritm recursiv care folosește un model matematic pentru a prezice stări și incertitudini asociate.
    • Ajustează predicțiile cu informații reale și reduce incertitudinea.

    Transformata Wavelet

    • Generalizarea transformatei Fourier pentru descompunerea semnalelor în frecvențe.
    • Permite separarea semnalelor de zgomot.

    LSTM în IoT

    • Tip de rețea neuronală recurentă (RNN) pentru învățarea dependențelor pe termen lung în date secvențiale.
    • Folosită în IoT pentru prelucrarea datelor, detectarea de tipare și predicții.
    • Colectarea, preprocesarea datelor (normalizare, curățare, definirea seriilor temporale), intrarea în modelul LSTM (date transformate).

    Decomisionare (Offboarding)

    • Procesul de retragere sigură a unui dispozitiv IoT dintr-o rețea.
    • Motive: Înlocuirea dispozitivului vechi, defecțiuni, upgrade la noi tehnologii etc.
    • Etape: Evaluarea dispozitivului, deconectarea dispozitivului din rețea, resetarea/ștergerea datelor, monitorizarea și validarea procesului.

    Platforme de management IoT cloud

    • AWS IoT Core.
    • Google Cloud IoT Core.
    • Microsoft Azure IoT Hub.

    Platforme independente pentru IoT

    • ThingsBoard.
    • Particle IoT.
    • Balena IoT.

    Platforme de securitate IoT

    • Armis Security.
    • Forescout.

    Caracteristici și Comparații

    • Comparațiile între platforme (caracteristici, funcţionalități, integrare, costuri etc.) sunt prezentate în prezentări.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Acest quiz testează cunoștințele tale despre caracteristicile și compozițiile platformelor Apache Kafka și Apache Spark. Întrebările acoperă aspecte esențiale cum ar fi stocarea mesajelor și procesarea distribuită. Demonstrează-ți abilitățile și înțelegerea acestor tehnologii moderne de procesare a datelor.

    More Like This

    Use Quizgecko on...
    Browser
    Browser