Big Data und KI 4
48 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche der folgenden Aussagen beschreibt am besten den Vorteil von NoSQL-Datenbanken im Kontext von Big Data?

  • NoSQL-Datenbanken reduzieren die Notwendigkeit von Hardware-Ressourcen im Vergleich zu relationalen Datenbanken.
  • NoSQL-Datenbanken sind auf relationale Daten beschränkt und daher ideal für strukturierte Daten.
  • NoSQL-Datenbanken erzwingen ein starres Schema, was die Datenkonsistenz verbessert.
  • NoSQL-Datenbanken bieten eine effizientere Verwaltung und Suche in unterschiedlichen Datensätzen, insbesondere bei komplexen Datentypen. (correct)

Wie tragen moderne Plattformen mit Hadoop MapReduce zur effizienten Verarbeitung von Big Data bei?

  • Sie reduzieren die Datenmenge durch Aggregation vor der Analyse.
  • Sie benötigen eine vorherige Normalisierung aller Datensätze.
  • Sie beschränken sich auf die Verarbeitung strukturierter Datensätze.
  • Sie ermöglichen die effiziente Darstellung sowohl von strukturierten als auch von unstrukturierten Datensätzen. (correct)

Was ist die Hauptfunktion von Sensoren im Kontext technischer Systeme?

  • Die Umwandlung von elektrischer Energie in mechanische Arbeit.
  • Die drahtlose Übertragung von Daten über große Distanzen.
  • Die Erkennung einer bestimmten Art von Eingabe aus der technischen Umgebung und die Reaktion darauf. (correct)
  • Die Speicherung und Verarbeitung von großen Datenmengen.

Welche der folgenden Aussagen beschreibt am besten die ursprüngliche Beziehung zwischen MapReduce und Google?

<p>MapReduce war eine proprietäre Technologie von Google, die später verallgemeinert wurde. (C)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die Funktionsweise eines Beschleunigungssensors?

<p>Er erkennt Änderungen der Erdbeschleunigung, um Beschleunigung, Neigung und Vibration zu bestimmen. (B)</p> Signup and view all the answers

Was ist die Hauptaufgabe des Hadoop Distributed File System (HDFS) innerhalb des Hadoop-Frameworks?

<p>Die Speicherung von Daten auf verteilte Weise. (A)</p> Signup and view all the answers

Wie funktioniert ein Photosensor?

<p>Er detektiert das Vorhandensein von sichtbarem Licht, Infrarotübertragung (IR) und/oder ultravioletter (UV) Energie. (B)</p> Signup and view all the answers

Was ist das Hauptprinzip der Funktionsweise von Lidar?

<p>Die laserbasierte Erkennung, Entfernungsbestimmung und Kartierung mithilfe eines pulsierenden Lasers. (A)</p> Signup and view all the answers

Welche der folgenden ist KEIN Dienst von HDFS?

<p>Ressourcenmanager (B)</p> Signup and view all the answers

Welche Rolle spielt der Namensknoten in HDFS?

<p>Er verfolgt Dateien, verwaltet das Dateisystem und speichert Metadaten. (D)</p> Signup and view all the answers

Wie speichert und zeigt ein ladungsgekoppeltes Gerät (CCD) Daten für ein Bild an?

<p>Jeder Pixel wird in eine elektrische Ladung umgewandelt, deren Intensität mit einer Farbe im Farbspektrum in Beziehung steht. (A)</p> Signup and view all the answers

Welche Art von Daten können intelligente Netzsensoren liefern?

<p>Echtzeitdaten über die Netzbedingungen, Erkennung von Ausfällen, Fehlern und Belastungen, sowie Auslösung von Alarmen. (C)</p> Signup and view all the answers

Wie kommunizieren Master- und Slave-Dienste in HDFS?

<p>Master-Dienste kommunizieren miteinander, und Slave-Dienste kommunizieren miteinander. (B)</p> Signup and view all the answers

Was passiert, wenn ein Data Node keine Heartbeat-Nachricht an den Name Node sendet?

<p>Der Name Node betrachtet den Data Node als ausgefallen und repliziert die Daten von diesem Knoten auf andere Knoten. (A)</p> Signup and view all the answers

Welchen Vorteil bieten 5G-Netzwerke gegenüber ihren Vorgängern hauptsächlich?

<p>Höhere Bandbreite und somit schnellere Download-Geschwindigkeiten. (A)</p> Signup and view all the answers

Was ist die Hauptfunktion eines Datenknotens in HDFS?

<p>Speicherung von Datenblöcken und Bereitstellung des Zugriffs für Clients. (D)</p> Signup and view all the answers

Welche Aussage beschreibt am besten, wie 5G-Mobilfunkgeräte mit dem Internet verbunden sind?

<p>Über Funkwellen durch eine lokale Antenne in der Zelle. (B)</p> Signup and view all the answers

Welche Entwicklung wird durch die größere Bandbreite von 5G-Netzwerken wahrscheinlich gefördert?

<p>Eine stärkere Nutzung von 5G als allgemeiner Internetdienstanbieter für Endgeräte. (B)</p> Signup and view all the answers

Wie oft sendet ein Data Node standardmäßig eine Heartbeat-Nachricht an den Name Node?

<p>Alle 3 Sekunden (C)</p> Signup and view all the answers

Welche Aussage über die Nutzung von 5G-Netzwerken durch bestehende Geräte ist korrekt?

<p>4G-Mobiltelefone sind nicht in der Lage, die neuen Netzwerke zu nutzen, da 5G-fähige drahtlose Geräte erforderlich sind. (C)</p> Signup and view all the answers

Was ist Ethernet?

<p>Eine Familie von kabelgebundenen Computer-Netzwerktechnologien. (C)</p> Signup and view all the answers

Wodurch wurde das ursprüngliche 10BASE5-Ethernet charakterisiert?

<p>Die Nutzung von Koaxialkabel als gemeinsames Medium. (A)</p> Signup and view all the answers

Welche Aussage über die Entwicklung von Ethernet im Laufe der Zeit ist zutreffend?

<p>Die Datenübertragungsraten haben sich von Megabit pro Sekunde auf Gigabit pro Sekunde erhöht. (B)</p> Signup and view all the answers

Was ersetzte Ethernet im Laufe der Zeit weitgehend?

<p>Konkurrierende kabelgebundene LAN-Technologien wie Token Ring. (A)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die Rolle des MapReduce-Systems (oder Frameworks)?

<p>Es orchestriert die verteilte Verarbeitung, verwaltet die Kommunikation und sorgt für Fehlertoleranz. (C)</p> Signup and view all the answers

In welchem Szenario ist der Einsatz einer Single-Thread-Implementierung von MapReduce typischerweise vorteilhaft gegenüber einer herkömmlichen Implementierung?

<p>In keinem der genannten Fälle, da MapReduce typischerweise nur bei verteilter Verarbeitung einen Vorteil bietet. (C)</p> Signup and view all the answers

Welchen Vorteil bietet die Verwendung von Hadoop Streaming?

<p>Es ermöglicht die Verwendung beliebiger Programmiersprachen zur Implementierung von Map- und Reduce-Funktionen. (B)</p> Signup and view all the answers

Was optimiert das MapReduce-Framework hauptsächlich, um Skalierbarkeit und Fehlertoleranz zu erreichen?

<p>Die Ausführungs-Engine. (C)</p> Signup and view all the answers

Welches Prinzip der Datenanalyse liegt dem MapReduce-Modell zugrunde?

<p>Split-Apply-Combine (C)</p> Signup and view all the answers

Betrachten Sie ein Szenario, in dem große Textdateien nach der Häufigkeit einzelner Wörter analysiert werden sollen. Wie würden die Map- und Reduce-Phasen typischerweise eingesetzt?

<p>Map: Weist jedem Wort den Wert 1 zu; Reduce: Summiert die Werte für jedes Wort. (A)</p> Signup and view all the answers

Was ist eine wesentliche Voraussetzung für einen effizienten MapReduce-Algorithmus?

<p>Optimierung der Kommunikationskosten. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten das Verhältnis von MapReduce zu funktionaler Programmierung?

<p>MapReduce ist inspiriert von den Map- und Reduce-Funktionen der funktionalen Programmierung, obwohl ihr Zweck unterschiedlich ist. (D)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten den Unterschied zwischen strukturierter und unstrukturierter Datenspeicherung?

<p>Strukturierte Daten folgen einem vordefinierten Datenmodell und sind leicht zu parsen, während unstrukturierte Daten keinem festen Format folgen und schwieriger zu analysieren sind. (B)</p> Signup and view all the answers

Wie nutzen Social-Media-Plattformen wie Facebook und Pinterest Gesichtserkennung bzw. Objekterkennung, um ihre Dienste zu verbessern?

<p>Um Nutzern personalisierte Inhalte und Produktempfehlungen basierend auf ihren Interessen anzubieten. (B)</p> Signup and view all the answers

Welchen Vorteil bieten strukturierte Daten im Vergleich zu unstrukturierten Daten im Kontext von Softwareanwendungen?

<p>Sie sind einfacher mit traditioneller Software zu parsen und zu durchsuchen. (C)</p> Signup and view all the answers

Welche Rolle spielt die Verarbeitung natürlicher Sprache (NLP) bei der Interaktion zwischen Mensch und KI, wie sie in persönlichen Assistenten wie Siri und Alexa verwendet wird?

<p>NLP ermöglicht es der KI, menschliche Sprache zu verstehen und darauf in sinnvoller Weise zu reagieren. (C)</p> Signup and view all the answers

Warum ist es notwendig, Daten zu korrigieren oder abzuschneiden, bevor sie in einer relationalen Datenbank mit strukturierten Daten gespeichert werden können?

<p>Um sicherzustellen, dass die Daten dem vordefinierten Datenmodell entsprechen. (B)</p> Signup and view all the answers

Inwiefern unterscheidet sich die Interaktion mit KI in Anwendungen wie Gesichtserkennung auf Facebook von der Interaktion mit persönlichen Assistenten wie Google Now?

<p>Die Interaktion mit Gesichtserkennung ist eher passiv, während persönliche Assistenten eine proaktive und interaktive Interaktion ermöglichen. (D)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Eignung von strukturierten Daten für prozessgesteuerte Anwendungen?

<p>Strukturierte Daten sind ideal, da sie spezifische Informationen in einem bekannten, konsistenten Format liefern. (A)</p> Signup and view all the answers

Wie beeinflusst die Analyse der Nutzerstimmung auf Plattformen wie Twitter und Instagram die Bereitstellung von Inhalten?

<p>Sie ermöglicht es Plattformen, gezieltere Werbung und personalisierte Inhalte basierend auf den emotionalen Reaktionen der Nutzer zu schalten. (C)</p> Signup and view all the answers

Welchen Vorteil bietet ein Dateisystem, das nicht vollständig POSIX-kompatibel ist, typischerweise?

<p>Höhere Leistung beim Datendurchsatz und Unterstützung von Nicht-POSIX-Operationen. (C)</p> Signup and view all the answers

Wie unterscheidet sich Apache Hive von klassischen SQL-Abfragen in Bezug auf die Implementierung in Hadoop?

<p>Hive bietet eine SQL-ähnliche Abstraktion (HiveQL), die in Java integriert wird, ohne die Notwendigkeit, Abfragen in der Low-Level-Java-API zu implementieren, während klassische SQL-Abfragen in der MapReduce-Java-API implementiert sein müssen. (D)</p> Signup and view all the answers

Welchen Vorteil bietet die SQL-Abstraktion von Apache Hive im Kontext von Data Warehousing-Anwendungen?

<p>Sie unterstützt die Portabilität von SQL-basierten Anwendungen auf Hadoop. (D)</p> Signup and view all the answers

Welches Ziel verfolgt Apache Kafka primär?

<p>Die Bereitstellung einer einheitlichen Plattform mit hohem Durchsatz und niedriger Latenz für die Verarbeitung von Echtzeit-Datenfeeds. (D)</p> Signup and view all the answers

Wie reduziert Apache Kafka den Overhead des Netzwerk-Roundtrips?

<p>Durch die Aggregation von Nachrichten in &quot;Message-Sets&quot;. (A)</p> Signup and view all the answers

Welche Auswirkung hat die Verwendung von "Message-Sets" in Apache Kafka?

<p>Größere Netzwerkpakete, größere sequentielle Festplattenoperationen und zusammenhängende Speicherblöcke. (A)</p> Signup and view all the answers

Wie wandelt Kafka einen Strom von zufälligen Nachrichten in effizientere Operationen um?

<p>Durch die Umwandlung in lineare Schreibvorgänge. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen Kafka Connect und Kafka Streams?

<p>Kafka Connect verbindet Kafka mit externen Systemen (Datenimport/-export), während Kafka Streams eine Java-Stream-Verarbeitungsbibliothek ist. (B)</p> Signup and view all the answers

Flashcards

Gesichtserkennung durch KI

KI-Anwendungen, die Nutzer anhand hochgeladener Bilder erkennen.

Objekterkennung durch KI

KI-Anwendungen, die Objekte in Bildern identifizieren und Kategorien zuordnen.

Sentimentanalyse

KI-Anwendungen, die Gefühle und Meinungen in Nutzertexten analysieren.

Gesichtsbewegungsverfolgung

KI-Anwendungen, die Gesichtsbewegungen erfassen und für dynamische Filter oder Effekte nutzen.

Signup and view all the flashcards

Virtuelle Assistenten

KI-basierte Programme, die natürliche Sprache verstehen und Aufgaben wie persönliche Assistenten ausführen.

Signup and view all the flashcards

Strukturierte Daten

Daten, die einem vordefinierten Modell entsprechen und leicht in Felder wie Postleitzahlen oder Abkürzungen eingeordnet werden können.

Signup and view all the flashcards

Vordefiniertes Datenmodell

Daten, bei denen jeder Datensatz einem vordefinierten Format folgt, sodass sie leicht zu parsen und zu durchsuchen sind.

Signup and view all the flashcards

Prozessgesteuerte Anwendungen

Anwendungen, die spezifische Informationen in einem bekannten Format benötigen, z.B. zur Verarbeitung von Bestellungen.

Signup and view all the flashcards

NoSQL-Datenbanken

Datenbanken, die für die Verwaltung und Suche in unterschiedlichen Datensätzen optimiert sind, besonders bei komplexen Datentypen.

Signup and view all the flashcards

Hadoop Map Reduce

Eine Auswertungskomponente, die eine effiziente Darstellung von sowohl strukturierten als auch unstrukturierten Datensätzen ermöglicht.

Signup and view all the flashcards

Sensordaten

Die Ausgabe eines Geräts, das eine Eingabe aus der technischen Umgebung erkennt und darauf reagiert.

Signup and view all the flashcards

Beschleunigungssensor

Erkennt Änderungen der Erdbeschleunigung, z.B. in Smartphones.

Signup and view all the flashcards

Photosensor

Detektiert sichtbares Licht, Infrarot (IR) und/oder ultraviolette (UV) Energie.

Signup and view all the flashcards

Lidar

Eine laserbasierte Methode zur Erkennung, Entfernungsbestimmung und Kartierung.

Signup and view all the flashcards

Ladungsgekoppeltes Gerät (CCD)

Speichert und zeigt Bilddaten an, wobei jeder Pixel in eine elektrische Ladung umgewandelt wird.

Signup and view all the flashcards

Intelligente Netzsensoren

Liefern Echtzeitdaten über Netzbedingungen und erkennen Ausfälle.

Signup and view all the flashcards

Was sind 5G-Netzwerke?

Zellulare Netzwerke, bei denen der Servicebereich in kleine geografische Bereiche (Zellen) unterteilt ist.

Signup and view all the flashcards

Hauptvorteil von 5G?

Größere Bandbreite und höhere Download-Geschwindigkeiten (bis zu 10 Gbit/s).

Signup and view all the flashcards

Was ermöglicht 5G im IoT-Bereich?

Neue Vernetzungsmöglichkeiten im Bereich Internet der Dinge (IoT) und Machine-to-Machine.

Signup and view all the flashcards

Was ist Ethernet?

Eine Familie von kabelgebundenen Computer-Netzwerktechnologien für LANs, MANs und WANs.

Signup and view all the flashcards

Wann wurde Ethernet erstmals standardisiert?

1983 als IEEE 802.3.

Signup and view all the flashcards

Welche Technologien hat Ethernet weitgehend ersetzt?

Token Ring, FDDI und ARCNET.

Signup and view all the flashcards

Was verwendete das ursprüngliche 10BASE5-Ethernet?

Koaxialkabel.

Signup and view all the flashcards

Was verwenden neuere Ethernet-Varianten?

Twisted-Pair- und Glasfaserverbindungen in Verbindung mit Switches.

Signup and view all the flashcards

Was ist MapReduce?

Ein Programmiermodell zur Verarbeitung großer Datenmengen mit verteilten Algorithmen.

Signup and view all the flashcards

Was macht die Map-Prozedur?

Eine Prozedur, die Daten sortiert und filtert (z.B. Schüler nach Namen sortieren).

Signup and view all the flashcards

Was macht die Reduce-Methode?

Eine Methode, die eine zusammenfassende Operation durchführt (z.B. Zählen der Schüler in Warteschlangen).

Signup and view all the flashcards

Was macht das MapReduce-System?

Es orchestriert die Verarbeitung, verwaltet Kommunikation und sorgt für Fehlertoleranz.

Signup and view all the flashcards

Was ist die Split-Apply-Combine-Strategie?

Eine Strategie zur Datenanalyse, die Daten aufteilt, anwendet und kombiniert.

Signup and view all the flashcards

Was sind die Hauptvorteile von MapReduce?

Skalierbarkeit und Fehlertoleranz durch Optimierung der Ausführungs-Engine.

Signup and view all the flashcards

Wann ist MapReduce vorteilhaft?

Die optimierte verteilte Shuffle-Operation und die Fehlertoleranzfunktionen.

Signup and view all the flashcards

Was ist wesentlich für einen guten MapReduce-Algorithmus?

Die Reduzierung der Netzwerkkommunikationskosten.

Signup and view all the flashcards

MapReduce (Hadoop)

Eine Open-Source-Implementierung für verteiltes Shuffling, Teil von Apache Hadoop.

Signup and view all the flashcards

HDFS (Hadoop Distributed File System)

Ein verteiltes, skalierbares Dateisystem, in Java für Hadoop geschrieben.

Signup and view all the flashcards

Namensknoten (HDFS)

Master-Knoten in HDFS, verwaltet das Dateisystem und speichert Metadaten.

Signup and view all the flashcards

Datenknoten (HDFS)

Slave-Knoten in HDFS, speichert Datenblöcke und stellt sie für Lese- und Schreibzugriffe bereit.

Signup and view all the flashcards

HDFS Master-Dienste

Master-Dienste in HDFS: Namensknoten, sekundärer Namensknoten und Job-Tracker.

Signup and view all the flashcards

HDFS Slave-Dienste

Slave-Dienste in HDFS: Datenknoten und Task Tracker.

Signup and view all the flashcards

Heartbeat-Nachricht (Datenknoten)

Sendet alle 3 Sekunden eine Nachricht an den Namensknoten, um seine Verfügbarkeit zu bestätigen.

Signup and view all the flashcards

Metadaten (Namensknoten)

Enthält Informationen über die Anzahl der Blöcke, Speicherorte der Datenknoten und Replikationsdetails.

Signup and view all the flashcards

Nachteile von nicht vollständig POSIX-kompatiblen Dateisystemen?

Höhere Leistung beim Datendurchsatz, Unterstützung von Nicht-POSIX-Operationen (z.B. Append).

Signup and view all the flashcards

Was ist Apache Hive?

Ein Data-Warehouse-Softwareprojekt, das auf Hadoop aufbaut und Datenanalysen und -abfragen ermöglicht.

Signup and view all the flashcards

Vorteil von HiveQL?

Hive bietet eine SQL-ähnliche Schnittstelle (HiveQL), wodurch SQL-basierte Anwendungen leichter auf Hadoop portiert werden können.

Signup and view all the flashcards

Was ist Apache Kafka?

Ein Software-Bus-Framework mit Stream-Processing, das eine einheitliche Plattform für Echtzeit-Datenfeeds bietet.

Signup and view all the flashcards

Funktionen von Kafka?

Kafka ermöglicht den Import/Export von Daten und bietet eine Java-Bibliothek zur Stream-Verarbeitung.

Signup and view all the flashcards

Wie optimiert Kafka die Effizienz?

Kafka verwendet ein binäres TCP-basiertes Protokoll, das auf Effizienz optimiert ist und Nachrichten zusammenfasst, um den Overhead zu reduzieren.

Signup and view all the flashcards

Wie verarbeitet Kafka Daten?

Kafka wandelt zufällige Nachrichtenströme in lineare Schreibvorgänge um.

Signup and view all the flashcards

In welchen Sprachen ist Kafka geschrieben?

Kafka ist in Scala und Java geschrieben.

Signup and view all the flashcards

Study Notes

Big Data Technologien

  • Die Kombination neu entstehender Datenquellen ist ein wesentlicher Faktor beim Einsatz neuer Technologien wie Advanced Analytics oder Künstlicher Intelligenz.
  • Daten aus dem Internet der Dinge und sozialen Netzwerken spielen eine große Rolle.
  • Verbraucher und Gesellschaft zeigen zunehmende Bereitschaft, neue Technologien zu nutzen und Daten auszutauschen.
  • Die "Digital Natives" sind neuen Technologien und dem Austausch persönlicher Daten sehr aufgeschlossen.
  • Jüngere Generationen haben datenintensive Aktivitäten wie Social Media in ihr tägliches Leben integriert, obwohl Datenschutz wichtig ist.
  • Social-Media-Plattformen sind beliebte Möglichkeiten für Einzelpersonen, Organisationen und Unternehmen zur gemeinsamen Nutzung, Kommunikation, Vernetzung und Zusammenarbeit geworden.
  • Sie bieten gesteigertes Markenbewusstsein, verbesserte Kundenanalysen und neue Vertriebskanäle.
  • Journalisten, Wissenschaftler, Geschäftsinhaber und die breite Öffentlichkeit vernetzen sich stärker über soziale Medien.
  • KI wird zur Gewinnung von Erkenntnissen über Verbraucher und im Alltag eingesetzt.
  • Suchmaschinen nutzen Künstliche Intelligenz seit Jahren, Google und Baidu haben hochleistungsfähige Algorithmen zur Verbesserung der Suchgenauigkeit entwickelt.
  • Betrug kann durch Algorithmen des maschinellen Lernens zur Sicherung von Bankkonten aufgedeckt werden.
  • Algorithmen filtern Spam in E-Mail-Konten automatisch.
  • Facebook verwendet Gesichtserkennung, um Nutzer mit neuen Bildern zu vergleichen.
  • Pinterest identifiziert automatisch Objekte in Bildern und ordnet diese Kategorien zu.
  • Nutzer, die bestimmte Kategorien abonniert haben, erhalten fortlaufend neue Bildinformationen und Links zu entsprechenden Verkaufsportalen.
  • Twitter und Instagram analysieren die Nutzerstimmung, Snapchat verfolgt Gesichtsbewegungen und ermöglicht dynamische Überlagerungen.
  • Es werden Anstrengungen unternommen, um KI proaktiver und interaktiver zu gestalten.
  • Siri, Alexa, Google Now und Cortana können natürliche Sprache (NLP) verarbeiten und bei der Beantwortung von Fragen helfen.

Strukturierte und unstrukturierte Daten

  • Daten lassen sich in strukturierte und unstrukturierte Daten einordnen.
  • Strukturierte Daten entsprechen einem vordefinierten Datenmodell und lassen sich leicht in bestimmte Felder abbilden.
  • Beispiele für strukturierte Daten sind Postleitzahlen (fünfstellig) und Bundesländer (zweistellige Abkürzung).
  • Sie lassen sich leicht in relationalen Datenbanken speichern und abrufen, wobei das Verwaltungssystem die korrekte Formatierung sichert.
  • Jeder Datensatz hält sich an ein vordefiniertes Datenmodell, andernfalls ist eine Korrektur oder ein Abschneiden der Daten erforderlich.
  • Strukturierte Daten sind oft textlastig und daher einfach zu parsen und zu durchsuchen.
  • Sie eignen sich am besten für prozessgesteuerte Anwendungen, die auf spezifische Informationen in einem bekannten Format angewiesen sind.
  • Ein Beispiel ist ein Bestandskontrollsystem, das Lagerbestände gegen Produktions-SKUs verwaltet.
  • Unstrukturierte Daten haben kein vordefiniertes Datenmodell und lassen sich daher schwer in Tabellen einer relationalen Datenbank einordnen.
  • Beispiele sind E-Mails, Videos, Satellitenbilder und Audiodateien, die sich schwer mit klassischen datenbankbezogenen Systemen erfassen, verarbeiten und analysieren lassen.
  • Unstrukturierte Daten sind mehrdeutig und erlauben das Speichern eines breiteren Spektrums an Daten, einschließlich Bildern, Ton, Video und Text.
  • Mit zunehmendem Umfang der Speicherung und Komplexität der Daten steigt die Schwierigkeit der Suche und Analyse.
  • Moderne Datenbankmanagementsysteme wie NoSQL-Datenbanken erleichtern die Speicherung und Verarbeitung großer Mengen unstrukturierter Daten.
  • Unstrukturierte Daten und Anwendungen sind in der Regel mehrdeutig, wie z.B. E-Mail-Clients oder Präsentationssoftware.
  • Potenziell wertvolle Informationen in diesen Medien können nicht mit normalen Textabfragen aus einer herkömmlichen relationalen Datenbank abgerufen werden.
  • Strukturierte Daten eignen sich gut für relationale Datenbanksysteme.
  • Große Datenbestände können in einem Data Warehouse untergebracht werden, solange die Informationen dem starren Datenbankschema entsprechen.
  • Unstrukturierte Daten können an vielen Stellen gespeichert werden, oft in eigenen Datensilos wie E-Mail-Servern.
  • Data Warehouses und Data Lakes ermöglichen Big-Data-Analysen durch Erhöhung der Gesamtkapazität mit kostengünstigem Standardspeicher.
  • NoSQL-Datenbanken ermöglichen die effizientere Verwaltung und Suche in unterschiedlichen Datensätzen für die Analyse komplexer Datentypen.
  • Moderne Plattformen wie Hadoop MapReduce erlauben die effiziente Darstellung sowohl von strukturierten als auch von unstrukturierten Datensätzen.

Sensordaten

  • Sensordaten sind die Ausgabe eines Geräts, das eine bestimmte Art von Eingabe aus der technischen Umgebung erkennt und darauf reagiert und können zur Informationsbereitstellung für andere Systeme oder zur Steuerung von Prozessen dienen.
  • Sensoren können nahezu jeden Zustand eines physikalischen Systems erfassen.
  • Beschleunigungssensoren erkennen Änderungen der Erdbeschleunigung.
  • Photosensoren detektieren das Vorhandensein von sichtbarem Licht, Infrarotübertragung (IR) und/oder ultravioletter (UV) Energie.
  • Lidar ist eine laserbasierte Methode zur Erkennung, Entfernungsbestimmung und Kartierung.
  • Ladungsgekoppelte Geräte (CCD) speichern und zeigen Daten für ein Bild an, indem jeder Pixel in eine elektrische Ladung umgewandelt wird.
  • Intelligente Netzsensoren liefern Echtzeitdaten über die Netzbedingungen.
  • Drahtlose Sensornetzwerke überwachen und zeichnen Bedingungen an verschiedenen Standorten auf, wie Temperatur, Luftfeuchtigkeit und Druck.
  • Sensordaten sind ein integraler Bestandteil des Internet of Things (IoT).
  • Im IoT kann fast jede Einheit mit einer eindeutigen Kennung (UID) und Datenübertragungsfähigkeit ausgestattet sein.

Streaming-Daten

  • Cloud Computing und die Verbesserung von Datenbanken spielen im Kontext von Big Data eine entscheidende Rolle.
  • Datenbanken haben in den letzten Jahrzehnten einen Vorsprung in Bezug auf Leistung und Technik erzielt.
  • Das In-Memory-Computing hat Datenbanken zu einer neuen Performance verholfen.
  • Diese Innovation ermöglicht neue Big-Data-Berechnungen.
  • Diese Berechnungen wären ohne die Anpassung bestehender Algorithmen an neue Infrastrukturen nicht möglich gewesen.
  • Big-Data-Konzepte ermöglichen einen schnelleren Zugriff auf wichtige Informationen und fördern die proaktive Handlungsfähigkeit von Unternehmen.
  • Durch Big Data und Data Warehouses können Rohdaten analysiert und neue Erkenntnisse gewonnen werden.
  • Die Steuerung und Überwachung dynamischer Prozesse erfordert die Überwachung, Verdichtung, Filterung und Korrelation zeitlich gereihter Ereignisse aus heterogenen Quellen.
  • Hierbei werden Muster und Regeln im Datenstrom gefiltert.
  • Etablierte Streaming-Methoden sind:
    • DSCP (Distributed Stream Computing Platforms)
    • CEP (Complex-Event Processing)
  • DSCP greift auf Serverfarmen (Grids) zurück, um Algorithmen in Echtzeit auf kontinuierliche Datenströme anzuwenden.
  • CEP ist eine Technologie zur Verarbeitung von Informationsflüssen, bei der Daten aus verschiedenen Quellen zusammengefügt werden, um Messwerte zu aggregieren, wichtige Ereignisse zu identifizieren.
  • Mögliche Aktionen umfassen:
    • Projektion: Berechnen von Werten aus Parametern eines Ereignisses oder Generieren von Unterereignissen aus diesen.
    • Filtern: Prüfen von Bedingungen gegen Ereignisparameter.
    • Gruppierung: Partitionieren der ausgegebenen Ereignisse.
    • Aggregation: Berechnen von Durchschnitt, Anzahl, Maximum, Minimum oder Summen von Ereignisparametern.
    • Join: Verknüpfen und Vergleichen von Ereignissen unterschiedlicher Streams.
  • Datenströme haben einen zeitlichen Kontext.
  • CEP-Systeme unterstützen die Abstraktion von Zeitfenstern.
  • Fenster können sein:
    • „Springende Fenster“: Kumulieren von Ereignissen über die Zeit.
    • Ereignisbasierte Fenster: Erzeugen nur dann eine Ausgabe, falls während des Zeitfensters ein Ereignis auftritt.
    • Zählerbasierte Fenster: Geben Ereignisfolgen der Länge n für einen Zähler aus.
  • CEP findet im Finanzsektor und im Bereich IoT sowie in sozialen Netzwerken Anwendung.
  • CEP ermöglicht hochfrequente Analysen durch geringste Latenzzeiten anstelle von traditionellen SQL-Abfragen historischer Daten.
  • Der hochfrequente algorithmische Handel (HFAT) über klassische Börsen und unregulierte Over-the-Counter (OTC)-Swaps (Dark Pools) ist eine klassische Anwendung für CEP.
  • CEP wird auch für die Echtzeit-Überwachung von Objekten und Anlagen und intelligente Zähler eingesetzt.
  • Im Gesundheitswesen könnten physiologische Datenmessgeräte über die Cloud Daten an CEP-Systeme liefern, um gesundheitsgefährdende Ausschläge zu erkennen.
  • Ein weiterer Einsatzbereich ist die Echtzeit-Überwachung von seismischen und kosmischen Aktivitäten.

Datenerfassung und -verarbeitung

  • Die Datenerfassung und Datenpipeline ist eine der zeitaufwändigsten Aufgaben in Data-Science-Projekten.
  • Data Scientists müssen sich mit verschiedenen Systemen mit unterschiedlichen Datenstrukturen auseinandersetzen.
  • Herausforderungen sind:
    • Integration unterschiedlicher Datenformate und -quellen: Neue Datenquellen erfordern Echtzeit-Datenverarbeitung, was die Datenintegration komplexer macht.
    • Bewältigung des hohen Wachstums der Datenmengen: Die Datenmengen in allen Branchen steigen stetig.
    • Schutz der erhöhten Leistung: Unternehmen müssen mit der Performance von Anwendungen umgehen.
  • Die Performance hat daher Priorität.
  • Engpässe bei Ein- und Ausgabeoperationen können zu Problemen bei der Datenbankleistung führen, ebenso unzureichendes technisches Know-how oder schlecht programmierte Datenzugriffe.
  • Der Aufwand für Tuning und Optimierung einer Multi-Terabyte-Datenbank ist oft hoch.
  • Es müssen alternative Architekturen und Technologien in Betracht gezogen werden.
  • Das Wachstum von Daten in Bezug auf Vielfältigkeit, Geschwindigkeit und Volumen setzt Datenmanagement-Lösungen unter Druck.
  • Unternehmen suchen nach neuen Anwendungen und fortschrittlicher Analytik.
  • Entscheidungsträger haben mehr Wahlmöglichkeiten als in der Vergangenheit.
  • Zu den Datenbanklösungen gehören:
    • Relationale Datenbanken: VoltDB, Clustrix, TransLattice, MemSQL, ScaleArc, ScaleBase, ScaleDB, StormDB, VMware vFabric SQLFire und SAP HANA Cloud Platform.
    • Ein Enterprise Data Warehouse: Für Business Intelligence und Analytics genutzt, zur Analyse gespeicherter Daten für Reporting-Aufgaben.
  • ETL-Technologien übertragen Daten aus OLTP-Datenbanken in das Data Warehouse, wo sie zu "Datenwürfeln" für die Datenanalyse (OLAP) verarbeitet werden.
  • Das Data Warehouse bildet die Backend-Infrastruktur für Kunden-, Produkt- und Mitarbeiterverwaltung.
  • Datenbank- und Data-Warehouse-Anbieter bieten neue, maßgeschneiderte Systeme an.

Kommunikationstechnologien

  • Ein Kommunikationssystem ist eine Sammlung von Telekommunikationsnetzen und Endgeräten, die miteinander verbunden sind.
  • Telekommuniaktion ist ist eine Methode der kommunikation z.B. im den Massenmedien für Sport oder ähnliches.
  • Da immer häufiger Rechenkapazitäten und Anwendungssysteme aus der Cloud bezogen werden, werden bessere Kommunikationsnetze benötigt.
  • Drahtlose Verfahren wie 5G sind aktuell im Trend und ermöglichen schnelle Verbindungen von verschiedenen Geräten mit Rechenzentren und Edge-Devices.
  • Ein Wireless LAN (WLAN) verbindet Geräte drahtlos in einem lokalen Netzwerk (LAN).
  • Über ein Gateway kann eine Verbindung zum Internet hergestellt werden.
  • Wireless LANs basieren auf den IEEE 802.11-Standards und sind die am weitesten verbreiteten Computernetzwerke der Welt (Wi-Fi).
  • Sie werden in Heim- und Büronetzwerken mit Laptops, Druckern, Smartphones usw. verwendet, um Web-TVs und Spielgeräte mit dem Internet zu verbinden.
  • Hotspots in Restaurants, Cafés, Hotels, Bibliotheken und Flughäfen ermöglichen den Zugriff auf das Internet mit tragbaren Geräten.

Nahfeldkommunikation

  • Bluetooth ist ein drahtloser Technologiestandard für kurze Entfernungen zum Austausch von Daten zwischen Geräten über UHF-Funkwellen.
  • Er dient zum Aufbau von Personal Area Networks (PANs) und ist eine Alternative zu RS-232-Datenkabeln, um Dateien zwischen Geräten auszutauschen und Handys mit drahtlosen Kopfhörern zu verbinden.
  • Die Reichweite ist auf 10 Meter begrenzt. Bluetooth wird von der Bluetooth Special Interest Group (SIG) verwaltet.
  • Die Near-field communication (NFC) ermöglicht den berührungslosen Datenaustausch über kurze Distanzen (0 bis 2 cm).
  • Über eine Punkt-zu-Punkt-Verbindung können Daten zwischen Geräten ausgetauscht werden.
  • NFC-fähige Geräte können zur Parametrierung von Komponenten genutzt und mit Anwendungssoftware zum Lesen von elektronischen Tags oder Durchführen von Zahlungen ausgestattet werden.
  • NFC-Protokolle standardisiert und ersetzen proprietäre Technologien.
  • 5G ist der Nachfolger der 4G-Netze und der Technologiestandard der fünften Generation für Breitband-Mobilfunknetze.
  • Bis 2025 werden voraussichtlich mehr als 1,7 Milliarden Teilnehmer weltweit 5G nutzen.
  • Wie ihre Vorgänger sind 5G-Netzwerke zellulare Netzwerke.
  • Der Vorteil der neuen Netzwerke ist die größere Bandbreite, die theoretisch bis zu 10 Gigabit pro Sekunde (Gbit/s) erreichen kann.
  • Die Netze können zunehmend als Internetdienstanbieter für Endgeräte genutzt werden und konkurrieren mit Kabelinternet.
  • Neue Vernetzungsmöglichkeiten im Bereich Internet der Dinge (IoT) und Machine-to-Machine werden ermöglicht.
  • 4G-Mobiltelefone können die neuen Netzwerke nicht nutzen, es werden 5G-fähige Geräte benötigt.

Drahtgebundene Kommunikationssysteme

  • Ethernet ist eine Familie von leitungsgebundenen Computer-Netzwerktechnologien für lokale Netzwerke (LAN), Metropolitan Area Networks (MAN) und Wide Area Networks (WAN).
  • Ethernet wurde 1980 kommerziell eingeführt und 1983 als IEEE 802.3 standardisiert.
  • Ethernet hat konkurrierende kabelgebundene LAN-Technologien wie Token Ring, FDDI und ARCNET weitgehend ersetzt.
  • Neuere Ethernet-Varianten verwenden Twisted-Pair und Glasfaserverbindungen in Verbindung mit Switches.
  • Die Datenübertragungsraten stiegen von 2,94 Megabit pro Sekunde (Mbit/s) auf 400 Gigabit pro Sekunde (Gbit/s).
  • Ethernet-Standards umfassen Verdrahtungs- und Signalisierungsvarianten der OSI-Physical-Layer.
  • Systeme, die über Ethernet kommunizieren, unterteilen einen Datenstrom in Frames.
  • Jeder Frame enthält Quell- und Zieladressen sowie Daten zur Fehlerprüfung, so dass beschädigte Frames erkannt und verworfen werden können.
  • Die Protokolle auf höherer Ebene sorgen für erneute Übertragung verlorener Frames.

Token Ring

  • Token Ring ist eine Computernetzwerktechnologie für lokale Netzwerke.
  • Sie wurde 1984 von IBM eingeführt und 1989 als IEEE 802.5 standardisiert.
  • Es wird ein spezieller Drei-Byte-Rahmen verwendet, der Token, das in einem Ring von Workstations oder Servern herumgereicht wird, genannt wird.
  • Token-Passing ermöglicht einen fairen Zugang für alle Stationen und eliminiert Kollisionen konkurrenzbasierter Zugriffsmethoden.
  • Die Technologie wurde von neueren Versionen von Ethernet verdrängt.
  • Supervisory Control and Data Acquisition (SCADA) ist eine Leitsystemarchitektur, die Computer, vernetzte Datenkommunikation und grafische Benutzeroberflächen (GUI) für die Prozessüberwachung umfasst.

Verteilte Systeme

  • Verteilte Systeme sind ein Teilgebiet der Informatik, das sich mit Rechenoperationen innerhalb von getrennten physischen Systemen befasst.
  • Die Komponenten des Systems befinden sich auf verschiedenen vernetzten Computern.
  • Wesentliche Merkmale sind: Gleichzeitigkeit der Komponenten, unabhängiger Ausfall von Komponenten und Fehlen einer globalen Uhr.
  • Beispiele sind SOA-basierte Systeme über Multiplayer Online Games bis hin zu Peer-to-Peer-Anwendungen.

Hadoop im Überblick

  • Apache Hadoop ist eine Sammlung von Open-Source-Software-Dienstprogrammen zur Lösung von Problemen mit großen Datenmengen und Berechnungen.
  • Das Programm beinhaltet ein Software-Framework zur verteilten Verarbeitung und Speicherung großer Datenmengen unter Verwendung des MapReduce-Programmiermodells.
  • Hadoop wurde ursprünglich für Commodity-Hardware entwickelt, wird aber inzwischen auch auf Clustern mit hochwertiger Hardware eingesetzt.
  • Die Module in Hadoop wurden unter der Annahme entwickelt, dass Hardware-Ausfälle häufig vorkommen und vom Framework behandelt werden sollten.

Hadoop Distributed File System (HDFS)

  • Das Hadoop Distributed File System (HDFS) ist der Speicherteil von Apache Hadoop, der ein MapReduce-Programmiermodell darstellt.
  • Dateien werden in große Blöcke aufgeteilt und auf die Knoten eines Clusters verteilt, sodass die Daten parallel verarbeitet werden können.
  • Hadoop nutzt die Datenlokalität, um die Verarbeitung zu beschleunigen.
  • Das Basis-Framework von Apache Hadoop besteht aus den Modulen:
    • Hadoop Common-Modul: enthält Dienstprogramme und Bibliotheken.
    • Hadoop Distributed File System (HDFS): speichert Daten auf Commodity-Maschinen und bietet hohe Bandbreite.
    • Hadoop YARN: Plattform zur Verwaltung von Rechenressourcen in Clustern.
    • Hadoop MapReduce-Modul: Implementierung des Verarbeitungsmodells für große Datenmengen.
    • Hadoop Ozone: (eingeführt im Jahr 2020) Ein Objektspeicher.

MapReduce

  • Das MapReduce-System orchestriert die Verarbeitung, indem es die verteilten Server zusammenfasst und verschiedene Aufgaben parallel ausführt.
  • Das ist eine Spezialisierung der Split-Apply-Combine-Strategie für die Datenanalyse.
  • Die wichtigsten Beiträge des MapReduce-Frameworks sind die Skalierbarkeit und Fehlertoleranz, die für eine Vielzahl von Anwendungen durch die Optimierung der Ausführungs-Engine erreicht wird.
  • Eine Single-Thread-Implementierung von MapReduce ist in der Regel nicht schneller als traditionelle Implementierung.
  • Die Verwendung dieses Modells ist nur dann vorteilhaft, wenn die optimierte verteilte Shuffle-Operation (die die Netzwerkkommunikationskosten reduziert) und die Fehlertoleranzfunktionen des MapReduce-Frameworks zum Tragen kommen.
  • MapReduce-Bibliotheken wurden in vielen Programmiersprachen geschrieben, mit unterschiedlichen Optimierungsgraden.

HDFS details

  • Das Hadoop Distributed File System (HDFS) ist ein verteiltes, skalierbares und portables Dateisystem, das in Java für das Hadoop-Framework geschrieben wurde.
  • Es bietet Shell-Befehle und Methoden der Java-API, die anderen Dateisystemen ähneln.
  • Eine Hadoop-Instanz ist in HDFS und MapReduce unterteilt.
  • HDFS hat fünf Dienste wie folgt:
    • Namensknoten
    • Sekundärer Namensknoten
    • Job-Tracker
    • Daten-Knoten
    • Task Tracker
  • Die oberen drei sind Master-Dienste/Daemons/Knoten und die unteren beiden sind Slave-Dienste. Master-Dienste können miteinander kommunizieren und auf dieselbe Weise können Slave-Dienste miteinander kommunizieren.
  • Name Node ist ein Master-Knoten und Data Node ist der entsprechende Slave-Knoten und kann miteinander kommunizieren.

HDFS specifics

  • HDFS besteht aus nur einem Namensknoten, der als Master-Knoten bezeichnet wird.
  • Der Masterknoten kann Dateien verfolgen, das Dateisystem verwalten und hat die Metadaten aller gespeicherten Daten in sich.
  • Insbesondere enthält der Namensknoten die Angaben über die Anzahl der Blöcke, die Standorte der Datenknoten, in denen die Daten gespeichert sind, wo die Replikationen gespeichert sind, und andere Details.
  • Der Namensknoten hat direkten Kontakt mit dem Client.
  • Ein Datenknoten speichert Daten in ihm als Blöcke.
  • Er wird auch als Slave-Knoten bezeichnet und speichert die eigentlichen Daten im HDFS, die für den Client lesend und schreibend zugänglich sind.
  • Dies sind Slave-Dämonen. Jeder Data Node sendet alle 3 Sekunden eine Heartbeat-Nachricht an den Name Node und teilt mit, dass er am Leben ist.
  • Wenn der Name Node auf diese Weise 2 Minuten lang keinen Heartbeat von einem Datenknoten erhält, hält er diesen Datenknoten für tot und beginnt den Prozess der Blockreplikationen auf einem anderen Datenknoten.

Apache Hive

  • Bei Apache Hive handelt es sich um ein Data Warehouse-Softwareprojekt.
  • Es baut auf Apache Hadoop auf und ermöglicht Analysen und Datenabfragen.
  • Hive umfasst eine Schnittstelle ähnlich zu SQL, zur Abfrage von Daten die in verschiedenen Dateisystemen und Datenbanken gespeichert sind, die wiederum mit Hadoop integriert sind.
  • Im Gegsatz dazu müssen SQL-Abfragen in der MapReduce-Java-API implementiert sein, um Abfragen und SQL-Anwendungen ausführen zu können.
  • Hive bietet die notwendige SQL-Abstraktion, um per HiveQL (SQL-ähnliche Abfragen) in das zugrunde liegende Java zu integrieren.
  • Dafür müssen keine Abfragen in der Low-Level-Java-API implementiert werden.

Apache Kafka

  • Apache Kafka ist eine Software, genauer: eine Framework-Implementierung, eines Software-Busses mit Stream-Processing. Es ist eine Open-Source-Softwareplattform.
  • Kafka kann sich über Kafka Connect mit externen Systemen verbinden (für Datenimport/-export) und bietet Kafka Streams, eine Java-Stream-Verarbeitungsbibliothek.
  • Kafka verwendet ein binäres TCP-basiertes Protokoll, das auf Effizienz optimiert ist und auf einer "Message-Set"-Abstraktion beruht, die Nachrichten auf natürliche Weise zusammenfasst, um den Overhead des Netzwerk-Roundtrips zu reduzieren.

Cloud Computing

  • Typischerweise beinhaltet IaaS die Verwendung einer Cloud-Orchestrierungstechnologie wie OpenStack, Apache CloudStack oder OpenNebula
  • Diese verwaltet die Erstellung einer virtuellen Maschine und entscheidet, auf welchem Hypervisor (d. h. physischen Host) sie gestartet werden soll, ermöglicht VM-Migrationsfunktionen zwischen Hosts, weist Speichervolumes zu und fügt sie VMs zu, verfolgt Nutzungsinformationen für die Abrechnung und mehr.

Platform as a Service

  • Platform as a Service (PaaS) bzw. Application Platform as a Service (aPaaS) ist eine Kategorie von Cloud-Computing-Diensten, die es Kundinnen ermöglicht, ein modulares Bündel, das eine Computing-Plattform und eine oder mehrere Anwendungen umfasst, bereitzustellen, zu instanziieren, auszuführen und zu verwalten, ohne die Komplexität des Aufbaus und der Wartung der Infrastruktur.

3 Arten eines solchen Services

  • Als öffentlicher Cloud-Service eines Anbieters: Hier steuert der Verbraucher Verbraucher die Softwarebereitstellung mit minimalen Konfigurationsoptionen.
  • Angebot als privater Dienst (Software oder Appliance) hinter einer Firewall.
  • Angebot als Software, bereitgestellt als Dienst in einer öffentlichen Infrastruktur.

Software as a service

  • Software as a Service (SaaS) ist ein Software-Lizenzierungs- und Bereitstellungsmodell.
  • Bei diesem wird Software auf Abonnementbasis bereitgestellt und zentral gehostet.
  • Des Öfteren wird dieser Service auch als "On-Demand-Software" bezeichnet. SaaS-Anwendungen sind auch als On-Demand-Software und webbasierte/gehostete Software bekannt.
  • SaaS wird zusammen mit Infrastructure as a Service (IaaS), Platform as a Service (PaaS), Desktop as a Service (DaaS), Managed Software as a Service (MSaaS), Mobile Backend as a Service (MBaaS), Datacenter as a Service (DCaaS) und Information Technology Management as a Service (ITMaaS) als Teil des Cloud Computing angesehen.

Big Data Analytics

  • Wenn Big-Data-Datensätze mit strukturierten, halb- und unstrukturierten Daten aus diversen Quellen mit unterschiedlicher Größe mittels fortschrittlicher Analysetechniken analysiert werden, sprechen wir von Big-Data-Analytics.
  • Typische Datenquellen wurde bereits zuvor in diesem Skript vorgestellt. Sie stammen beispielsweise von einer Vielzahl von Sensoren und Geräten, aus Audio- oder Videoaufzeichnungen, aus Netzwerken und entsprechenden Protokolldateien oder ganz allgemein aus dem Internet.

Batch Analytics

  • Bei der Stapelverarbeitung erfolgt die Verarbeitung von Datenblöcken, die bereits über einen bestimmten Zeitraum gespeichert wurden.
  • Hadoop MapReduce ist das beste Framework für die Verarbeitung von Daten in Batches.
  • Die Batch-Verarbeitung funktioniert gut in Situationen, in denen Sie keine Echtzeit-Analyseergebnisse benötigen und wenn es wichtiger ist, große Datenmengen zu verarbeiten, um detailliertere Erkenntnisse zu erhalten, als schnelle Analyseergebnisse zu erhalten.

Real-Time Analytics

  • Echtzeit-Analytik bezieht sich auf den Prozess der Aufbereitung und Messung von Daten, sobald sie in die Datenbank eintreten.
  • Mit anderen Worten, die Benutzer erhalten Einblicke oder können sofort (oder sehr schnell nach dem Eingang der Daten in ihr System) Schlussfolgerungen ziehen.
  • Echtzeit-Analytik ermöglicht es Unternehmen, ohne Verzögerung zu reagieren.
  • Sie können Chancen ergreifen oder Probleme verhindern, bevor sie entstehen.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Big Data Technologien PDF

Description

Dieses Quiz behandelt NoSQL-Datenbanken, Hadoop MapReduce und HDFS. Es werden Sensoren, Lidar und CCDs im Kontext von Big Data untersucht. Zusätzlich behandelt es die Kommunikation zwischen Master- und Slave-Diensten in HDFS.

More Like This

Hadoop and Apache Spark Overview
12 questions
Chapitre III: Limitations de Hadoop et HBase
42 questions

Chapitre III: Limitations de Hadoop et HBase

ConciliatoryBarbizonSchool5408 avatar
ConciliatoryBarbizonSchool5408
Use Quizgecko on...
Browser
Browser