Podcast
Questions and Answers
Welche der folgenden Aussagen beschreibt am besten den Vorteil von NoSQL-Datenbanken im Kontext von Big Data?
Welche der folgenden Aussagen beschreibt am besten den Vorteil von NoSQL-Datenbanken im Kontext von Big Data?
- NoSQL-Datenbanken reduzieren die Notwendigkeit von Hardware-Ressourcen im Vergleich zu relationalen Datenbanken.
- NoSQL-Datenbanken sind auf relationale Daten beschränkt und daher ideal für strukturierte Daten.
- NoSQL-Datenbanken erzwingen ein starres Schema, was die Datenkonsistenz verbessert.
- NoSQL-Datenbanken bieten eine effizientere Verwaltung und Suche in unterschiedlichen Datensätzen, insbesondere bei komplexen Datentypen. (correct)
Wie tragen moderne Plattformen mit Hadoop MapReduce zur effizienten Verarbeitung von Big Data bei?
Wie tragen moderne Plattformen mit Hadoop MapReduce zur effizienten Verarbeitung von Big Data bei?
- Sie reduzieren die Datenmenge durch Aggregation vor der Analyse.
- Sie benötigen eine vorherige Normalisierung aller Datensätze.
- Sie beschränken sich auf die Verarbeitung strukturierter Datensätze.
- Sie ermöglichen die effiziente Darstellung sowohl von strukturierten als auch von unstrukturierten Datensätzen. (correct)
Was ist die Hauptfunktion von Sensoren im Kontext technischer Systeme?
Was ist die Hauptfunktion von Sensoren im Kontext technischer Systeme?
- Die Umwandlung von elektrischer Energie in mechanische Arbeit.
- Die drahtlose Übertragung von Daten über große Distanzen.
- Die Erkennung einer bestimmten Art von Eingabe aus der technischen Umgebung und die Reaktion darauf. (correct)
- Die Speicherung und Verarbeitung von großen Datenmengen.
Welche der folgenden Aussagen beschreibt am besten die ursprüngliche Beziehung zwischen MapReduce und Google?
Welche der folgenden Aussagen beschreibt am besten die ursprüngliche Beziehung zwischen MapReduce und Google?
Welche Aussage beschreibt am besten die Funktionsweise eines Beschleunigungssensors?
Welche Aussage beschreibt am besten die Funktionsweise eines Beschleunigungssensors?
Was ist die Hauptaufgabe des Hadoop Distributed File System (HDFS) innerhalb des Hadoop-Frameworks?
Was ist die Hauptaufgabe des Hadoop Distributed File System (HDFS) innerhalb des Hadoop-Frameworks?
Wie funktioniert ein Photosensor?
Wie funktioniert ein Photosensor?
Was ist das Hauptprinzip der Funktionsweise von Lidar?
Was ist das Hauptprinzip der Funktionsweise von Lidar?
Welche der folgenden ist KEIN Dienst von HDFS?
Welche der folgenden ist KEIN Dienst von HDFS?
Welche Rolle spielt der Namensknoten in HDFS?
Welche Rolle spielt der Namensknoten in HDFS?
Wie speichert und zeigt ein ladungsgekoppeltes Gerät (CCD) Daten für ein Bild an?
Wie speichert und zeigt ein ladungsgekoppeltes Gerät (CCD) Daten für ein Bild an?
Welche Art von Daten können intelligente Netzsensoren liefern?
Welche Art von Daten können intelligente Netzsensoren liefern?
Wie kommunizieren Master- und Slave-Dienste in HDFS?
Wie kommunizieren Master- und Slave-Dienste in HDFS?
Was passiert, wenn ein Data Node keine Heartbeat-Nachricht an den Name Node sendet?
Was passiert, wenn ein Data Node keine Heartbeat-Nachricht an den Name Node sendet?
Welchen Vorteil bieten 5G-Netzwerke gegenüber ihren Vorgängern hauptsächlich?
Welchen Vorteil bieten 5G-Netzwerke gegenüber ihren Vorgängern hauptsächlich?
Was ist die Hauptfunktion eines Datenknotens in HDFS?
Was ist die Hauptfunktion eines Datenknotens in HDFS?
Welche Aussage beschreibt am besten, wie 5G-Mobilfunkgeräte mit dem Internet verbunden sind?
Welche Aussage beschreibt am besten, wie 5G-Mobilfunkgeräte mit dem Internet verbunden sind?
Welche Entwicklung wird durch die größere Bandbreite von 5G-Netzwerken wahrscheinlich gefördert?
Welche Entwicklung wird durch die größere Bandbreite von 5G-Netzwerken wahrscheinlich gefördert?
Wie oft sendet ein Data Node standardmäßig eine Heartbeat-Nachricht an den Name Node?
Wie oft sendet ein Data Node standardmäßig eine Heartbeat-Nachricht an den Name Node?
Welche Aussage über die Nutzung von 5G-Netzwerken durch bestehende Geräte ist korrekt?
Welche Aussage über die Nutzung von 5G-Netzwerken durch bestehende Geräte ist korrekt?
Was ist Ethernet?
Was ist Ethernet?
Wodurch wurde das ursprüngliche 10BASE5-Ethernet charakterisiert?
Wodurch wurde das ursprüngliche 10BASE5-Ethernet charakterisiert?
Welche Aussage über die Entwicklung von Ethernet im Laufe der Zeit ist zutreffend?
Welche Aussage über die Entwicklung von Ethernet im Laufe der Zeit ist zutreffend?
Was ersetzte Ethernet im Laufe der Zeit weitgehend?
Was ersetzte Ethernet im Laufe der Zeit weitgehend?
Welche Aussage beschreibt am besten die Rolle des MapReduce-Systems (oder Frameworks)?
Welche Aussage beschreibt am besten die Rolle des MapReduce-Systems (oder Frameworks)?
In welchem Szenario ist der Einsatz einer Single-Thread-Implementierung von MapReduce typischerweise vorteilhaft gegenüber einer herkömmlichen Implementierung?
In welchem Szenario ist der Einsatz einer Single-Thread-Implementierung von MapReduce typischerweise vorteilhaft gegenüber einer herkömmlichen Implementierung?
Welchen Vorteil bietet die Verwendung von Hadoop Streaming?
Welchen Vorteil bietet die Verwendung von Hadoop Streaming?
Was optimiert das MapReduce-Framework hauptsächlich, um Skalierbarkeit und Fehlertoleranz zu erreichen?
Was optimiert das MapReduce-Framework hauptsächlich, um Skalierbarkeit und Fehlertoleranz zu erreichen?
Welches Prinzip der Datenanalyse liegt dem MapReduce-Modell zugrunde?
Welches Prinzip der Datenanalyse liegt dem MapReduce-Modell zugrunde?
Betrachten Sie ein Szenario, in dem große Textdateien nach der Häufigkeit einzelner Wörter analysiert werden sollen. Wie würden die Map- und Reduce-Phasen typischerweise eingesetzt?
Betrachten Sie ein Szenario, in dem große Textdateien nach der Häufigkeit einzelner Wörter analysiert werden sollen. Wie würden die Map- und Reduce-Phasen typischerweise eingesetzt?
Was ist eine wesentliche Voraussetzung für einen effizienten MapReduce-Algorithmus?
Was ist eine wesentliche Voraussetzung für einen effizienten MapReduce-Algorithmus?
Welche der folgenden Aussagen beschreibt am besten das Verhältnis von MapReduce zu funktionaler Programmierung?
Welche der folgenden Aussagen beschreibt am besten das Verhältnis von MapReduce zu funktionaler Programmierung?
Welche der folgenden Aussagen beschreibt am besten den Unterschied zwischen strukturierter und unstrukturierter Datenspeicherung?
Welche der folgenden Aussagen beschreibt am besten den Unterschied zwischen strukturierter und unstrukturierter Datenspeicherung?
Wie nutzen Social-Media-Plattformen wie Facebook und Pinterest Gesichtserkennung bzw. Objekterkennung, um ihre Dienste zu verbessern?
Wie nutzen Social-Media-Plattformen wie Facebook und Pinterest Gesichtserkennung bzw. Objekterkennung, um ihre Dienste zu verbessern?
Welchen Vorteil bieten strukturierte Daten im Vergleich zu unstrukturierten Daten im Kontext von Softwareanwendungen?
Welchen Vorteil bieten strukturierte Daten im Vergleich zu unstrukturierten Daten im Kontext von Softwareanwendungen?
Welche Rolle spielt die Verarbeitung natürlicher Sprache (NLP) bei der Interaktion zwischen Mensch und KI, wie sie in persönlichen Assistenten wie Siri und Alexa verwendet wird?
Welche Rolle spielt die Verarbeitung natürlicher Sprache (NLP) bei der Interaktion zwischen Mensch und KI, wie sie in persönlichen Assistenten wie Siri und Alexa verwendet wird?
Warum ist es notwendig, Daten zu korrigieren oder abzuschneiden, bevor sie in einer relationalen Datenbank mit strukturierten Daten gespeichert werden können?
Warum ist es notwendig, Daten zu korrigieren oder abzuschneiden, bevor sie in einer relationalen Datenbank mit strukturierten Daten gespeichert werden können?
Inwiefern unterscheidet sich die Interaktion mit KI in Anwendungen wie Gesichtserkennung auf Facebook von der Interaktion mit persönlichen Assistenten wie Google Now?
Inwiefern unterscheidet sich die Interaktion mit KI in Anwendungen wie Gesichtserkennung auf Facebook von der Interaktion mit persönlichen Assistenten wie Google Now?
Welche der folgenden Aussagen beschreibt am besten die Eignung von strukturierten Daten für prozessgesteuerte Anwendungen?
Welche der folgenden Aussagen beschreibt am besten die Eignung von strukturierten Daten für prozessgesteuerte Anwendungen?
Wie beeinflusst die Analyse der Nutzerstimmung auf Plattformen wie Twitter und Instagram die Bereitstellung von Inhalten?
Wie beeinflusst die Analyse der Nutzerstimmung auf Plattformen wie Twitter und Instagram die Bereitstellung von Inhalten?
Welchen Vorteil bietet ein Dateisystem, das nicht vollständig POSIX-kompatibel ist, typischerweise?
Welchen Vorteil bietet ein Dateisystem, das nicht vollständig POSIX-kompatibel ist, typischerweise?
Wie unterscheidet sich Apache Hive von klassischen SQL-Abfragen in Bezug auf die Implementierung in Hadoop?
Wie unterscheidet sich Apache Hive von klassischen SQL-Abfragen in Bezug auf die Implementierung in Hadoop?
Welchen Vorteil bietet die SQL-Abstraktion von Apache Hive im Kontext von Data Warehousing-Anwendungen?
Welchen Vorteil bietet die SQL-Abstraktion von Apache Hive im Kontext von Data Warehousing-Anwendungen?
Welches Ziel verfolgt Apache Kafka primär?
Welches Ziel verfolgt Apache Kafka primär?
Wie reduziert Apache Kafka den Overhead des Netzwerk-Roundtrips?
Wie reduziert Apache Kafka den Overhead des Netzwerk-Roundtrips?
Welche Auswirkung hat die Verwendung von "Message-Sets" in Apache Kafka?
Welche Auswirkung hat die Verwendung von "Message-Sets" in Apache Kafka?
Wie wandelt Kafka einen Strom von zufälligen Nachrichten in effizientere Operationen um?
Wie wandelt Kafka einen Strom von zufälligen Nachrichten in effizientere Operationen um?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen Kafka Connect und Kafka Streams?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen Kafka Connect und Kafka Streams?
Flashcards
Gesichtserkennung durch KI
Gesichtserkennung durch KI
KI-Anwendungen, die Nutzer anhand hochgeladener Bilder erkennen.
Objekterkennung durch KI
Objekterkennung durch KI
KI-Anwendungen, die Objekte in Bildern identifizieren und Kategorien zuordnen.
Sentimentanalyse
Sentimentanalyse
KI-Anwendungen, die Gefühle und Meinungen in Nutzertexten analysieren.
Gesichtsbewegungsverfolgung
Gesichtsbewegungsverfolgung
Signup and view all the flashcards
Virtuelle Assistenten
Virtuelle Assistenten
Signup and view all the flashcards
Strukturierte Daten
Strukturierte Daten
Signup and view all the flashcards
Vordefiniertes Datenmodell
Vordefiniertes Datenmodell
Signup and view all the flashcards
Prozessgesteuerte Anwendungen
Prozessgesteuerte Anwendungen
Signup and view all the flashcards
NoSQL-Datenbanken
NoSQL-Datenbanken
Signup and view all the flashcards
Hadoop Map Reduce
Hadoop Map Reduce
Signup and view all the flashcards
Sensordaten
Sensordaten
Signup and view all the flashcards
Beschleunigungssensor
Beschleunigungssensor
Signup and view all the flashcards
Photosensor
Photosensor
Signup and view all the flashcards
Lidar
Lidar
Signup and view all the flashcards
Ladungsgekoppeltes Gerät (CCD)
Ladungsgekoppeltes Gerät (CCD)
Signup and view all the flashcards
Intelligente Netzsensoren
Intelligente Netzsensoren
Signup and view all the flashcards
Was sind 5G-Netzwerke?
Was sind 5G-Netzwerke?
Signup and view all the flashcards
Hauptvorteil von 5G?
Hauptvorteil von 5G?
Signup and view all the flashcards
Was ermöglicht 5G im IoT-Bereich?
Was ermöglicht 5G im IoT-Bereich?
Signup and view all the flashcards
Was ist Ethernet?
Was ist Ethernet?
Signup and view all the flashcards
Wann wurde Ethernet erstmals standardisiert?
Wann wurde Ethernet erstmals standardisiert?
Signup and view all the flashcards
Welche Technologien hat Ethernet weitgehend ersetzt?
Welche Technologien hat Ethernet weitgehend ersetzt?
Signup and view all the flashcards
Was verwendete das ursprüngliche 10BASE5-Ethernet?
Was verwendete das ursprüngliche 10BASE5-Ethernet?
Signup and view all the flashcards
Was verwenden neuere Ethernet-Varianten?
Was verwenden neuere Ethernet-Varianten?
Signup and view all the flashcards
Was ist MapReduce?
Was ist MapReduce?
Signup and view all the flashcards
Was macht die Map-Prozedur?
Was macht die Map-Prozedur?
Signup and view all the flashcards
Was macht die Reduce-Methode?
Was macht die Reduce-Methode?
Signup and view all the flashcards
Was macht das MapReduce-System?
Was macht das MapReduce-System?
Signup and view all the flashcards
Was ist die Split-Apply-Combine-Strategie?
Was ist die Split-Apply-Combine-Strategie?
Signup and view all the flashcards
Was sind die Hauptvorteile von MapReduce?
Was sind die Hauptvorteile von MapReduce?
Signup and view all the flashcards
Wann ist MapReduce vorteilhaft?
Wann ist MapReduce vorteilhaft?
Signup and view all the flashcards
Was ist wesentlich für einen guten MapReduce-Algorithmus?
Was ist wesentlich für einen guten MapReduce-Algorithmus?
Signup and view all the flashcards
MapReduce (Hadoop)
MapReduce (Hadoop)
Signup and view all the flashcards
HDFS (Hadoop Distributed File System)
HDFS (Hadoop Distributed File System)
Signup and view all the flashcards
Namensknoten (HDFS)
Namensknoten (HDFS)
Signup and view all the flashcards
Datenknoten (HDFS)
Datenknoten (HDFS)
Signup and view all the flashcards
HDFS Master-Dienste
HDFS Master-Dienste
Signup and view all the flashcards
HDFS Slave-Dienste
HDFS Slave-Dienste
Signup and view all the flashcards
Heartbeat-Nachricht (Datenknoten)
Heartbeat-Nachricht (Datenknoten)
Signup and view all the flashcards
Metadaten (Namensknoten)
Metadaten (Namensknoten)
Signup and view all the flashcards
Nachteile von nicht vollständig POSIX-kompatiblen Dateisystemen?
Nachteile von nicht vollständig POSIX-kompatiblen Dateisystemen?
Signup and view all the flashcards
Was ist Apache Hive?
Was ist Apache Hive?
Signup and view all the flashcards
Vorteil von HiveQL?
Vorteil von HiveQL?
Signup and view all the flashcards
Was ist Apache Kafka?
Was ist Apache Kafka?
Signup and view all the flashcards
Funktionen von Kafka?
Funktionen von Kafka?
Signup and view all the flashcards
Wie optimiert Kafka die Effizienz?
Wie optimiert Kafka die Effizienz?
Signup and view all the flashcards
Wie verarbeitet Kafka Daten?
Wie verarbeitet Kafka Daten?
Signup and view all the flashcards
In welchen Sprachen ist Kafka geschrieben?
In welchen Sprachen ist Kafka geschrieben?
Signup and view all the flashcards
Study Notes
Big Data Technologien
- Die Kombination neu entstehender Datenquellen ist ein wesentlicher Faktor beim Einsatz neuer Technologien wie Advanced Analytics oder Künstlicher Intelligenz.
- Daten aus dem Internet der Dinge und sozialen Netzwerken spielen eine große Rolle.
- Verbraucher und Gesellschaft zeigen zunehmende Bereitschaft, neue Technologien zu nutzen und Daten auszutauschen.
- Die "Digital Natives" sind neuen Technologien und dem Austausch persönlicher Daten sehr aufgeschlossen.
- Jüngere Generationen haben datenintensive Aktivitäten wie Social Media in ihr tägliches Leben integriert, obwohl Datenschutz wichtig ist.
- Social-Media-Plattformen sind beliebte Möglichkeiten für Einzelpersonen, Organisationen und Unternehmen zur gemeinsamen Nutzung, Kommunikation, Vernetzung und Zusammenarbeit geworden.
- Sie bieten gesteigertes Markenbewusstsein, verbesserte Kundenanalysen und neue Vertriebskanäle.
- Journalisten, Wissenschaftler, Geschäftsinhaber und die breite Öffentlichkeit vernetzen sich stärker über soziale Medien.
- KI wird zur Gewinnung von Erkenntnissen über Verbraucher und im Alltag eingesetzt.
- Suchmaschinen nutzen Künstliche Intelligenz seit Jahren, Google und Baidu haben hochleistungsfähige Algorithmen zur Verbesserung der Suchgenauigkeit entwickelt.
- Betrug kann durch Algorithmen des maschinellen Lernens zur Sicherung von Bankkonten aufgedeckt werden.
- Algorithmen filtern Spam in E-Mail-Konten automatisch.
- Facebook verwendet Gesichtserkennung, um Nutzer mit neuen Bildern zu vergleichen.
- Pinterest identifiziert automatisch Objekte in Bildern und ordnet diese Kategorien zu.
- Nutzer, die bestimmte Kategorien abonniert haben, erhalten fortlaufend neue Bildinformationen und Links zu entsprechenden Verkaufsportalen.
- Twitter und Instagram analysieren die Nutzerstimmung, Snapchat verfolgt Gesichtsbewegungen und ermöglicht dynamische Überlagerungen.
- Es werden Anstrengungen unternommen, um KI proaktiver und interaktiver zu gestalten.
- Siri, Alexa, Google Now und Cortana können natürliche Sprache (NLP) verarbeiten und bei der Beantwortung von Fragen helfen.
Strukturierte und unstrukturierte Daten
- Daten lassen sich in strukturierte und unstrukturierte Daten einordnen.
- Strukturierte Daten entsprechen einem vordefinierten Datenmodell und lassen sich leicht in bestimmte Felder abbilden.
- Beispiele für strukturierte Daten sind Postleitzahlen (fünfstellig) und Bundesländer (zweistellige Abkürzung).
- Sie lassen sich leicht in relationalen Datenbanken speichern und abrufen, wobei das Verwaltungssystem die korrekte Formatierung sichert.
- Jeder Datensatz hält sich an ein vordefiniertes Datenmodell, andernfalls ist eine Korrektur oder ein Abschneiden der Daten erforderlich.
- Strukturierte Daten sind oft textlastig und daher einfach zu parsen und zu durchsuchen.
- Sie eignen sich am besten für prozessgesteuerte Anwendungen, die auf spezifische Informationen in einem bekannten Format angewiesen sind.
- Ein Beispiel ist ein Bestandskontrollsystem, das Lagerbestände gegen Produktions-SKUs verwaltet.
- Unstrukturierte Daten haben kein vordefiniertes Datenmodell und lassen sich daher schwer in Tabellen einer relationalen Datenbank einordnen.
- Beispiele sind E-Mails, Videos, Satellitenbilder und Audiodateien, die sich schwer mit klassischen datenbankbezogenen Systemen erfassen, verarbeiten und analysieren lassen.
- Unstrukturierte Daten sind mehrdeutig und erlauben das Speichern eines breiteren Spektrums an Daten, einschließlich Bildern, Ton, Video und Text.
- Mit zunehmendem Umfang der Speicherung und Komplexität der Daten steigt die Schwierigkeit der Suche und Analyse.
- Moderne Datenbankmanagementsysteme wie NoSQL-Datenbanken erleichtern die Speicherung und Verarbeitung großer Mengen unstrukturierter Daten.
- Unstrukturierte Daten und Anwendungen sind in der Regel mehrdeutig, wie z.B. E-Mail-Clients oder Präsentationssoftware.
- Potenziell wertvolle Informationen in diesen Medien können nicht mit normalen Textabfragen aus einer herkömmlichen relationalen Datenbank abgerufen werden.
- Strukturierte Daten eignen sich gut für relationale Datenbanksysteme.
- Große Datenbestände können in einem Data Warehouse untergebracht werden, solange die Informationen dem starren Datenbankschema entsprechen.
- Unstrukturierte Daten können an vielen Stellen gespeichert werden, oft in eigenen Datensilos wie E-Mail-Servern.
- Data Warehouses und Data Lakes ermöglichen Big-Data-Analysen durch Erhöhung der Gesamtkapazität mit kostengünstigem Standardspeicher.
- NoSQL-Datenbanken ermöglichen die effizientere Verwaltung und Suche in unterschiedlichen Datensätzen für die Analyse komplexer Datentypen.
- Moderne Plattformen wie Hadoop MapReduce erlauben die effiziente Darstellung sowohl von strukturierten als auch von unstrukturierten Datensätzen.
Sensordaten
- Sensordaten sind die Ausgabe eines Geräts, das eine bestimmte Art von Eingabe aus der technischen Umgebung erkennt und darauf reagiert und können zur Informationsbereitstellung für andere Systeme oder zur Steuerung von Prozessen dienen.
- Sensoren können nahezu jeden Zustand eines physikalischen Systems erfassen.
- Beschleunigungssensoren erkennen Änderungen der Erdbeschleunigung.
- Photosensoren detektieren das Vorhandensein von sichtbarem Licht, Infrarotübertragung (IR) und/oder ultravioletter (UV) Energie.
- Lidar ist eine laserbasierte Methode zur Erkennung, Entfernungsbestimmung und Kartierung.
- Ladungsgekoppelte Geräte (CCD) speichern und zeigen Daten für ein Bild an, indem jeder Pixel in eine elektrische Ladung umgewandelt wird.
- Intelligente Netzsensoren liefern Echtzeitdaten über die Netzbedingungen.
- Drahtlose Sensornetzwerke überwachen und zeichnen Bedingungen an verschiedenen Standorten auf, wie Temperatur, Luftfeuchtigkeit und Druck.
- Sensordaten sind ein integraler Bestandteil des Internet of Things (IoT).
- Im IoT kann fast jede Einheit mit einer eindeutigen Kennung (UID) und Datenübertragungsfähigkeit ausgestattet sein.
Streaming-Daten
- Cloud Computing und die Verbesserung von Datenbanken spielen im Kontext von Big Data eine entscheidende Rolle.
- Datenbanken haben in den letzten Jahrzehnten einen Vorsprung in Bezug auf Leistung und Technik erzielt.
- Das In-Memory-Computing hat Datenbanken zu einer neuen Performance verholfen.
- Diese Innovation ermöglicht neue Big-Data-Berechnungen.
- Diese Berechnungen wären ohne die Anpassung bestehender Algorithmen an neue Infrastrukturen nicht möglich gewesen.
- Big-Data-Konzepte ermöglichen einen schnelleren Zugriff auf wichtige Informationen und fördern die proaktive Handlungsfähigkeit von Unternehmen.
- Durch Big Data und Data Warehouses können Rohdaten analysiert und neue Erkenntnisse gewonnen werden.
- Die Steuerung und Überwachung dynamischer Prozesse erfordert die Überwachung, Verdichtung, Filterung und Korrelation zeitlich gereihter Ereignisse aus heterogenen Quellen.
- Hierbei werden Muster und Regeln im Datenstrom gefiltert.
- Etablierte Streaming-Methoden sind:
- DSCP (Distributed Stream Computing Platforms)
- CEP (Complex-Event Processing)
- DSCP greift auf Serverfarmen (Grids) zurück, um Algorithmen in Echtzeit auf kontinuierliche Datenströme anzuwenden.
- CEP ist eine Technologie zur Verarbeitung von Informationsflüssen, bei der Daten aus verschiedenen Quellen zusammengefügt werden, um Messwerte zu aggregieren, wichtige Ereignisse zu identifizieren.
- Mögliche Aktionen umfassen:
- Projektion: Berechnen von Werten aus Parametern eines Ereignisses oder Generieren von Unterereignissen aus diesen.
- Filtern: Prüfen von Bedingungen gegen Ereignisparameter.
- Gruppierung: Partitionieren der ausgegebenen Ereignisse.
- Aggregation: Berechnen von Durchschnitt, Anzahl, Maximum, Minimum oder Summen von Ereignisparametern.
- Join: Verknüpfen und Vergleichen von Ereignissen unterschiedlicher Streams.
- Datenströme haben einen zeitlichen Kontext.
- CEP-Systeme unterstützen die Abstraktion von Zeitfenstern.
- Fenster können sein:
- „Springende Fenster“: Kumulieren von Ereignissen über die Zeit.
- Ereignisbasierte Fenster: Erzeugen nur dann eine Ausgabe, falls während des Zeitfensters ein Ereignis auftritt.
- Zählerbasierte Fenster: Geben Ereignisfolgen der Länge n für einen Zähler aus.
- CEP findet im Finanzsektor und im Bereich IoT sowie in sozialen Netzwerken Anwendung.
- CEP ermöglicht hochfrequente Analysen durch geringste Latenzzeiten anstelle von traditionellen SQL-Abfragen historischer Daten.
- Der hochfrequente algorithmische Handel (HFAT) über klassische Börsen und unregulierte Over-the-Counter (OTC)-Swaps (Dark Pools) ist eine klassische Anwendung für CEP.
- CEP wird auch für die Echtzeit-Überwachung von Objekten und Anlagen und intelligente Zähler eingesetzt.
- Im Gesundheitswesen könnten physiologische Datenmessgeräte über die Cloud Daten an CEP-Systeme liefern, um gesundheitsgefährdende Ausschläge zu erkennen.
- Ein weiterer Einsatzbereich ist die Echtzeit-Überwachung von seismischen und kosmischen Aktivitäten.
Datenerfassung und -verarbeitung
- Die Datenerfassung und Datenpipeline ist eine der zeitaufwändigsten Aufgaben in Data-Science-Projekten.
- Data Scientists müssen sich mit verschiedenen Systemen mit unterschiedlichen Datenstrukturen auseinandersetzen.
- Herausforderungen sind:
- Integration unterschiedlicher Datenformate und -quellen: Neue Datenquellen erfordern Echtzeit-Datenverarbeitung, was die Datenintegration komplexer macht.
- Bewältigung des hohen Wachstums der Datenmengen: Die Datenmengen in allen Branchen steigen stetig.
- Schutz der erhöhten Leistung: Unternehmen müssen mit der Performance von Anwendungen umgehen.
- Die Performance hat daher Priorität.
- Engpässe bei Ein- und Ausgabeoperationen können zu Problemen bei der Datenbankleistung führen, ebenso unzureichendes technisches Know-how oder schlecht programmierte Datenzugriffe.
- Der Aufwand für Tuning und Optimierung einer Multi-Terabyte-Datenbank ist oft hoch.
- Es müssen alternative Architekturen und Technologien in Betracht gezogen werden.
- Das Wachstum von Daten in Bezug auf Vielfältigkeit, Geschwindigkeit und Volumen setzt Datenmanagement-Lösungen unter Druck.
- Unternehmen suchen nach neuen Anwendungen und fortschrittlicher Analytik.
- Entscheidungsträger haben mehr Wahlmöglichkeiten als in der Vergangenheit.
- Zu den Datenbanklösungen gehören:
- Relationale Datenbanken: VoltDB, Clustrix, TransLattice, MemSQL, ScaleArc, ScaleBase, ScaleDB, StormDB, VMware vFabric SQLFire und SAP HANA Cloud Platform.
- Ein Enterprise Data Warehouse: Für Business Intelligence und Analytics genutzt, zur Analyse gespeicherter Daten für Reporting-Aufgaben.
- ETL-Technologien übertragen Daten aus OLTP-Datenbanken in das Data Warehouse, wo sie zu "Datenwürfeln" für die Datenanalyse (OLAP) verarbeitet werden.
- Das Data Warehouse bildet die Backend-Infrastruktur für Kunden-, Produkt- und Mitarbeiterverwaltung.
- Datenbank- und Data-Warehouse-Anbieter bieten neue, maßgeschneiderte Systeme an.
Kommunikationstechnologien
- Ein Kommunikationssystem ist eine Sammlung von Telekommunikationsnetzen und Endgeräten, die miteinander verbunden sind.
- Telekommuniaktion ist ist eine Methode der kommunikation z.B. im den Massenmedien für Sport oder ähnliches.
- Da immer häufiger Rechenkapazitäten und Anwendungssysteme aus der Cloud bezogen werden, werden bessere Kommunikationsnetze benötigt.
- Drahtlose Verfahren wie 5G sind aktuell im Trend und ermöglichen schnelle Verbindungen von verschiedenen Geräten mit Rechenzentren und Edge-Devices.
- Ein Wireless LAN (WLAN) verbindet Geräte drahtlos in einem lokalen Netzwerk (LAN).
- Über ein Gateway kann eine Verbindung zum Internet hergestellt werden.
- Wireless LANs basieren auf den IEEE 802.11-Standards und sind die am weitesten verbreiteten Computernetzwerke der Welt (Wi-Fi).
- Sie werden in Heim- und Büronetzwerken mit Laptops, Druckern, Smartphones usw. verwendet, um Web-TVs und Spielgeräte mit dem Internet zu verbinden.
- Hotspots in Restaurants, Cafés, Hotels, Bibliotheken und Flughäfen ermöglichen den Zugriff auf das Internet mit tragbaren Geräten.
Nahfeldkommunikation
- Bluetooth ist ein drahtloser Technologiestandard für kurze Entfernungen zum Austausch von Daten zwischen Geräten über UHF-Funkwellen.
- Er dient zum Aufbau von Personal Area Networks (PANs) und ist eine Alternative zu RS-232-Datenkabeln, um Dateien zwischen Geräten auszutauschen und Handys mit drahtlosen Kopfhörern zu verbinden.
- Die Reichweite ist auf 10 Meter begrenzt. Bluetooth wird von der Bluetooth Special Interest Group (SIG) verwaltet.
- Die Near-field communication (NFC) ermöglicht den berührungslosen Datenaustausch über kurze Distanzen (0 bis 2 cm).
- Über eine Punkt-zu-Punkt-Verbindung können Daten zwischen Geräten ausgetauscht werden.
- NFC-fähige Geräte können zur Parametrierung von Komponenten genutzt und mit Anwendungssoftware zum Lesen von elektronischen Tags oder Durchführen von Zahlungen ausgestattet werden.
- NFC-Protokolle standardisiert und ersetzen proprietäre Technologien.
- 5G ist der Nachfolger der 4G-Netze und der Technologiestandard der fünften Generation für Breitband-Mobilfunknetze.
- Bis 2025 werden voraussichtlich mehr als 1,7 Milliarden Teilnehmer weltweit 5G nutzen.
- Wie ihre Vorgänger sind 5G-Netzwerke zellulare Netzwerke.
- Der Vorteil der neuen Netzwerke ist die größere Bandbreite, die theoretisch bis zu 10 Gigabit pro Sekunde (Gbit/s) erreichen kann.
- Die Netze können zunehmend als Internetdienstanbieter für Endgeräte genutzt werden und konkurrieren mit Kabelinternet.
- Neue Vernetzungsmöglichkeiten im Bereich Internet der Dinge (IoT) und Machine-to-Machine werden ermöglicht.
- 4G-Mobiltelefone können die neuen Netzwerke nicht nutzen, es werden 5G-fähige Geräte benötigt.
Drahtgebundene Kommunikationssysteme
- Ethernet ist eine Familie von leitungsgebundenen Computer-Netzwerktechnologien für lokale Netzwerke (LAN), Metropolitan Area Networks (MAN) und Wide Area Networks (WAN).
- Ethernet wurde 1980 kommerziell eingeführt und 1983 als IEEE 802.3 standardisiert.
- Ethernet hat konkurrierende kabelgebundene LAN-Technologien wie Token Ring, FDDI und ARCNET weitgehend ersetzt.
- Neuere Ethernet-Varianten verwenden Twisted-Pair und Glasfaserverbindungen in Verbindung mit Switches.
- Die Datenübertragungsraten stiegen von 2,94 Megabit pro Sekunde (Mbit/s) auf 400 Gigabit pro Sekunde (Gbit/s).
- Ethernet-Standards umfassen Verdrahtungs- und Signalisierungsvarianten der OSI-Physical-Layer.
- Systeme, die über Ethernet kommunizieren, unterteilen einen Datenstrom in Frames.
- Jeder Frame enthält Quell- und Zieladressen sowie Daten zur Fehlerprüfung, so dass beschädigte Frames erkannt und verworfen werden können.
- Die Protokolle auf höherer Ebene sorgen für erneute Übertragung verlorener Frames.
Token Ring
- Token Ring ist eine Computernetzwerktechnologie für lokale Netzwerke.
- Sie wurde 1984 von IBM eingeführt und 1989 als IEEE 802.5 standardisiert.
- Es wird ein spezieller Drei-Byte-Rahmen verwendet, der Token, das in einem Ring von Workstations oder Servern herumgereicht wird, genannt wird.
- Token-Passing ermöglicht einen fairen Zugang für alle Stationen und eliminiert Kollisionen konkurrenzbasierter Zugriffsmethoden.
- Die Technologie wurde von neueren Versionen von Ethernet verdrängt.
- Supervisory Control and Data Acquisition (SCADA) ist eine Leitsystemarchitektur, die Computer, vernetzte Datenkommunikation und grafische Benutzeroberflächen (GUI) für die Prozessüberwachung umfasst.
Verteilte Systeme
- Verteilte Systeme sind ein Teilgebiet der Informatik, das sich mit Rechenoperationen innerhalb von getrennten physischen Systemen befasst.
- Die Komponenten des Systems befinden sich auf verschiedenen vernetzten Computern.
- Wesentliche Merkmale sind: Gleichzeitigkeit der Komponenten, unabhängiger Ausfall von Komponenten und Fehlen einer globalen Uhr.
- Beispiele sind SOA-basierte Systeme über Multiplayer Online Games bis hin zu Peer-to-Peer-Anwendungen.
Hadoop im Überblick
- Apache Hadoop ist eine Sammlung von Open-Source-Software-Dienstprogrammen zur Lösung von Problemen mit großen Datenmengen und Berechnungen.
- Das Programm beinhaltet ein Software-Framework zur verteilten Verarbeitung und Speicherung großer Datenmengen unter Verwendung des MapReduce-Programmiermodells.
- Hadoop wurde ursprünglich für Commodity-Hardware entwickelt, wird aber inzwischen auch auf Clustern mit hochwertiger Hardware eingesetzt.
- Die Module in Hadoop wurden unter der Annahme entwickelt, dass Hardware-Ausfälle häufig vorkommen und vom Framework behandelt werden sollten.
Hadoop Distributed File System (HDFS)
- Das Hadoop Distributed File System (HDFS) ist der Speicherteil von Apache Hadoop, der ein MapReduce-Programmiermodell darstellt.
- Dateien werden in große Blöcke aufgeteilt und auf die Knoten eines Clusters verteilt, sodass die Daten parallel verarbeitet werden können.
- Hadoop nutzt die Datenlokalität, um die Verarbeitung zu beschleunigen.
- Das Basis-Framework von Apache Hadoop besteht aus den Modulen:
- Hadoop Common-Modul: enthält Dienstprogramme und Bibliotheken.
- Hadoop Distributed File System (HDFS): speichert Daten auf Commodity-Maschinen und bietet hohe Bandbreite.
- Hadoop YARN: Plattform zur Verwaltung von Rechenressourcen in Clustern.
- Hadoop MapReduce-Modul: Implementierung des Verarbeitungsmodells für große Datenmengen.
- Hadoop Ozone: (eingeführt im Jahr 2020) Ein Objektspeicher.
MapReduce
- Das MapReduce-System orchestriert die Verarbeitung, indem es die verteilten Server zusammenfasst und verschiedene Aufgaben parallel ausführt.
- Das ist eine Spezialisierung der Split-Apply-Combine-Strategie für die Datenanalyse.
- Die wichtigsten Beiträge des MapReduce-Frameworks sind die Skalierbarkeit und Fehlertoleranz, die für eine Vielzahl von Anwendungen durch die Optimierung der Ausführungs-Engine erreicht wird.
- Eine Single-Thread-Implementierung von MapReduce ist in der Regel nicht schneller als traditionelle Implementierung.
- Die Verwendung dieses Modells ist nur dann vorteilhaft, wenn die optimierte verteilte Shuffle-Operation (die die Netzwerkkommunikationskosten reduziert) und die Fehlertoleranzfunktionen des MapReduce-Frameworks zum Tragen kommen.
- MapReduce-Bibliotheken wurden in vielen Programmiersprachen geschrieben, mit unterschiedlichen Optimierungsgraden.
HDFS details
- Das Hadoop Distributed File System (HDFS) ist ein verteiltes, skalierbares und portables Dateisystem, das in Java für das Hadoop-Framework geschrieben wurde.
- Es bietet Shell-Befehle und Methoden der Java-API, die anderen Dateisystemen ähneln.
- Eine Hadoop-Instanz ist in HDFS und MapReduce unterteilt.
- HDFS hat fünf Dienste wie folgt:
- Namensknoten
- Sekundärer Namensknoten
- Job-Tracker
- Daten-Knoten
- Task Tracker
- Die oberen drei sind Master-Dienste/Daemons/Knoten und die unteren beiden sind Slave-Dienste. Master-Dienste können miteinander kommunizieren und auf dieselbe Weise können Slave-Dienste miteinander kommunizieren.
- Name Node ist ein Master-Knoten und Data Node ist der entsprechende Slave-Knoten und kann miteinander kommunizieren.
HDFS specifics
- HDFS besteht aus nur einem Namensknoten, der als Master-Knoten bezeichnet wird.
- Der Masterknoten kann Dateien verfolgen, das Dateisystem verwalten und hat die Metadaten aller gespeicherten Daten in sich.
- Insbesondere enthält der Namensknoten die Angaben über die Anzahl der Blöcke, die Standorte der Datenknoten, in denen die Daten gespeichert sind, wo die Replikationen gespeichert sind, und andere Details.
- Der Namensknoten hat direkten Kontakt mit dem Client.
- Ein Datenknoten speichert Daten in ihm als Blöcke.
- Er wird auch als Slave-Knoten bezeichnet und speichert die eigentlichen Daten im HDFS, die für den Client lesend und schreibend zugänglich sind.
- Dies sind Slave-Dämonen. Jeder Data Node sendet alle 3 Sekunden eine Heartbeat-Nachricht an den Name Node und teilt mit, dass er am Leben ist.
- Wenn der Name Node auf diese Weise 2 Minuten lang keinen Heartbeat von einem Datenknoten erhält, hält er diesen Datenknoten für tot und beginnt den Prozess der Blockreplikationen auf einem anderen Datenknoten.
Apache Hive
- Bei Apache Hive handelt es sich um ein Data Warehouse-Softwareprojekt.
- Es baut auf Apache Hadoop auf und ermöglicht Analysen und Datenabfragen.
- Hive umfasst eine Schnittstelle ähnlich zu SQL, zur Abfrage von Daten die in verschiedenen Dateisystemen und Datenbanken gespeichert sind, die wiederum mit Hadoop integriert sind.
- Im Gegsatz dazu müssen SQL-Abfragen in der MapReduce-Java-API implementiert sein, um Abfragen und SQL-Anwendungen ausführen zu können.
- Hive bietet die notwendige SQL-Abstraktion, um per HiveQL (SQL-ähnliche Abfragen) in das zugrunde liegende Java zu integrieren.
- Dafür müssen keine Abfragen in der Low-Level-Java-API implementiert werden.
Apache Kafka
- Apache Kafka ist eine Software, genauer: eine Framework-Implementierung, eines Software-Busses mit Stream-Processing. Es ist eine Open-Source-Softwareplattform.
- Kafka kann sich über Kafka Connect mit externen Systemen verbinden (für Datenimport/-export) und bietet Kafka Streams, eine Java-Stream-Verarbeitungsbibliothek.
- Kafka verwendet ein binäres TCP-basiertes Protokoll, das auf Effizienz optimiert ist und auf einer "Message-Set"-Abstraktion beruht, die Nachrichten auf natürliche Weise zusammenfasst, um den Overhead des Netzwerk-Roundtrips zu reduzieren.
Cloud Computing
- Typischerweise beinhaltet IaaS die Verwendung einer Cloud-Orchestrierungstechnologie wie OpenStack, Apache CloudStack oder OpenNebula
- Diese verwaltet die Erstellung einer virtuellen Maschine und entscheidet, auf welchem Hypervisor (d. h. physischen Host) sie gestartet werden soll, ermöglicht VM-Migrationsfunktionen zwischen Hosts, weist Speichervolumes zu und fügt sie VMs zu, verfolgt Nutzungsinformationen für die Abrechnung und mehr.
Platform as a Service
- Platform as a Service (PaaS) bzw. Application Platform as a Service (aPaaS) ist eine Kategorie von Cloud-Computing-Diensten, die es Kundinnen ermöglicht, ein modulares Bündel, das eine Computing-Plattform und eine oder mehrere Anwendungen umfasst, bereitzustellen, zu instanziieren, auszuführen und zu verwalten, ohne die Komplexität des Aufbaus und der Wartung der Infrastruktur.
3 Arten eines solchen Services
- Als öffentlicher Cloud-Service eines Anbieters: Hier steuert der Verbraucher Verbraucher die Softwarebereitstellung mit minimalen Konfigurationsoptionen.
- Angebot als privater Dienst (Software oder Appliance) hinter einer Firewall.
- Angebot als Software, bereitgestellt als Dienst in einer öffentlichen Infrastruktur.
Software as a service
- Software as a Service (SaaS) ist ein Software-Lizenzierungs- und Bereitstellungsmodell.
- Bei diesem wird Software auf Abonnementbasis bereitgestellt und zentral gehostet.
- Des Öfteren wird dieser Service auch als "On-Demand-Software" bezeichnet. SaaS-Anwendungen sind auch als On-Demand-Software und webbasierte/gehostete Software bekannt.
- SaaS wird zusammen mit Infrastructure as a Service (IaaS), Platform as a Service (PaaS), Desktop as a Service (DaaS), Managed Software as a Service (MSaaS), Mobile Backend as a Service (MBaaS), Datacenter as a Service (DCaaS) und Information Technology Management as a Service (ITMaaS) als Teil des Cloud Computing angesehen.
Big Data Analytics
- Wenn Big-Data-Datensätze mit strukturierten, halb- und unstrukturierten Daten aus diversen Quellen mit unterschiedlicher Größe mittels fortschrittlicher Analysetechniken analysiert werden, sprechen wir von Big-Data-Analytics.
- Typische Datenquellen wurde bereits zuvor in diesem Skript vorgestellt. Sie stammen beispielsweise von einer Vielzahl von Sensoren und Geräten, aus Audio- oder Videoaufzeichnungen, aus Netzwerken und entsprechenden Protokolldateien oder ganz allgemein aus dem Internet.
Batch Analytics
- Bei der Stapelverarbeitung erfolgt die Verarbeitung von Datenblöcken, die bereits über einen bestimmten Zeitraum gespeichert wurden.
- Hadoop MapReduce ist das beste Framework für die Verarbeitung von Daten in Batches.
- Die Batch-Verarbeitung funktioniert gut in Situationen, in denen Sie keine Echtzeit-Analyseergebnisse benötigen und wenn es wichtiger ist, große Datenmengen zu verarbeiten, um detailliertere Erkenntnisse zu erhalten, als schnelle Analyseergebnisse zu erhalten.
Real-Time Analytics
- Echtzeit-Analytik bezieht sich auf den Prozess der Aufbereitung und Messung von Daten, sobald sie in die Datenbank eintreten.
- Mit anderen Worten, die Benutzer erhalten Einblicke oder können sofort (oder sehr schnell nach dem Eingang der Daten in ihr System) Schlussfolgerungen ziehen.
- Echtzeit-Analytik ermöglicht es Unternehmen, ohne Verzögerung zu reagieren.
- Sie können Chancen ergreifen oder Probleme verhindern, bevor sie entstehen.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Dieses Quiz behandelt NoSQL-Datenbanken, Hadoop MapReduce und HDFS. Es werden Sensoren, Lidar und CCDs im Kontext von Big Data untersucht. Zusätzlich behandelt es die Kommunikation zwischen Master- und Slave-Diensten in HDFS.