Einleitung Datenmanagement.docx
Document Details
Uploaded by BrainyConnemara
Full Transcript
Einleitung Datenmanagement Struktur In der Regel liegt eine „Flut“ von Datenmengen vor, die erst einmal in gewisser Weise strukturiert werden muss. „Daten“ können unterschieden werden nach: Die „Struktur“ strukturierte Daten: Die Daten (zum Beispiel in Datenbanken oder Dateien) weisen eine gleichar...
Einleitung Datenmanagement Struktur In der Regel liegt eine „Flut“ von Datenmengen vor, die erst einmal in gewisser Weise strukturiert werden muss. „Daten“ können unterschieden werden nach: Die „Struktur“ strukturierte Daten: Die Daten (zum Beispiel in Datenbanken oder Dateien) weisen eine gleichartige Struktur auf, semistrukturierte Daten oder unstrukturierte Daten (beispielsweise Dokumente, beliebige Texte, Grafiken). Nach dem Grad ihrer Beständigkeit unterscheidet man: Transiente Daten (flüchtig, übergangsweise) versus persistente Daten (dauerhafter). Eingabedaten und Ausgabedaten bzw. zu speichernde versus gespeicherte Daten. Nach dem Grad der Digitalisierung unterscheidet man: Analoge Daten, die nicht digital zur Verfügung stehen und digitale Daten, die digital zur Verfügung stehen. Nach dem Aggregationsgrad unterscheidet man: Mikrodaten auf unterster statistischer Ebene wie personenbezogene Daten Makrodaten auf höchster statistischer Ebene wie Bevölkerung. Zur Repetition Schau Dir im Zusammenhang mit Datenmanagement nochmals folgende Inhalte an: Statistische Grundlagen, insbesondere die unterschiedlichen Skalentypen Daten und Formate Datenformate mit strukturierten Daten Strukturierte Daten sind Informationen, die in einem festgelegten und leicht zugänglichen Format organisiert sind. Dies ermöglicht eine einfache Verarbeitung und Analyse durch Computerprogramme. Ein Beispiel: Adressliste in einer Tabelle, wobei jede Zeile eine Adresse darstellt und jede Spalte spezifische Informationen enthält (z.B. Name, Strasse, Stadt) Wir gehen in der folgen auf einige typische Dateiformate mit strukturieren Daten ein. Ziel ist es, dass Du die Formate kennst - Du musst sie nicht anwenden oder die Codes im Detail verstehen. TXT (Textdatei) Dies ist ein einfachstes Dateiformat mit Text ohne eingebaute Formatierung. Eine .txt-Datein kann mit jedem Texteditor geöffnet werden. Beispiel: Max Muster Musterstrasse 1 8000 Zürich CSV (Comma-Separated Values) Dieses Datenformat ist beliebt für Datenexport und -import. Daten werden durch Kommas (oder andere Trennzeichen) getrennt. eine .csv Datei kann in Tabellenkalkulationsprogrammen geöffnet werden. Beispiel: Name,Strasse,PLZ,Ort Max Muster,Musterstrasse 1,8000,Zürich XML (eXtensible Markup Language) Dies ist ein flexibles, hierarchisches Format. Es ist Ideal für den Austausch komplexer Datenstrukturen und wird z.B. im E-Banking verwendet. Es werden Tags zur Definition von Elementen genutzt. Beispiel: JSON (JavaScript Object Notation) Dieses Format ist für Menschen leichter lesbar als .xml. Es wird oft für die Datenübertragung zwischen Server und Webanwendungen verwendet. Beispiel: Tabellenkalkulation (z.B. XLSX, ODS) Wird in Programmen wie Excel oder Numbers verwendet. Dieses Format ermöglicht eine komplexe Datenorganisation und -analyse, plus unterstützt es Formeln und Diagramme. Strukturmerkmale von Daten Datenstrukturen sind verschiedene Arten, wie Daten organisiert und gespeichert werden können. Die Struktur der Daten bestimmt, wie einfach und effizient sie verarbeitet und analysiert werden können. Wir gehen nachfolgend auf drei typische Strukturmerkmale ein und betrachten deren Einfluss auf die Auswertung von Daten. Text Texte sind unstrukturierte Daten und können Buchstaben, Zahlen und Symbole enthalten. Ein typisches Beispiel sind Inhalte von E-Mails. Texte sind in Bezug auf die Auswertung anspruchsvoll: Wir benötigen zumindest bei grossen Datenmengen Textanalyse-Tools (wie Text Mining oder Natural Language Processing) für die Auswertung (kleine Datenmengen können allenfalls auch durch einen Mensch verarbeitet werden) Interpretation und Kontextverständnis sind Schlüsselelemente in der Auswertung. Tabellen Tabellen sind strukturierte Daten, die in Zeilen und Spalten organisiert sind. Im Vergleich zu Text sind sie einfacher zu analysieren, da sie klar strukturiert sind. Ein Beispiel ist eine Kundendatenbank mit Namen, Adressen, Bestellnummern etc. Für die Auswertung von Daten bedeutet dies: Tabellen sind direkt analysierbar mit Standard-Tools wie z.B. Tabellenkalkulationssoftware. Tabellen ermöglichen eine schnelle Aggregation und den Vergleich von Daten. Datenblätter (Spreadsheets) Datenblätter sind ähnlich wie Tabellen, aber funktionsreicher. Sie unterstützen Formeln, Diagramme und bedingte Formatierungen. Bei Beispiel ist ein Finanzbericht in Excel mit Einnahmen, Ausgaben und Gewinnberechnungen. Sie sind ideal für komplexe Datensätze und Analysen. Mit Datenblättern sind datenbasierte Entscheidungen und Trendanalysen möglich. Grundlegende Datentypen Datentypen definieren die Art der Daten, die in einem Datenbanksystem oder einer Programmiersprache gespeichert und verarbeitet werden können. Die Wahl des Datentyps beeinflusst die Genauigkeit, Effizienz und Art der Datenverarbeitung. Wir gehen auf drei häufige Datentypen ein und betrachten deren Bedeutung für die Speicherung von Daten. Zahl (Numerische Typen) Dieser Typ beinhaltet Ganzzahlen (=Integer) und Kommazahlen (=Floating-Point Numbers). Er ist wichtig für mathematische Berechnungen und statistische Analysen. Beispiele sind: Alter Preis Temperatur Dieser Datentyp ermöglicht präzise und effiziente Berechnungen. Eine ungenaue Typwahl kann zu Speicherineffizienz führen. Ein Beispiel: Wenn du einen Datentyp wählst, der mehr Speicherplatz als nötig verwendet, führt das zu Speicherineffizienz. Dies ist der Fall, wenn Du den Datentyp "Floating-Point Numbers" (Kommazahlen) statt "Integer" für einfache Ganzzahlen verwendest. In grossen Datenbanken oder bei der Verarbeitung grosser Datenmengen kann dies zu unnötig hohem Speicherbedarf und langsamerer Verarbeitung führen. Datum und Zeit Das sind spezifische Formate zur Darstellung von Datums- und Zeitangaben. Sie sind wichtig für Zeitreihenanalysen oder die Planung. Beispiele sind: Geburtsdatum Fälligkeitsdatum Uhrzeit von Transaktionen Dieser Datentype ermöglicht die zeitliche Einordnung von Ereignissen. Bei der Speicherung können verschiedene Formate die Interpretation und Vergleichbarkeit beeinflussen. Ein Beispiel, welches dies illustriert: Die Art, wie Datum und Zeit dargestellt werden, beeinflusst, wie Menschen und Computersysteme diese Informationen interpretieren. Zum Beispiel kann das Datum "02/03/2024" im US-Format den 3. Februar bedeuten, während es im europäischen Format den 2. März bedeutet. Fehler bei der Interpretation können zu Missverständnissen oder falschen Berechnungen führen, besonders wenn Daten zwischen Systemen oder in einem internationalen Kontext ausgetauscht werden. Text (String) Text ist eine Sequenz von Zeichen zur Darstellung von Worten. Dieser Datentyp wird verwendet, um nicht-numerische Informationen zu speichern. Beispiele sind: Namen Adressen Produktbeschreibungen Dieser Datentyp ist zwar sehr flexibel hinsichtlich der Inhalte, dafür in der Regel speicherintensiv. Beschreibung von Daten Für die Beschreibung von Daten kommen z.B. die erweiterte Backus-Naur-Form EBNF und Data Dictionary zum Einsatz.