Podcast
Questions and Answers
Welche Aussage beschreibt am besten den Unterschied zwischen strukturierten und unstrukturierten Daten?
Welche Aussage beschreibt am besten den Unterschied zwischen strukturierten und unstrukturierten Daten?
- Unstrukturierte Daten sind leichter in Data Warehouses zu speichern als strukturierte Daten.
- Strukturierte Daten sind immer in natürlicher Sprache verfasst, während unstrukturierte Daten numerisch sind. (correct)
- Strukturierte Daten besitzen vordefinierte Labels, die ihre Interpretation erleichtern, während unstrukturierte Daten keine solchen Labels haben.
- Strukturierte Daten erfordern mehr Fachwissen für ihre Analyse als unstrukturierte Daten.
Welche der folgenden Datenarten würde am ehesten als unstrukturiert gelten?
Welche der folgenden Datenarten würde am ehesten als unstrukturiert gelten?
- Eine Datenbank mit Lagerbeständen, die Artikelnummern, Mengen und Preise enthält.
- Eine Exceltabelle mit monatlichen Umsatzzahlen. (correct)
- Ein Textdokument mit einer ausführlichen Beschreibung eines Produkts.
- Eine Tabelle mit Kundendaten, die Namen, Adressen und Kaufhistorie enthält.
Was ist die wichtigste Eigenschaft, die strukturierte Daten auszeichnet?
Was ist die wichtigste Eigenschaft, die strukturierte Daten auszeichnet?
- Sie besitzen definierte Labels, die ihre Interpretation klar machen.
- Sie erfordern immer den Einsatz von Natural Language Processing.
- Sie sind leicht von Menschen zu interpretieren, aber schwer von Maschinen. (correct)
- Sie sind immer in großen Mengen vorhanden.
Welche Aussage trifft auf unstrukturierte Daten zu?
Welche Aussage trifft auf unstrukturierte Daten zu?
Wie können Data Scientists bei der Analyse von unstrukturierten Daten helfen?
Wie können Data Scientists bei der Analyse von unstrukturierten Daten helfen?
Was ist das Hauptziel von Open-Data-Initiativen?
Was ist das Hauptziel von Open-Data-Initiativen?
Welche der folgenden Aussagen beschreibt am besten, wie Daten in Informationen umgewandelt werden?
Welche der folgenden Aussagen beschreibt am besten, wie Daten in Informationen umgewandelt werden?
Wie können aus Social-Media-Daten Erkenntnisse gewonnen werden?
Wie können aus Social-Media-Daten Erkenntnisse gewonnen werden?
Welchen Vorteil bieten offene Datensammlungen in Bezug auf wissenschaftliche Forschung?
Welchen Vorteil bieten offene Datensammlungen in Bezug auf wissenschaftliche Forschung?
Was ist die primäre Funktion des DIKW-Modells?
Was ist die primäre Funktion des DIKW-Modells?
In welcher Reihenfolge werden Daten, Informationen, Wissen und Weisheit im DIKW-Modell typischerweise angeordnet?
In welcher Reihenfolge werden Daten, Informationen, Wissen und Weisheit im DIKW-Modell typischerweise angeordnet?
Was beschreibt die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu erhalten, im Kontext des DIKW-Modells?
Was beschreibt die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu erhalten, im Kontext des DIKW-Modells?
Welche der folgenden Fähigkeiten ist besonders wichtig für Data Science?
Welche der folgenden Fähigkeiten ist besonders wichtig für Data Science?
Warum ist Datenkompetenz eine wichtige Fähigkeit für Data Science?
Warum ist Datenkompetenz eine wichtige Fähigkeit für Data Science?
Welche Herausforderung kann bei der Verwendung von Video-Algorithmen in der Rekrutierung auftreten?
Welche Herausforderung kann bei der Verwendung von Video-Algorithmen in der Rekrutierung auftreten?
Welches Problem kann bei der Verwendung großer Sprachmodelle wie ChatGPT auftreten?
Welches Problem kann bei der Verwendung großer Sprachmodelle wie ChatGPT auftreten?
Was versteht man unter dem Begriff 'Bias' im Kontext von Data Science?
Was versteht man unter dem Begriff 'Bias' im Kontext von Data Science?
Was ist ein Beispiel für einen 'historischen Bias' in Trainingsdaten?
Was ist ein Beispiel für einen 'historischen Bias' in Trainingsdaten?
Welche Rolle spielt der Mensch im Prozess der Data Science?
Welche Rolle spielt der Mensch im Prozess der Data Science?
Wie können ungleiche Gruppenverteilungen in Trainingsdaten die Ergebnisse von Algorithmen beeinflussen?
Wie können ungleiche Gruppenverteilungen in Trainingsdaten die Ergebnisse von Algorithmen beeinflussen?
Welchen Aspekt der Datenanalyse betrifft die 'Interpretation'?
Welchen Aspekt der Datenanalyse betrifft die 'Interpretation'?
Was bedeutet 'Repräsentations-Bias' in Bezug auf Trainingsdaten?
Was bedeutet 'Repräsentations-Bias' in Bezug auf Trainingsdaten?
Welche ethische Überlegung ist bei der Datensammlung besonders wichtig?
Welche ethische Überlegung ist bei der Datensammlung besonders wichtig?
Wie kann Data Science zur Innovation in verschiedenen Geschäftsbereichen beitragen?
Wie kann Data Science zur Innovation in verschiedenen Geschäftsbereichen beitragen?
Welche Konsequenz kann aus der verdeckten Diskriminierung in Sprachmodellen resultieren?
Welche Konsequenz kann aus der verdeckten Diskriminierung in Sprachmodellen resultieren?
Was bedeutet 'Technischer Bias' im Kontext von Data Science?
Was bedeutet 'Technischer Bias' im Kontext von Data Science?
Welche der folgenden Aussagen beschreibt am besten die Herausforderung, die durch 'Entstehender Bias' (Emergent Bias) entsteht?
Welche der folgenden Aussagen beschreibt am besten die Herausforderung, die durch 'Entstehender Bias' (Emergent Bias) entsteht?
Welche der folgenden Tätigkeiten würde am wenigsten die Fähigkeit eines Data Scientists widerspiegeln, neue Ansätze für ein Problem zu finden?
Welche der folgenden Tätigkeiten würde am wenigsten die Fähigkeit eines Data Scientists widerspiegeln, neue Ansätze für ein Problem zu finden?
Ein Unternehmen nutzt Social-Media-Daten, um Bewerber zu bewerten. Welche ethische Herausforderung könnte sich ergeben?
Ein Unternehmen nutzt Social-Media-Daten, um Bewerber zu bewerten. Welche ethische Herausforderung könnte sich ergeben?
Was ist die Hauptaussage der Kritik an Video-KI-Systemen wie HireVue?
Was ist die Hauptaussage der Kritik an Video-KI-Systemen wie HireVue?
Welchen Vorteil bietet die Verwendung von Open Data für Bürger und Organisationen?
Welchen Vorteil bietet die Verwendung von Open Data für Bürger und Organisationen?
Welche Herausforderung entsteht typischerweise bei der Analyse großer Mengen unstrukturierter Daten im Vergleich zu strukturierten Daten?
Welche Herausforderung entsteht typischerweise bei der Analyse großer Mengen unstrukturierter Daten im Vergleich zu strukturierten Daten?
Wie beeinflusst der Kontext die Umwandlung von Daten in Informationen?
Wie beeinflusst der Kontext die Umwandlung von Daten in Informationen?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen Daten, Information, Wissen und Weisheit im DIKW-Modell?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen Daten, Information, Wissen und Weisheit im DIKW-Modell?
Warum ist Experimentierfreudigkeit eine wichtige Fähigkeit für Data Scientists?
Warum ist Experimentierfreudigkeit eine wichtige Fähigkeit für Data Scientists?
Wie können ungleiche Gruppenverteilungen in Trainingsdaten die Ergebnisse von Algorithmen in der Rekrutierung beeinflussen?
Wie können ungleiche Gruppenverteilungen in Trainingsdaten die Ergebnisse von Algorithmen in der Rekrutierung beeinflussen?
Flashcards
Strukturierte Daten
Strukturierte Daten
Daten, die in einem festen Format vorliegen und leicht interpretierbar sind.
Unstrukturierte Daten
Unstrukturierte Daten
Daten, die keine vordefinierte Struktur haben und schwer zu interpretieren sind.
Labels
Labels
Werte und Bezeichnungen, die Daten zugeordnet werden, um sie interpretierbar zu machen.
Numerische Werte
Numerische Werte
Signup and view all the flashcards
Text/Worte
Text/Worte
Signup and view all the flashcards
Boolesche Werte
Boolesche Werte
Signup and view all the flashcards
Kategoriale Werte
Kategoriale Werte
Signup and view all the flashcards
Symbole
Symbole
Signup and view all the flashcards
Keine Labels
Keine Labels
Signup and view all the flashcards
Natürliche Sprache
Natürliche Sprache
Signup and view all the flashcards
High Volume
High Volume
Signup and view all the flashcards
Multimodale Daten
Multimodale Daten
Signup and view all the flashcards
Daten
Daten
Signup and view all the flashcards
Informationen
Informationen
Signup and view all the flashcards
DIKW-Modell
DIKW-Modell
Signup and view all the flashcards
Daten (DIKW)
Daten (DIKW)
Signup and view all the flashcards
Informationen (DIKW)
Informationen (DIKW)
Signup and view all the flashcards
Wissen (DIKW)
Wissen (DIKW)
Signup and view all the flashcards
Weisheit/Erkenntnis (DIKW)
Weisheit/Erkenntnis (DIKW)
Signup and view all the flashcards
Problemauswahl
Problemauswahl
Signup and view all the flashcards
Datenbereinigung
Datenbereinigung
Signup and view all the flashcards
Datenanalyse
Datenanalyse
Signup and view all the flashcards
Interpretation
Interpretation
Signup and view all the flashcards
Kommunikation
Kommunikation
Signup and view all the flashcards
Experimentierfreudigkeit
Experimentierfreudigkeit
Signup and view all the flashcards
Mathematisches Denken
Mathematisches Denken
Signup and view all the flashcards
Datenkompetenz
Datenkompetenz
Signup and view all the flashcards
Experimentierfreudigkeit (Definition)
Experimentierfreudigkeit (Definition)
Signup and view all the flashcards
Datenschutz
Datenschutz
Signup and view all the flashcards
Bias (Verzerrung)
Bias (Verzerrung)
Signup and view all the flashcards
Ethik
Ethik
Signup and view all the flashcards
Historischer Bias
Historischer Bias
Signup and view all the flashcards
Repräsentations-Bias
Repräsentations-Bias
Signup and view all the flashcards
Technischer Bias
Technischer Bias
Signup and view all the flashcards
Entstehender Bias
Entstehender Bias
Signup and view all the flashcards
KI-Diskriminierung
KI-Diskriminierung
Signup and view all the flashcards
Verdeckte Vorurteile
Verdeckte Vorurteile
Signup and view all the flashcards
Falsche Sicherheit
Falsche Sicherheit
Signup and view all the flashcards
Was sind soziale Medien?
Was sind soziale Medien?
Signup and view all the flashcards
Welche Datentypen gibt es?
Welche Datentypen gibt es?
Signup and view all the flashcards
Welche Daten liegen meist in Data Lakes
Welche Daten liegen meist in Data Lakes
Signup and view all the flashcards
Analyse großer unstrukturierter Datenmengen
Analyse großer unstrukturierter Datenmengen
Signup and view all the flashcards
Zugriff auf Datensammlungen
Zugriff auf Datensammlungen
Signup and view all the flashcards
Study Notes
Arten von Daten
- Es gibt zwei Hauptkategorien, in die sich Daten einteilen lassen: strukturierte und unstrukturierte Daten.
Strukturierte Daten
- Strukturierte Daten sind derzeit die wichtigste Datenart.
- Strukturierte Daten zeichnen sich durch definierte Labels aus, die die Daten interpretierbar machen.
- Labels können Werte, Bezeichnungen oder Kategorien sein, die den Daten eindeutig zugeordnet sind.
- Strukturierte Daten müssen beschriftet sein, damit ihre Bedeutung klar wird.
- Beispiele für strukturierte Daten sind numerische Werte (z.B. 1,2,3,4,5), Textwerte (z.B. Einfamilienhaus, Düsseldorf), Boolesche Werte (z.B. True, False), kategoriale Werte (z.B. Gender, Ja/Nein) und Symbole (z.B. €).
Unstrukturierte Daten
- Unstrukturierte Daten haben keine vordefinierten Labels.
- Sie liegen in einem ähnlichen Format wie strukturierte Daten (numerisch, Text, kategorial), sind aber oft nicht einheitlich.
- Unstrukturierte Daten sind in der Regel natürliche Sprache.
- Beispiele für unstrukturierte Daten sind E-Mails, Videos, Tweets/Posts in Social Media, CT/MRT-Aufnahmen usw.
- Unstrukturierte Daten sind in großer Menge vorhanden und erfordern einen großen Aufwand, um relevante Informationen herauszufiltern.
Unterschiede zwischen strukturierte und unstrukturierte Daten
- Strukturierte Daten verwenden definierte Labels, während unstrukturierte Daten keine definierten Beschriftungen oder Labels haben.
- Strukturierte Daten sind meist numerisch oder textbasiert, während unstrukturierte Daten Text oder multimodale Daten sind.
- Strukturierte Daten werden in einem Data Warehouse gespeichert, während unstrukturierte Daten in einem Data Lake gespeichert werden.
- Strukturierte Daten sind skalierbar und effizient bei großen Datenmengen, während unstrukturierte Daten Probleme bei der Verarbeitung großer Datenmengen haben.
- Strukturierte Daten sind einfach maschinenlesbar, während unstrukturierte Daten (nicht oder) schwer maschinenlesbar sind.
- Für strukturierte Daten ist wenig Fachwissen zur Nutzung notwendig, während für unstrukturierte Daten Fachwissen erforderlich ist, um Daten zu nutzen.
- Viele Tools können direkt auf strukturierte Daten angewendet werden, während nur wenige Tools auf unstrukturierte Daten eingesetzt werden können.
- Strukturierte Daten machen ca. 20% aller Daten aus, während unstrukturierte Daten ca. 80% aller Daten ausmachen.
Multimodale Daten
- Multimodale Daten umfassen verschiedene Formen von Medien wie Bilder, Musik, Gesten, Sprache und Töne.
- Ein Beispiel hierfür ist Funktionelle Nahinfrarot-Spektroskopie (fNIRS).
Daten vs. Informationen
- Daten = Plural von Datum (lat.: gegeben)
- Informationen = Aussagekräftige Daten
- Daten bilden die Grundlage für die Erzeugung von Informationen.
- Daten werden oft als roh und bedeutungslos angesehen.
- Daten werden auch als das „Öl des 21. Jahrhunderts" bezeichnet.
- Informationen entstehen durch die Konvertierung von Daten in eine nützliche Form mit einer Bedeutung.
- Informationen können interpretiert, analysiert und genutzt werden.
- Informationen berücksichtigen den Kontext der Datenentstehung.
DIKW-Modell
- Das DIKW-Modell ist eine hierarchische Struktur, die die Beziehungen zwischen Daten, Information, Wissen und Weisheit beschreibt.
- Daten sind Fakten, Signale oder Symbole, die ohne Kontext keine Bedeutung haben.
- Informationen sind Daten, die eine Bedeutung haben und genutzt werden können.
- Wissen (Knowledge) ist die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu erhalten.
- Weisheit (bzw. Erkenntnis) ist die Verknüpfung von Wissen und Erfahrung, Schlussfolgerungen zu ziehen und (bessere) Entscheidungen zu treffen.
- Das DIKW-Modell wird verwendet, um zu verstehen, wie Daten und Informationen in Wissen und schließlich in Erkenntnis und Handlungen umgewandelt werden können.
- DIKW steht für Data, Information, Knowledge, Wisdom.
Open Data
- Offene Datensammlungen spielen eine wichtige Rolle in Wissenschaft, Wirtschaft, Sozialwissenschaften und im Gesundheitswesen, um neue Erkenntnisse zu generieren (z.B. Corona-Sequenzierung, Gründungsmonitor, Wahlen, Wetterbedingungen, u.v.m.).
- Open Data bedeutet, dass Daten ohne Beschränkungen zur Verfügung stehen.
- Regierungen, NGOs und akademische Gemeinschaften führen Open-Data-Initiativen durch (z.B. GOV Data, U.S. Census Bureau, Bundesbank, Destatis, OSF, Github, Kaggle, u.v.m.).
- Prinzipien für Open Data: Öffentlich, zugänglich, beschriftet, wiederverwendbar (offene Lizenz), vollständig, aktuell, Nachfreigabe/ Betreuung (Ansprechpartner:innen).
Daten aus sozialen Medien
- Social-Media Daten stellen eine wichtige Datenquelle für Forschung und Marketing dar, aber z.B. auch für die Personalrekrutierung.
- Anwendungsschnittstellen (Application Programming Interface; APIs) ermöglichen den Zugriff auf diese Datensammlungen.
- Social Media Unternehmen veröffentlichen spezifische teils anonymisierte Datensätze zu Forschungszwecken.
Der Menschliche Faktor und Data Science
- Der Mensch spielt eine bedeutende Rolle bei Problemauswahl, Datenbereinigung, Datenanalyse, Interpretation und Kommunikation.
- Es ist der Mensch, der entscheidet, welches Problem mittels Data Science gelöst werden soll.
- Validität von Daten muss von Menschen über ihre Relevanz entschieden werden
- Die konkrete Auswahl von bestimmten Methoden bei der Analyse ist von Menschen selbst entscheidend für den Erfolg
- Grenzen von Methoden müssen auch vom Menschen erkannt, erklärt und kommuniziert werden
- Alle zugehörigen wichtigen Informationen lassen sich vom forschenden Menschen aus der Datenwissenschaft gewinnen
Fähigkeiten für Data Science
- Experimentierfreudigkeit ist wichtig, damit neue Ansätze für ein bestimmtes Problem geschaffen werden können.
- Mathematisches Denken ist wichtig, da Daten meist numerisch vorliegen und grundlegende mathematische und statistische Kenntnisse Voraussetzung sind.
- Datenkompetenz ist wichtig, da Daten analytisch betrachtet werden müssen, um daraus Informationen zu gewinnen und datengetriebene Entscheidungsfindung treibende Kraft für Innovation ist.
Datenschutz bei Data Science
- Ursprung der Daten muss datenschutzkonform geschehen (Einwilligung, Aufklärung).
- Fragen, die bei Datenschutz wichtig sind: Wo, wie und warum wurden Daten gesammelt? Wer hat die Daten gesammelt?
Verzerrung (Bias) bei Data Science
- Daten können verzerrt sein.
- Data Scientisten müssen „Bias“ erkennen bzw. bedenken, da sonst die Ergebnisse ebenfalls verzerrt sind und/oder zu Diskriminierung führen können.
- Es gibt verschiedene Ursachen von Verzerrungen, darunter historische Voreingenommenheit (Inputdaten enthalten explizite oder implizite menschliche Vorurteile und Stereotypen), Repräsentations-Bias (bestimmte Gruppen oder Charakteristiken sind unterrepräsentiert) und technischer Bias (Zugang zur Technologie oder technische Probleme).
Ethik bei Data Science
- Wurden die Daten ethisch korrekt gesammelt?
- Auch hier besteht weiterhin ein mögliches „Bias“-Problem, selbst wenn die Daten ethisch korrekt erhoben wurden.
HireVue Beispiel
- HireVue spart Unilever jährlich 100.000 Stunden an Zeit für Vorstellungsgespräche und etwa 1 Million Dollar an Rekrutierungskosten.
- HireVue entscheidet mithilfe von KI, welche Jobkandidat:innen am besten passen.
- HireVue analysiert 30-minütiges Standard-Assessment mit Auswertung von bis zu 500.000 Datenpunkten.
- Gesichtsbewegungen und Wortwahl (bis vor kurzem noch Stimme) werden analysiert.
- Studierende in den USA werden auf HireVue-Systemen trainiert, um Jobchancen zu verbessern.
Video-Algorithmen in der Rekrutierung
- Fragestellung: Führen ungleiche Gruppenverteilungen in Trainingsdaten zu Verzerrungen, um zu einem Vorstellungsgespräch eingeladen zu werden?
- Vorgehen: Gewinner-Algorithmen einer Programmier-Challenge wurden untersucht. 10.000 Selbstdarstellungsclips dienten als Trainings-/Test-Daten. Amazon MTurk-Mitarbeiter:innen beschrifteten die Daten. Es gab Ungleiche Verteilung der Ethnizität.
ChatGPT
- ChatGPT ist ein generativer Pre-Trained Transformer (GPT 3.5) als Chatbot.
- Das Modell hat 175 Milliarden Parameter (Deep Learning).
- Es wurden 570 GB an Textdaten aus Datenbanken (Bücher, Webtexte, Wikipedia, Artikel) und weitere 300 Milliarden Wörter (Foren, Blogs) in das System eingespeist.
- Dies hat Konsequenzen für Abschlussarbeiten, Prüfungsformate, Nachrichten, Literatur, Gerichtsurteile u.v.m.
- Beschäftigte in Kenia, Indien und Uganda kennzeichneten schädliche Texte (HateSpeech, Gewalt, Straftaten) für weniger als $2 pro Stunde.
- Der Zugang zu besseren Modellen ist kostenpflichtig.
KI und verdeckte Diskriminierung
- Sprachmodelle neigen dazu, systematische Vorurteile zu verstärken.
- Dies führt zu verdeckter Diskriminierung in Sprachmodellen in Form von "Dialektvorurteilen".
- Es besteht ein „Neuer Rassismus“: Dabei wird rassistische Terminologie vermieden, aber verdeckte diskriminierende („rassistische") Praktiken aufrechterhalten
KI und Diskriminierung durch Dialekte
- Sprachmodelle neigen dazu, Sprecher:innen mit African American English (AAE) weniger angesehene Berufe zuzuweisen und härter für Kapitalverbrechen zu verurteilen.
- Aufgrund zunehmender Nutzung von Sprachmodellen birgt dies zwei Risiken: Sprachmodelle erreichen immer neue Ebenen verdeckter Vorurteile, ohne Kenntnis der Entwickler:innen und Nutzer:innen. Entwickler:innen und Nutzer:innen erkennen fälschlicherweise die abnehmenden offenen Vorurteile, die derzeit einzige getestete Form von Vorurteilen ist, als Zeichen dafür, dass Diskriminierung in Sprachmodellen gelöst ist, was zu Zunahme von Schäden durch „Dialektvorurteile" in Sprachmodellen und Fortbestehen von Diskriminierung führt.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Erfahren Sie mehr über strukturierte und unstrukturierte Daten. Strukturierte Daten haben definierte Labels, die die Daten interpretierbar machen. Unstrukturierte Daten haben keine vordefinierten Labels und sind oft in natürlicher Sprache.