Podcast
Questions and Answers
Welche Aussage beschreibt am besten den Unterschied zwischen strukturierten und unstrukturierten Daten?
Welche Aussage beschreibt am besten den Unterschied zwischen strukturierten und unstrukturierten Daten?
- Strukturierte Daten besitzen ein vordefiniertes Datenmodell, während unstrukturierte Daten keine feste Struktur haben. (correct)
- Strukturierte Daten sind immer numerisch, während unstrukturierte Daten immer textbasiert sind.
- Strukturierte Daten benötigen mehr Speicherplatz als unstrukturierte Daten.
- Unstrukturierte Daten sind einfacher zu analysieren als strukturierte Daten.
Welche der folgenden Datenarten wäre kein typisches Beispiel für strukturierte Daten?
Welche der folgenden Datenarten wäre kein typisches Beispiel für strukturierte Daten?
- Eine Datenbank mit Kundendaten (Name, Adresse, Kaufhistorie)
- Eine Excel-Tabelle mit Finanzkennzahlen eines Unternehmens
- Eine Liste von Produktpreisen in einer Online-Shop-Datenbank
- Ein Textdokument mit einer Beschreibung der Unternehmensstrategie (correct)
Was ist ein wesentliches Merkmal von unstrukturierten Daten?
Was ist ein wesentliches Merkmal von unstrukturierten Daten?
- Sie sind leicht in relationalen Datenbanken zu speichern.
- Für ihre Analyse ist kein Fachwissen notwendig.
- Sie erfordern oft einen hohen Aufwand, um relevante Informationen zu extrahieren. (correct)
- Sie besitzen in der Regel vordefinierte *Labels*.
Welche Aussage beschreibt am besten den Begriff 'Open Data'?
Welche Aussage beschreibt am besten den Begriff 'Open Data'?
Welches Prinzip gehört nicht zu den grundlegenden Prinzipien von Open Data?
Welches Prinzip gehört nicht zu den grundlegenden Prinzipien von Open Data?
Welche Rolle spielen offene Datensammlungen in der heutigen Gesellschaft nicht?
Welche Rolle spielen offene Datensammlungen in der heutigen Gesellschaft nicht?
Was sind APIs (Application Programming Interfaces) im Kontext von Daten aus sozialen Medien?
Was sind APIs (Application Programming Interfaces) im Kontext von Daten aus sozialen Medien?
Was ist ein Beispiel für Multimodale Daten?
Was ist ein Beispiel für Multimodale Daten?
Welche Aussage beschreibt nicht die Eigenschaften von Daten im Vergleich zu Informationen?
Welche Aussage beschreibt nicht die Eigenschaften von Daten im Vergleich zu Informationen?
Wie werden Daten zu Informationen im DIKW-Modell?
Wie werden Daten zu Informationen im DIKW-Modell?
In welcher Beziehung stehen Daten, Information, Wissen und Weisheit zueinander nach dem DIKW-Modell?
In welcher Beziehung stehen Daten, Information, Wissen und Weisheit zueinander nach dem DIKW-Modell?
Welche der folgenden Fähigkeiten ist am wenigsten relevant für einen Data Scientist?
Welche der folgenden Fähigkeiten ist am wenigsten relevant für einen Data Scientist?
Was bedeutet 'Datenkompetenz' im Kontext von Data Science?
Was bedeutet 'Datenkompetenz' im Kontext von Data Science?
Welche der folgenden Aussagen beschreibt am besten das Problem des 'Bias' (Verzerrung) in Data Science?
Welche der folgenden Aussagen beschreibt am besten das Problem des 'Bias' (Verzerrung) in Data Science?
Warum ist es wichtig, die ethischen Aspekte bei der Datenerhebung zu berücksichtigen?
Warum ist es wichtig, die ethischen Aspekte bei der Datenerhebung zu berücksichtigen?
Was ist ein 'historischer Bias' im Kontext von Trainingsdaten für KI-Modelle?
Was ist ein 'historischer Bias' im Kontext von Trainingsdaten für KI-Modelle?
Was versteht man unter 'Repräsentations-Bias' in Bezug auf Trainingsdaten?
Was versteht man unter 'Repräsentations-Bias' in Bezug auf Trainingsdaten?
Welche Aussage beschreibt am besten den Begriff 'Technischer Bias'?
Welche Aussage beschreibt am besten den Begriff 'Technischer Bias'?
Was ist der 'Entstehender Bias' (Emergent Bias)?
Was ist der 'Entstehender Bias' (Emergent Bias)?
Welche der folgenden Aussagen über den Einsatz von KI in der Rekrutierung ist am wahrscheinlichsten nicht korrekt?
Welche der folgenden Aussagen über den Einsatz von KI in der Rekrutierung ist am wahrscheinlichsten nicht korrekt?
Was ist das Hauptproblem bei der Verwendung von Video-KI in der Rekrutierung?
Was ist das Hauptproblem bei der Verwendung von Video-KI in der Rekrutierung?
Welchen potenziellen Nachteil haben Sprachmodelle wie ChatGPT?
Welchen potenziellen Nachteil haben Sprachmodelle wie ChatGPT?
Was bedeutet das Konzept des „Neuen Rassismus“ im Kontext von KI-Sprachmodellen?
Was bedeutet das Konzept des „Neuen Rassismus“ im Kontext von KI-Sprachmodellen?
Was ist das Hauptproblem bei der Verwendung von Sprachmodellen, die mit großen Textmengen trainiert wurden, in Bezug auf Diskriminierung?
Was ist das Hauptproblem bei der Verwendung von Sprachmodellen, die mit großen Textmengen trainiert wurden, in Bezug auf Diskriminierung?
Welche Aussage beschreibt am besten die ethische Herausforderung im Zusammenhang mit Sprachmodellen?
Welche Aussage beschreibt am besten die ethische Herausforderung im Zusammenhang mit Sprachmodellen?
Was ist die Rolle des Menschen im Data Science-Prozess?
Was ist die Rolle des Menschen im Data Science-Prozess?
Welche der folgenden Aufgaben gehört nicht zu den typischen Verantwortlichkeiten eines Data Scientists?
Welche der folgenden Aufgaben gehört nicht zu den typischen Verantwortlichkeiten eines Data Scientists?
Welche der folgenden Aussagen über strukturierte Daten ist korrekt?
Welche der folgenden Aussagen über strukturierte Daten ist korrekt?
In welchem Bereich sind die Datenkompetenzen von Data-Scientists nicht hilfreich?
In welchem Bereich sind die Datenkompetenzen von Data-Scientists nicht hilfreich?
Welche der folgenden ist eine Fähigkeit die von Data Scientists benötigt wird?
Welche der folgenden ist eine Fähigkeit die von Data Scientists benötigt wird?
Welche Aufgaben werden bei der Datenbereinigung durchgeführt?
Welche Aufgaben werden bei der Datenbereinigung durchgeführt?
Inwiefern beeinflusst der Mensch den Data Science Prozess?
Inwiefern beeinflusst der Mensch den Data Science Prozess?
Wie beeinflusst das DIKW-Modell die Entscheidungsfindung in Organisationen?
Wie beeinflusst das DIKW-Modell die Entscheidungsfindung in Organisationen?
Welche Herausforderung entsteht hauptsächlich bei der Analyse von unstrukturierten Daten im Vergleich zu strukturierten Daten?
Welche Herausforderung entsteht hauptsächlich bei der Analyse von unstrukturierten Daten im Vergleich zu strukturierten Daten?
Welche Überlegung ist bei der Nutzung von Social-Media-Daten für Data-Science-Projekte besonders wichtig?
Welche Überlegung ist bei der Nutzung von Social-Media-Daten für Data-Science-Projekte besonders wichtig?
Flashcards
Strukturierte Daten
Strukturierte Daten
Daten, die in einem vordefinierten Format vorliegen und interpretierbar sind.
Unstrukturierte Daten
Unstrukturierte Daten
Daten ohne vordefiniertes Format, oft in Form von Text, Bildern oder Videos.
Labels
Labels
Werte und Bezeichnungen oder Kategorien, die Daten zugeordnet werden und für Interpretierbarkeit sorgen.
Daten
Daten
Signup and view all the flashcards
Informationen
Informationen
Signup and view all the flashcards
DIKW-Modell
DIKW-Modell
Signup and view all the flashcards
Daten (DIKW)
Daten (DIKW)
Signup and view all the flashcards
Information (DIKW)
Information (DIKW)
Signup and view all the flashcards
Wissen (DIKW)
Wissen (DIKW)
Signup and view all the flashcards
Weisheit (DIKW)
Weisheit (DIKW)
Signup and view all the flashcards
Der Menschliche Faktor
Der Menschliche Faktor
Signup and view all the flashcards
Experimentierfreudigkeit
Experimentierfreudigkeit
Signup and view all the flashcards
Mathematisches Denken
Mathematisches Denken
Signup and view all the flashcards
Datenkompetenz
Datenkompetenz
Signup and view all the flashcards
Datenschutz
Datenschutz
Signup and view all the flashcards
Bias (Verzerrung)
Bias (Verzerrung)
Signup and view all the flashcards
Ethik
Ethik
Signup and view all the flashcards
Historischer Bias
Historischer Bias
Signup and view all the flashcards
Repräsentations-Bias
Repräsentations-Bias
Signup and view all the flashcards
Technischer Bias
Technischer Bias
Signup and view all the flashcards
Entstehender Bias
Entstehender Bias
Signup and view all the flashcards
HireVue und andere Anbieter
HireVue und andere Anbieter
Signup and view all the flashcards
Menschliche Voreingenommenheit
Menschliche Voreingenommenheit
Signup and view all the flashcards
Dialektvorurteile
Dialektvorurteile
Signup and view all the flashcards
Sprachmodelle
Sprachmodelle
Signup and view all the flashcards
KI und Diskriminierung durch Dialekte
KI und Diskriminierung durch Dialekte
Signup and view all the flashcards
Study Notes
Lernziele
- Nach dem Studium dieses Kapitels wird es möglich sein, strukturierte und unstrukturierte Daten zu unterscheiden und zu beschreiben
- Die Fähigkeit, den Unterschied zwischen Daten und Informationen zu erklären
- Erläuterung des DIKW-Modells
- Man kann Fähigkeiten benennen und beschreiben, die für Data Scientists erforderlich sind
- Es wird möglich sein, wichtige Probleme und Gefahren im Zusammenhang mit Data Science zu benennen und zu erläutern
Arten von Daten
- Es gibt zwei Haupttypen von Daten: strukturierte und unstrukturierte
Einfachste Unterscheidung von Daten
- Strukturierte Daten sind über Tabellen dargestellt
- Unstrukturierte Daten sind über Freitext dargestellt
Arten von Daten: Strukturierte Daten
- Strukturierte Daten gelten weiterhin als die am häufigsten verwendete Datenart
- Sie verwenden feste Labels, was sie interpretierbar macht
- Labels sind Werte, Bezeichnungen oder Kategorien, die eindeutig zugeordnet sind
- Beispiele für strukturierte Daten sind:
- Numerische Werte wie 1,2,3,4,5
- Text/Wort wie Einfamilienhaus, Düsseldorf
- Boolesche Werte wie Wahr oder Falsch
- Kategoriale Werte wie Gender, Ja/Nein
- Symbole wie €
- Es ist wesentlich, dass strukturierte Daten beschriftet werden, damit ihre Bedeutung verständlich ist
Datenpunkt 2848
- Mithilfe der Tabellenstruktur kann man aus der Zahl 2848 ablesen
- Es ist möglich, aus dieser Zahl durch die Tabellenstruktur abzulesen
Arten von Daten: Unstrukturierte Daten
- Unstrukturierte Daten enthalten keine vordefinierten Labels
- Sie haben das gleiche Format wie strukturierte Daten, z. B. numerisch, Text, kategorial, aber sie sind oft nicht einheitlich
- Diese Daten sind typischerweise in natürlicher Sprache, z. B. in der Art und Weise, wie Menschen kommunizieren
- E-Mails
- Videos
- Tweets/Posts in sozialen Medien
- CT/MRT Scans
- Unstrukturierte Daten sind in sehr großen Mengen vorhanden und benötigen einen großen Zeitaufwand, um Informationen zu extrahieren
- Data Science hilft bei der Analyse großer Mengen unstrukturierter Daten
- Algorithmen und maschinelles Lernen werden hier genutzt, z. B. Natural Language Processing
Datenpunkt 2848
- Nur die Zahl selbst kann abgelesen werden
- Die Struktur der Tabelle ermöglicht es, die Zahl abzulesen
- Es gibt einen Unterschied zum vorherigen Beispiel mit strukturierten Daten
Beispiel für unstrukturierte Daten
- Jemand möchte eine Cookie-Bäckerei eröffnen und den möglichen Gewinn für 6 Stunden Verkauf ermitteln
- Um Cookies zu backen, benötigt die Person Mehl, Schokolade, Butter und andere Zutaten, die zusammen 3,75 € pro Pfund kosten
- Die Einrichtung der Bäckerei kostet einmalig 1.580 €, die Arbeitskosten pro Stunde betragen 30 € pro Stunde
- Die Person kann zwei Bleche mit Cookies pro Stunde zubereiten, von denen jedes 250 Cookies fasst
- Jedes Blech benötigt 15 Pfund Zutaten und jedes Cookie kann für 2 € verkauft werden
- Hier ist, wie ein Datenset aussehen könnte
- Die einmaligen Kosten betragen 1.580 €
- Die Kosten pro Stunde sind 15 Pfund x 3,75 € x 2 Bleche + 30 € = 142,50 €
- Der Umsatz pro Stunde ist 250 x 2 € x 2 Bleche = 1.000 €
- Die anfallenden Kosten pro Tag betragen 142,50 € x 6 = 855 €
- Der Umsatz pro Tag betrug 6.000 €
- Der mögliche Gewinn betrug 6.000 - 1.580 - 855 = 3.565 €
Zusammenfassung: Strukturierte und unstrukturierte Daten
- Strukturierte Daten verwenden definierte Labels, während unstrukturierte Daten keine definierte Beschriftung oder Labels verwenden
- Strukturierte Datentypen sind numerisch oder textbasiert, während unstrukturierte Datentypen Text und multimodale Daten sind
- Strukturierte Daten werden in einem Data Warehouse gespeichert, während unstrukturierte Daten in der Regel in einem Data Lake gespeichert werden
- Strukturierte Daten sind skalierbar und effizient bei großen Datenmengen, während unstrukturierte Daten Probleme bei der Verarbeitung großer Datenmengen haben
- Strukturierte Daten sind leicht maschinenlesbar, während unstrukturierte Daten schwer maschinenlesbar sind
- Strukturierte Daten erfordern wenig Expertise für die Nutzung, während unstrukturierte Daten Expertise erfordern, um sie zu nutzen
- Viele Tools können direkt auf strukturierte Daten angewendet werden, aber nur wenige Tools können direkt auf unstrukturierte Daten angewendet werden
- Strukturierte Daten machen etwa 20 % aller Daten aus, unstrukturierte Daten machen etwa 80 % aller Daten aus
Open Data
- Offene Datensätze spielen in Wissenschaft, Wirtschaft, Sozialwissenschaften und Gesundheitswesen eine wichtige Rolle, da sie neue Erkenntnisse liefern
- Beispiele umfassen: Corona-Sequenzierung, Gründungsmonitor, Wahlen, Wetterbedingungen usw.
- Open Data bedeutet, dass Daten ohne Beschränkungen frei verfügbar sind
- Regierungen, NGOs und Forschungsinstitutionen führen Initiativen für Open Data durch
- Beispiele sind: GOV Data, U.S. Census Bureau, Bundesbank, Destatis, OSF, Github, Kaggle usw.
- Die folgenden Prinzipien gelten für Open Data
- Öffentlichkeit (Datenschutz, Sicherheit, Schutz der Privatsphäre gewährleistet)
- Zugänglichkeit (gängiges Datenformat)
- Etikettiert
- Wiederverwendbarkeit (Open Source Lizenz)
- Vollständigkeit (Primär- und Aggregatdaten)
- Aktualität (rechtzeitig)
- Folgenachfrage/Betreuung (Kontaktpersonen)
Daten aus sozialen Medien
- Social-Media-Daten sind eine wichtige Datenquelle für Forschung, Marketing und Personalbeschaffung
- Anwendungsprogrammierschnittstellen (APIs) ermöglichen den Zugriff auf diese Datensätze
- Social-Media-Unternehmen veröffentlichen einige ihrer anonymisierten Datensätze für die Forschung
Multimodale Daten
- Multimodale Daten umfassen verschiedene Medienformen
- Bilder
- Musik
- Gesten
- Sprache
- Beispiel: Funktionelle Nahinfrarotspektroskopie (fNIRS)
Daten vs. Informationen
- Daten sind Plural vom lateinischem Datum: gegeben
- Informationen sind aussagekräftige Daten
Daten
- Daten bilden die Grundlage für die Generierung von Informationen
- Oft roh und ohne Bedeutung gesehen
- Als Öl des 21. Jahrhunderts bezeichnet
Informationen
- Entstehen aber durch Umwandlung von Daten in verwendbare Form mit Bedeutung
- Sie können interpretiert, analysiert und verwendet werden
- Die Datenentstehung wird berücksichtigt
DIKW-Modell
- Das DIKW-Modell ist eine hierarchische Struktur, die die Beziehungen zwischen Daten, Informationen, Wissen und Weisheit beschreibt
- Die Daten sind Fakten oder Symbole, die ohne Kontext keine Bedeutung haben
- Informationen sind Daten, die Bedeutung haben und genutzt werden können
- Wissen ist die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu gewinnen
- Weisheit ist die Verknüpfung von Wissen und Erfahrung, das Ableiten von Schlussfolgerungen und das Treffen von besseren Entscheidungen
- Das DIKW-Modell wird eingesetzt, um zu verstehen, wie Daten und Informationen in Wissen und schließlich in Erkenntnisse und Aktionen umgewandelt werden können
DIKW-Modell Beispiel
- Die Bedeutung von Primzahlen in der Mathematik ist Weisheit
- Primzahlen? sind Wissen
- 2,3,5,7,11 ist Information
- 2,11,7,3,5 sind Daten
Der menschliche Faktor
- Der Mensch spielt eine wichtige Rolle bei der...
- Problemauswahl, um zu entscheiden, welches Problem mit Data Science gelöst werden soll
- Datenbereinigung, um ungültige Werte oder Ausreißer zu erkennen und über ihre Relevanz zu entscheiden
- Datenanalyse, da die Auswahl bestimmter Methoden hier von entscheidender Bedeutung ist
- Interpretation, da Einschränkungen von Methoden und Modellen verstanden, erläutert und kommuniziert werden
- Kommunikation, um wichtige Erkenntnisse der Datenwissenschaft zu vermitteln
Fähigkeiten für Data Science
- Experimentierfreude ist wichtig, weil man neue Wege braucht, um ein Problem zu lösen
- Mathematisches Denken ist wichtig, weil Daten meist numerisch vorliegen und grundlegende mathematische und statistische Kenntnisse eine Voraussetzung sind
- Datenkompetenz ist wichtig, weil Daten analytisch betrachtet werden müssen, um Informationen zu generieren, und weil datengestützte Entscheidungsfindung eine treibende Kraft für Innovation ist
Experimentierfreude
- Die Fähigkeit, ein Problem zu formulieren, Hypothesen zu formulieren und es mit analytischen und kreativen Ideen zu lösen
- In einigen Fällen werden Bewerber:innen Fragen gestellt, um ihre logische Denkweise auszuwerten, es geht aber nicht um die "richtige" Antwort, sondern vielmehr um wie sie an diese gelangen
Bearbeitungstechniken
- Man sollte Annahmen klären
- Länge und Breite eines VW Golf
- Größe eines Golfballs
- Problem zerlegen
- Volumen des VW Golf berechnen
- Volumen eines Golfballs berechnen
- Ergebnisse kombinieren, um Gesamtzahl abzuschätzen
- Annäherung der Gesamtzahl
Datenkompetenz
- Die Fähigkeit, die Daten zu verstehen und wichtige Fragen daraus zu beantworten
- Datensatz mit Körpergröße und Gewicht (Zoll und Pfund)
- Es ist möglich zu entscheiden, wie viel Gewichtszunahme man bei einer Zunahme der Körpergröße um einen Zoll erwarten würde
Probleme von Data Science
- Datenschutz
- Die Datenerhebung muss datenschutzkonform erfolgen
- Wo, wie und warum sind Daten wie gesammelt wurden?
- Wer hat die Daten gesammelt?
- Voreingenommenheit
- Die Daten können voreingenommen sein
- Data Scientists müssen Voreingenommenheit erkennen, da das Ergebnis verzerrt ist oder Diskriminierung erzeugt
- Ethik
- Werden Daten ethisch korrekt gesammelt?
- Es kann Voreingenommenheit geben, selbst wenn Daten ethisch korrekt erhoben werden
Ursachen von Diskrimierung
- Fehlerhafte oder verzerrte (engl. biased) Trainingsdaten
- Historische Verzerrungen
- Eingangsdaten, die bereits bestehende (explizite oder implizite) manuelle Vorurteile/Stereotypen enthalten
- Repräsentations-Bias
- Die Stichprobe bestimmt Gruppen- und Charaktereigenschaften
- Historische Verzerrungen
- Technische Einschränkungen
- Technischer Bias:
- Zugang zur Technologie (Hardware und Software) oder technische Probleme bei der Ãœbertragung von qualitativen Merkmalen in quantitativ maschinenlesbare Informationen
- Technischer Bias:
- Veränderungen im Laufe der Zeit
- Entstehender Bias
- Gesellschaftliche Veränderungen werden vom Algorithmus nicht erfasst
- Entstehender Bias
Beispiel HireVue
- Die Bewertung von Bewerber:innen mithilfe von KI erfolgt durch Analyse von Gesichtsbewegungen und Wortwahl
- Studierende werden ausgebidet, um Job-Chancen zu erhalten
Videoalgorithmen bei der Einstellung
- Forshungsfrage: Führen ungleiche Gruppenverteilungen in Trainingsdaten zu Verzerrungen, wenn es um die Einladung zu Vorstellungsgesprächen geht?
- Durchführung: Die Daten wurden auf einen Trainingsdatensatz von 6.000 Probanden angewendet
- Der Gewinner-Algorithmus einer Programmier-Challenge wurde untersucht
- 10.000 Selbstporträt-Clips wurden als Trainings-/Testdaten verwendet
- Die Mitarbeiter von Amazon MTurk beschrifteten die Daten
- Es gab eine ungleiche Verteilung der Ethnizität
Rückkehr zu HireVue und anderen Anbietern
- Im Experiment werden Videoalgorithmen von Bayrischem Rundfunk und Retorio auf Objektivität geprüft
- Es besteht eine menschliche Voreingenommenheit
- Diejenigen, die eine Brille tragen, sind weniger gewissenhaft
- Personen sind verträglicher mit einem Bücherregal im Hintergrund
- People of Colour werden als schlechter eingeschätzt
- Die Hersteller betonen, dass die Wirkung, die die Bewerber:innen auf andere Menschen haben, gemessen wird und der Algorithmus entsprechend trainiert wurde
ChatGPT
- 175 Milliarden Parameter (Deep Learning)
- 570 GB Textdaten aus Datenbanken (Bücher, Webtexte, Wikipedia, Artikel)
- 300 Milliarden Wörter (Foren, Blogs) werden dem System hinzugefügt
- Beschreibt die Konsequenz für Abschlussarbeiten, Prüfungsformate, Nachrichten, Literatur, Urteile
- In Kenia, Indien und Uganda kennzeichnen Mitarbeiter schädliche Texte (HateSpeech, Gewaltverbrechen) für weniger als 2 $ pro Stunde
- Der Zugang zu besseren Modellen ist kostenpflichtig
KI und verdeckte Diskriminierung
- Sprachmodelle verstärken tendenziell systematische Vorurteile
- Diskriminierung in Sprachmodellen in Form von Dialektvorurteilen
- Neue Arten von Rassismus vermeiden rassistische Terminologie, aber sie halten diskriminierende Verhaltensweisen aufrecht
KI und Diskriminierung durch Dialekte
- Es gibt Folgen in hypothetischen Experimenten
- Sprachmodelle ordnen Sprecher:innen des afroamerikanischen Englisch (AAE) in der Regel weniger angesehenen Berufe zu oder werden für Kapitalverbrechen härter bestraft
- Eine Zunahme von "Dialekt-Vorurteilen" führt zu einem Anhalten von Diskriminierung
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.