Strukturierte vs. unstrukturierte Daten
36 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche Aussage beschreibt am besten den Unterschied zwischen strukturierten und unstrukturierten Daten?

  • Unstrukturierte Daten sind leichter in Data Warehouses zu speichern als strukturierte Daten.
  • Strukturierte Daten sind immer in natürlicher Sprache verfasst, während unstrukturierte Daten numerisch sind. (correct)
  • Strukturierte Daten besitzen vordefinierte Labels, die ihre Interpretation erleichtern, während unstrukturierte Daten keine solchen Labels haben.
  • Strukturierte Daten erfordern mehr Fachwissen für ihre Analyse als unstrukturierte Daten.

Welche der folgenden Datenarten würde am ehesten als unstrukturiert gelten?

  • Eine Datenbank mit Lagerbeständen, die Artikelnummern, Mengen und Preise enthält.
  • Eine Exceltabelle mit monatlichen Umsatzzahlen. (correct)
  • Ein Textdokument mit einer ausführlichen Beschreibung eines Produkts.
  • Eine Tabelle mit Kundendaten, die Namen, Adressen und Kaufhistorie enthält.

Was ist die wichtigste Eigenschaft, die strukturierte Daten auszeichnet?

  • Sie besitzen definierte Labels, die ihre Interpretation klar machen.
  • Sie erfordern immer den Einsatz von Natural Language Processing.
  • Sie sind leicht von Menschen zu interpretieren, aber schwer von Maschinen. (correct)
  • Sie sind immer in großen Mengen vorhanden.

Welche Aussage trifft auf unstrukturierte Daten zu?

<p>Sie können Videos, Textnachrichten und Social-Media-Posts beinhalten. (C)</p> Signup and view all the answers

Wie können Data Scientists bei der Analyse von unstrukturierten Daten helfen?

<p>Indem sie die Daten ignorieren, da diese irrelevant sind. (B)</p> Signup and view all the answers

Was ist das Hauptziel von Open-Data-Initiativen?

<p>Daten ohne Beschränkungen für die Nutzung und Weiterverwendung zur Verfügung zu stellen. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten, wie Daten in Informationen umgewandelt werden?

<p>Daten werden in Informationen umgewandelt, indem sie in eine nützliche Form mit einer Bedeutung konvertiert werden. (B)</p> Signup and view all the answers

Wie können aus Social-Media-Daten Erkenntnisse gewonnen werden?

<p>Durch das Ignorieren von Social-Media-Daten, da diese irrelevant sind. (B)</p> Signup and view all the answers

Welchen Vorteil bieten offene Datensammlungen in Bezug auf wissenschaftliche Forschung?

<p>Sie ermöglichen die Generierung neuer Erkenntnisse in verschiedenen Bereichen wie Wissenschaft, Wirtschaft und Gesundheitswesen. (B)</p> Signup and view all the answers

Was ist die primäre Funktion des DIKW-Modells?

<p>Die Hierarchie und Beziehungen zwischen Daten, Information, Wissen und Weisheit zu beschreiben. (B)</p> Signup and view all the answers

In welcher Reihenfolge werden Daten, Informationen, Wissen und Weisheit im DIKW-Modell typischerweise angeordnet?

<p>Daten, Informationen, Wissen, Weisheit (B)</p> Signup and view all the answers

Was beschreibt die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu erhalten, im Kontext des DIKW-Modells?

<p>Informationen (C)</p> Signup and view all the answers

Welche der folgenden Fähigkeiten ist besonders wichtig für Data Science?

<p>Die Fähigkeit, neue Ansätze für Probleme zu schaffen und analytisch zu denken. (C)</p> Signup and view all the answers

Warum ist Datenkompetenz eine wichtige Fähigkeit für Data Science?

<p>Um Daten nur oberflächlich zu betrachten. (B)</p> Signup and view all the answers

Welche Herausforderung kann bei der Verwendung von Video-Algorithmen in der Rekrutierung auftreten?

<p>Die Algorithmen sind in der Lage, die Persönlichkeit eines Bewerbers vollständig zu erfassen. (B)</p> Signup and view all the answers

Welches Problem kann bei der Verwendung großer Sprachmodelle wie ChatGPT auftreten?

<p>Sie sind frei von jeglichen Vorurteilen und Diskriminierungen. (C)</p> Signup and view all the answers

Was versteht man unter dem Begriff 'Bias' im Kontext von Data Science?

<p>Eine systematische Verzerrung, die zu unfairen oder ungenauen Ergebnissen führt. (B)</p> Signup and view all the answers

Was ist ein Beispiel für einen 'historischen Bias' in Trainingsdaten?

<p>Die Verwendung von Daten, die frei von Fehlern sind. (B)</p> Signup and view all the answers

Welche Rolle spielt der Mensch im Prozess der Data Science?

<p>Der Mensch ist nur für die Überprüfung der Ergebnisse zuständig. (B)</p> Signup and view all the answers

Wie können ungleiche Gruppenverteilungen in Trainingsdaten die Ergebnisse von Algorithmen beeinflussen?

<p>Sie führen immer zu faireren Ergebnissen. (B)</p> Signup and view all the answers

Welchen Aspekt der Datenanalyse betrifft die 'Interpretation'?

<p>Das Verständnis der Grenzen und Einschränkungen von verwendeten Methoden und Modellen. (B)</p> Signup and view all the answers

Was bedeutet 'Repräsentations-Bias' in Bezug auf Trainingsdaten?

<p>Die Daten sind in einer leicht verständlichen Form präsentiert. (B)</p> Signup and view all the answers

Welche ethische Überlegung ist bei der Datensammlung besonders wichtig?

<p>Die Datensammlung muss datenschutzkonform erfolgen und die Privatsphäre respektieren. (C)</p> Signup and view all the answers

Wie kann Data Science zur Innovation in verschiedenen Geschäftsbereichen beitragen?

<p>Durch die ausschließliche Nutzung traditioneller Analysemethoden. (C)</p> Signup and view all the answers

Welche Konsequenz kann aus der verdeckten Diskriminierung in Sprachmodellen resultieren?

<p>Eine neutrale und objektive Darstellung von verschiedenen Bevölkerungsgruppen. (C)</p> Signup and view all the answers

Was bedeutet 'Technischer Bias' im Kontext von Data Science?

<p>Eine Präferenz für bestimmte Programmiersprachen. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Herausforderung, die durch 'Entstehender Bias' (Emergent Bias) entsteht?

<p>Die Daten sind zu komplex, um analysiert zu werden. (B)</p> Signup and view all the answers

Welche der folgenden Tätigkeiten würde am wenigsten die Fähigkeit eines Data Scientists widerspiegeln, neue Ansätze für ein Problem zu finden?

<p>Das Anpassen eines bestehenden Algorithmus an ein neues Problem. (B)</p> Signup and view all the answers

Ein Unternehmen nutzt Social-Media-Daten, um Bewerber zu bewerten. Welche ethische Herausforderung könnte sich ergeben?

<p>Die Daten sind immer repräsentativ für alle Bewerber. (B)</p> Signup and view all the answers

Was ist die Hauptaussage der Kritik an Video-KI-Systemen wie HireVue?

<p>Sie können menschliche Voreingenommenheit übernehmen und diskriminierende Entscheidungen treffen. (B)</p> Signup and view all the answers

Welchen Vorteil bietet die Verwendung von Open Data für Bürger und Organisationen?

<p>Es dient hauptsächlich der kommerziellen Nutzung ohne öffentlichen Nutzen. (B)</p> Signup and view all the answers

Welche Herausforderung entsteht typischerweise bei der Analyse großer Mengen unstrukturierter Daten im Vergleich zu strukturierten Daten?

<p>Es ist einfacher, relevante Informationen aus unstrukturierten Daten zu extrahieren. (C)</p> Signup and view all the answers

Wie beeinflusst der Kontext die Umwandlung von Daten in Informationen?

<p>Der Kontext macht Daten komplizierter und weniger nützlich. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen Daten, Information, Wissen und Weisheit im DIKW-Modell?

<p>Weisheit wird zu Daten, Daten zu Wissen und Wissen zu Information in einer zufälligen Reihenfolge. (C)</p> Signup and view all the answers

Warum ist Experimentierfreudigkeit eine wichtige Fähigkeit für Data Scientists?

<p>Um sich auf Standardmethoden zu verlassen und kreative Lösungsansätze zu vermeiden. (C)</p> Signup and view all the answers

Wie können ungleiche Gruppenverteilungen in Trainingsdaten die Ergebnisse von Algorithmen in der Rekrutierung beeinflussen?

<p>Sie haben keinen Einfluss auf die Ergebnisse, solange die Datenmenge groß genug ist. (B)</p> Signup and view all the answers

Flashcards

Strukturierte Daten

Daten, die in einem festen Format vorliegen und leicht interpretierbar sind.

Unstrukturierte Daten

Daten, die keine vordefinierte Struktur haben und schwer zu interpretieren sind.

Labels

Werte und Bezeichnungen, die Daten zugeordnet werden, um sie interpretierbar zu machen.

Numerische Werte

Daten in numerischer Form.

Signup and view all the flashcards

Text/Worte

Daten in Textform.

Signup and view all the flashcards

Boolesche Werte

Daten, die nur zwei Werte annehmen können (wahr oder falsch).

Signup and view all the flashcards

Kategoriale Werte

Daten, die in Kategorien eingeteilt werden können.

Signup and view all the flashcards

Symbole

Visuelle oder typografische Zeichen zur Darstellung von Daten.

Signup and view all the flashcards

Keine Labels

Der Zustand, in dem Daten keine vordefinierte Struktur aufweisen.

Signup and view all the flashcards

Natürliche Sprache

Die natürliche Art und Weise, wie Menschen miteinander kommunizieren.

Signup and view all the flashcards

High Volume

Umfangreiche Datenmengen.

Signup and view all the flashcards

Multimodale Daten

Daten, die aus verschiedenen Medientypen bestehen.

Signup and view all the flashcards

Daten

Plural von Datum (lat.: gegeben); Grundlage für Informationen.

Signup and view all the flashcards

Informationen

Aussagekräftige Daten, die durch Konvertierung von Daten in eine nützliche Form entstanden sind.

Signup and view all the flashcards

DIKW-Modell

Hierarchische Struktur, Beziehungen zwischen Daten, Information, Wissen und Weisheit.

Signup and view all the flashcards

Daten (DIKW)

Fakten, Signale oder Symbole ohne Kontext.

Signup and view all the flashcards

Informationen (DIKW)

Daten mit Bedeutung und Nutzung.

Signup and view all the flashcards

Wissen (DIKW)

Fähigkeit, Informationen zu verstehen und Strukturen zu erkennen.

Signup and view all the flashcards

Weisheit/Erkenntnis (DIKW)

Verknüpfung von Wissen und Erfahrung, um Entscheidungen zu treffen.

Signup and view all the flashcards

Problemauswahl

Der Mensch entscheidet, welches Problem mittels Data Science gelöst werden soll.

Signup and view all the flashcards

Datenbereinigung

Menschen erkennen invalide Werte oder Ausreißer und entscheiden über deren Relevanz.

Signup and view all the flashcards

Datenanalyse

Die Auswahl von bestimmten Methoden durch den Menschen ist entscheidend für den Erfolg.

Signup and view all the flashcards

Interpretation

Grenzen und Einschränkungen von Methoden und Modellen müssen erkannt, erklärt werden.

Signup and view all the flashcards

Kommunikation

Menschen vermitteln wichtige Erkenntnisse aus der Datenwissenschaft.

Signup and view all the flashcards

Experimentierfreudigkeit

Es müssen neue Ansätze für ein bestimmtes Problem geschaffen werden.

Signup and view all the flashcards

Mathematisches Denken

Daten liegen meist numerisch vor und erfordern mathematisches Denken.

Signup and view all the flashcards

Datenkompetenz

Daten müssen analytisch betrachtet werden, um daraus Informationen zu gewinnen.

Signup and view all the flashcards

Experimentierfreudigkeit (Definition)

Die Fähigkeit, ein Problem zu artikulieren und Hypothesen aufzustellen.

Signup and view all the flashcards

Datenschutz

Ursprung der Daten muss datenschutzkonform geschehen.

Signup and view all the flashcards

Bias (Verzerrung)

Daten können verzerrt sein; Data Scientists müssen „Bias“ erkennen.

Signup and view all the flashcards

Ethik

Daten müssen ethisch korrekt gesammelt werden.

Signup and view all the flashcards

Historischer Bias

Inputdaten enthalten bereits explizite oder implizite menschliche Vorurteile und Stereotypen.

Signup and view all the flashcards

Repräsentations-Bias

Bestimmte Gruppen oder Charakteristiken sind unterrepräsentiert.

Signup and view all the flashcards

Technischer Bias

Zugang zur Technologie oder technische Probleme bei der Übertragung von Merkmalen.

Signup and view all the flashcards

Entstehender Bias

Gesellschaftliche Veränderungen bleiben vom Algorithmus unberücksichtigt.

Signup and view all the flashcards

KI-Diskriminierung

Sprachmodelle neigen dazu, Sprecher:innen mit African American English (AAE) weniger angesehene Berufe zuzuweisen.

Signup and view all the flashcards

Verdeckte Vorurteile

Sprachmodelle erreichen immer neue Ebenen verdeckter Vorurteile, ohne Kenntnis der Entwickler:innen und Nutzer:innen.

Signup and view all the flashcards

Falsche Sicherheit

Entwickler:innen und Nutzer:innen erkennen die abnehmenden offenen Vorurteile fälschlicherweise als Zeichen dafür an, dass Diskriminierung in Sprachmodellen gelöst ist.

Signup and view all the flashcards

Was sind soziale Medien?

Soziale Medien wie Facebook, Twitter, Instagram, YouTube, TikTok

Signup and view all the flashcards

Welche Datentypen gibt es?

Numerische Daten, Textuelle Daten, multimodale Daten

Signup and view all the flashcards

Welche Daten liegen meist in Data Lakes

Unstrukturierte Daten

Signup and view all the flashcards

Analyse großer unstrukturierter Datenmengen

Wie kann Data Science helfen?

Signup and view all the flashcards

Zugriff auf Datensammlungen

Was ermöglichen APIs?

Signup and view all the flashcards

Study Notes

Arten von Daten

  • Es gibt zwei Hauptkategorien, in die sich Daten einteilen lassen: strukturierte und unstrukturierte Daten.

Strukturierte Daten

  • Strukturierte Daten sind derzeit die wichtigste Datenart.
  • Strukturierte Daten zeichnen sich durch definierte Labels aus, die die Daten interpretierbar machen.
  • Labels können Werte, Bezeichnungen oder Kategorien sein, die den Daten eindeutig zugeordnet sind.
  • Strukturierte Daten müssen beschriftet sein, damit ihre Bedeutung klar wird.
  • Beispiele für strukturierte Daten sind numerische Werte (z.B. 1,2,3,4,5), Textwerte (z.B. Einfamilienhaus, Düsseldorf), Boolesche Werte (z.B. True, False), kategoriale Werte (z.B. Gender, Ja/Nein) und Symbole (z.B. €).

Unstrukturierte Daten

  • Unstrukturierte Daten haben keine vordefinierten Labels.
  • Sie liegen in einem ähnlichen Format wie strukturierte Daten (numerisch, Text, kategorial), sind aber oft nicht einheitlich.
  • Unstrukturierte Daten sind in der Regel natürliche Sprache.
  • Beispiele für unstrukturierte Daten sind E-Mails, Videos, Tweets/Posts in Social Media, CT/MRT-Aufnahmen usw.
  • Unstrukturierte Daten sind in großer Menge vorhanden und erfordern einen großen Aufwand, um relevante Informationen herauszufiltern.

Unterschiede zwischen strukturierte und unstrukturierte Daten

  • Strukturierte Daten verwenden definierte Labels, während unstrukturierte Daten keine definierten Beschriftungen oder Labels haben.
  • Strukturierte Daten sind meist numerisch oder textbasiert, während unstrukturierte Daten Text oder multimodale Daten sind.
  • Strukturierte Daten werden in einem Data Warehouse gespeichert, während unstrukturierte Daten in einem Data Lake gespeichert werden.
  • Strukturierte Daten sind skalierbar und effizient bei großen Datenmengen, während unstrukturierte Daten Probleme bei der Verarbeitung großer Datenmengen haben.
  • Strukturierte Daten sind einfach maschinenlesbar, während unstrukturierte Daten (nicht oder) schwer maschinenlesbar sind.
  • Für strukturierte Daten ist wenig Fachwissen zur Nutzung notwendig, während für unstrukturierte Daten Fachwissen erforderlich ist, um Daten zu nutzen.
  • Viele Tools können direkt auf strukturierte Daten angewendet werden, während nur wenige Tools auf unstrukturierte Daten eingesetzt werden können.
  • Strukturierte Daten machen ca. 20% aller Daten aus, während unstrukturierte Daten ca. 80% aller Daten ausmachen.

Multimodale Daten

  • Multimodale Daten umfassen verschiedene Formen von Medien wie Bilder, Musik, Gesten, Sprache und Töne.
  • Ein Beispiel hierfür ist Funktionelle Nahinfrarot-Spektroskopie (fNIRS).

Daten vs. Informationen

  • Daten = Plural von Datum (lat.: gegeben)
  • Informationen = Aussagekräftige Daten
  • Daten bilden die Grundlage für die Erzeugung von Informationen.
  • Daten werden oft als roh und bedeutungslos angesehen.
  • Daten werden auch als das „Öl des 21. Jahrhunderts" bezeichnet.
  • Informationen entstehen durch die Konvertierung von Daten in eine nützliche Form mit einer Bedeutung.
  • Informationen können interpretiert, analysiert und genutzt werden.
  • Informationen berücksichtigen den Kontext der Datenentstehung.

DIKW-Modell

  • Das DIKW-Modell ist eine hierarchische Struktur, die die Beziehungen zwischen Daten, Information, Wissen und Weisheit beschreibt.
  • Daten sind Fakten, Signale oder Symbole, die ohne Kontext keine Bedeutung haben.
  • Informationen sind Daten, die eine Bedeutung haben und genutzt werden können.
  • Wissen (Knowledge) ist die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu erhalten.
  • Weisheit (bzw. Erkenntnis) ist die Verknüpfung von Wissen und Erfahrung, Schlussfolgerungen zu ziehen und (bessere) Entscheidungen zu treffen.
  • Das DIKW-Modell wird verwendet, um zu verstehen, wie Daten und Informationen in Wissen und schließlich in Erkenntnis und Handlungen umgewandelt werden können.
  • DIKW steht für Data, Information, Knowledge, Wisdom.

Open Data

  • Offene Datensammlungen spielen eine wichtige Rolle in Wissenschaft, Wirtschaft, Sozialwissenschaften und im Gesundheitswesen, um neue Erkenntnisse zu generieren (z.B. Corona-Sequenzierung, Gründungsmonitor, Wahlen, Wetterbedingungen, u.v.m.).
  • Open Data bedeutet, dass Daten ohne Beschränkungen zur Verfügung stehen.
  • Regierungen, NGOs und akademische Gemeinschaften führen Open-Data-Initiativen durch (z.B. GOV Data, U.S. Census Bureau, Bundesbank, Destatis, OSF, Github, Kaggle, u.v.m.).
  • Prinzipien für Open Data: Öffentlich, zugänglich, beschriftet, wiederverwendbar (offene Lizenz), vollständig, aktuell, Nachfreigabe/ Betreuung (Ansprechpartner:innen).

Daten aus sozialen Medien

  • Social-Media Daten stellen eine wichtige Datenquelle für Forschung und Marketing dar, aber z.B. auch für die Personalrekrutierung.
  • Anwendungsschnittstellen (Application Programming Interface; APIs) ermöglichen den Zugriff auf diese Datensammlungen.
  • Social Media Unternehmen veröffentlichen spezifische teils anonymisierte Datensätze zu Forschungszwecken.

Der Menschliche Faktor und Data Science

  • Der Mensch spielt eine bedeutende Rolle bei Problemauswahl, Datenbereinigung, Datenanalyse, Interpretation und Kommunikation.
  • Es ist der Mensch, der entscheidet, welches Problem mittels Data Science gelöst werden soll.
  • Validität von Daten muss von Menschen über ihre Relevanz entschieden werden
  • Die konkrete Auswahl von bestimmten Methoden bei der Analyse ist von Menschen selbst entscheidend für den Erfolg
  • Grenzen von Methoden müssen auch vom Menschen erkannt, erklärt und kommuniziert werden
  • Alle zugehörigen wichtigen Informationen lassen sich vom forschenden Menschen aus der Datenwissenschaft gewinnen

Fähigkeiten für Data Science

  • Experimentierfreudigkeit ist wichtig, damit neue Ansätze für ein bestimmtes Problem geschaffen werden können.
  • Mathematisches Denken ist wichtig, da Daten meist numerisch vorliegen und grundlegende mathematische und statistische Kenntnisse Voraussetzung sind.
  • Datenkompetenz ist wichtig, da Daten analytisch betrachtet werden müssen, um daraus Informationen zu gewinnen und datengetriebene Entscheidungsfindung treibende Kraft für Innovation ist.

Datenschutz bei Data Science

  • Ursprung der Daten muss datenschutzkonform geschehen (Einwilligung, Aufklärung).
  • Fragen, die bei Datenschutz wichtig sind: Wo, wie und warum wurden Daten gesammelt? Wer hat die Daten gesammelt?

Verzerrung (Bias) bei Data Science

  • Daten können verzerrt sein.
  • Data Scientisten müssen „Bias“ erkennen bzw. bedenken, da sonst die Ergebnisse ebenfalls verzerrt sind und/oder zu Diskriminierung führen können.
  • Es gibt verschiedene Ursachen von Verzerrungen, darunter historische Voreingenommenheit (Inputdaten enthalten explizite oder implizite menschliche Vorurteile und Stereotypen), Repräsentations-Bias (bestimmte Gruppen oder Charakteristiken sind unterrepräsentiert) und technischer Bias (Zugang zur Technologie oder technische Probleme).

Ethik bei Data Science

  • Wurden die Daten ethisch korrekt gesammelt?
  • Auch hier besteht weiterhin ein mögliches „Bias“-Problem, selbst wenn die Daten ethisch korrekt erhoben wurden.

HireVue Beispiel

  • HireVue spart Unilever jährlich 100.000 Stunden an Zeit für Vorstellungsgespräche und etwa 1 Million Dollar an Rekrutierungskosten.
  • HireVue entscheidet mithilfe von KI, welche Jobkandidat:innen am besten passen.
  • HireVue analysiert 30-minütiges Standard-Assessment mit Auswertung von bis zu 500.000 Datenpunkten.
  • Gesichtsbewegungen und Wortwahl (bis vor kurzem noch Stimme) werden analysiert.
  • Studierende in den USA werden auf HireVue-Systemen trainiert, um Jobchancen zu verbessern.

Video-Algorithmen in der Rekrutierung

  • Fragestellung: Führen ungleiche Gruppenverteilungen in Trainingsdaten zu Verzerrungen, um zu einem Vorstellungsgespräch eingeladen zu werden?
  • Vorgehen: Gewinner-Algorithmen einer Programmier-Challenge wurden untersucht. 10.000 Selbstdarstellungsclips dienten als Trainings-/Test-Daten. Amazon MTurk-Mitarbeiter:innen beschrifteten die Daten. Es gab Ungleiche Verteilung der Ethnizität.

ChatGPT

  • ChatGPT ist ein generativer Pre-Trained Transformer (GPT 3.5) als Chatbot.
  • Das Modell hat 175 Milliarden Parameter (Deep Learning).
  • Es wurden 570 GB an Textdaten aus Datenbanken (Bücher, Webtexte, Wikipedia, Artikel) und weitere 300 Milliarden Wörter (Foren, Blogs) in das System eingespeist.
  • Dies hat Konsequenzen für Abschlussarbeiten, Prüfungsformate, Nachrichten, Literatur, Gerichtsurteile u.v.m.
  • Beschäftigte in Kenia, Indien und Uganda kennzeichneten schädliche Texte (HateSpeech, Gewalt, Straftaten) für weniger als $2 pro Stunde.
  • Der Zugang zu besseren Modellen ist kostenpflichtig.

KI und verdeckte Diskriminierung

  • Sprachmodelle neigen dazu, systematische Vorurteile zu verstärken.
  • Dies führt zu verdeckter Diskriminierung in Sprachmodellen in Form von "Dialektvorurteilen".
  • Es besteht ein „Neuer Rassismus“: Dabei wird rassistische Terminologie vermieden, aber verdeckte diskriminierende („rassistische") Praktiken aufrechterhalten

KI und Diskriminierung durch Dialekte

  • Sprachmodelle neigen dazu, Sprecher:innen mit African American English (AAE) weniger angesehene Berufe zuzuweisen und härter für Kapitalverbrechen zu verurteilen.
  • Aufgrund zunehmender Nutzung von Sprachmodellen birgt dies zwei Risiken: Sprachmodelle erreichen immer neue Ebenen verdeckter Vorurteile, ohne Kenntnis der Entwickler:innen und Nutzer:innen. Entwickler:innen und Nutzer:innen erkennen fälschlicherweise die abnehmenden offenen Vorurteile, die derzeit einzige getestete Form von Vorurteilen ist, als Zeichen dafür, dass Diskriminierung in Sprachmodellen gelöst ist, was zu Zunahme von Schäden durch „Dialektvorurteile" in Sprachmodellen und Fortbestehen von Diskriminierung führt.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Erfahren Sie mehr über strukturierte und unstrukturierte Daten. Strukturierte Daten haben definierte Labels, die die Daten interpretierbar machen. Unstrukturierte Daten haben keine vordefinierten Labels und sind oft in natürlicher Sprache.

More Like This

Structured vs
10 questions

Structured vs

MotivatedJoy avatar
MotivatedJoy
Data Science Overview and Data Types
37 questions
Use Quizgecko on...
Browser
Browser