Data Science Foliensatz 2
35 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche Aussage beschreibt am besten den Unterschied zwischen strukturierten und unstrukturierten Daten?

  • Strukturierte Daten besitzen ein vordefiniertes Datenmodell, während unstrukturierte Daten keine feste Struktur haben. (correct)
  • Strukturierte Daten sind immer numerisch, während unstrukturierte Daten immer textbasiert sind.
  • Strukturierte Daten benötigen mehr Speicherplatz als unstrukturierte Daten.
  • Unstrukturierte Daten sind einfacher zu analysieren als strukturierte Daten.

Welche der folgenden Datenarten wäre kein typisches Beispiel für strukturierte Daten?

  • Eine Datenbank mit Kundendaten (Name, Adresse, Kaufhistorie)
  • Eine Excel-Tabelle mit Finanzkennzahlen eines Unternehmens
  • Eine Liste von Produktpreisen in einer Online-Shop-Datenbank
  • Ein Textdokument mit einer Beschreibung der Unternehmensstrategie (correct)

Was ist ein wesentliches Merkmal von unstrukturierten Daten?

  • Sie sind leicht in relationalen Datenbanken zu speichern.
  • Für ihre Analyse ist kein Fachwissen notwendig.
  • Sie erfordern oft einen hohen Aufwand, um relevante Informationen zu extrahieren. (correct)
  • Sie besitzen in der Regel vordefinierte *Labels*.

Welche Aussage beschreibt am besten den Begriff 'Open Data'?

<p>Daten, die ohne Beschränkungen für jeden verfügbar sind. (D)</p> Signup and view all the answers

Welches Prinzip gehört nicht zu den grundlegenden Prinzipien von Open Data?

<p>Sie müssen in einem proprietären Format vorliegen. (D)</p> Signup and view all the answers

Welche Rolle spielen offene Datensammlungen in der heutigen Gesellschaft nicht?

<p>Einschränkung des Zugangs zu Informationen für die breite Öffentlichkeit. (A)</p> Signup and view all the answers

Was sind APIs (Application Programming Interfaces) im Kontext von Daten aus sozialen Medien?

<p>Schnittstellen, die den Zugriff auf Datensammlungen ermöglichen. (D)</p> Signup and view all the answers

Was ist ein Beispiel für Multimodale Daten?

<p>Eine Kombination aus Bildern, Tonaufnahmen und Text in einem Video. (B)</p> Signup and view all the answers

Welche Aussage beschreibt nicht die Eigenschaften von Daten im Vergleich zu Informationen?

<p>Daten sind immer aussagekräftig und kontextbezogen. (A)</p> Signup and view all the answers

Wie werden Daten zu Informationen im DIKW-Modell?

<p>Durch das Hinzufügen von Bedeutung und Nutzbarkeit. (C)</p> Signup and view all the answers

In welcher Beziehung stehen Daten, Information, Wissen und Weisheit zueinander nach dem DIKW-Modell?

<p>Sie bilden eine hierarchische Struktur, wobei jedes Element auf dem vorherigen aufbaut. (C)</p> Signup and view all the answers

Welche der folgenden Fähigkeiten ist am wenigsten relevant für einen Data Scientist?

<p>Grafisches Design, um ansprechende Marketingmaterialien zu erstellen. (A)</p> Signup and view all the answers

Was bedeutet 'Datenkompetenz' im Kontext von Data Science?

<p>Die Fähigkeit, Daten analytisch zu betrachten und daraus Informationen zu gewinnen. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten das Problem des 'Bias' (Verzerrung) in Data Science?

<p>Eine systematische Verzerrung in den Daten, die zu falschen Schlussfolgerungen führt. (D)</p> Signup and view all the answers

Warum ist es wichtig, die ethischen Aspekte bei der Datenerhebung zu berücksichtigen?

<p>Um sicherzustellen, dass keine Persönlichkeitsrechte verletzt werden und die Daten korrekt verwendet werden. (D)</p> Signup and view all the answers

Was ist ein 'historischer Bias' im Kontext von Trainingsdaten für KI-Modelle?

<p>Eine Verzerrung, die durch die Verwendung von Daten aus der Vergangenheit entsteht, welche bestehende Vorurteile widerspiegeln. (A)</p> Signup and view all the answers

Was versteht man unter 'Repräsentations-Bias' in Bezug auf Trainingsdaten?

<p>Die systematische Unterrepräsentation bestimmter Gruppen oder Merkmale in den Daten. (C)</p> Signup and view all the answers

Welche Aussage beschreibt am besten den Begriff 'Technischer Bias'?

<p>Eine Verzerrung, die durch Probleme bei der Übertragung oder Verarbeitung von Daten aufgrund technologischer Einschränkungen entsteht. (C)</p> Signup and view all the answers

Was ist der 'Entstehender Bias' (Emergent Bias)?

<p>Gesellschaftliche Veränderungen bleiben vom Algorithmus unberücksichtigt. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen über den Einsatz von KI in der Rekrutierung ist am wahrscheinlichsten nicht korrekt?

<p>KI-Systeme können Vorurteile im Rekrutierungsprozess vollständig eliminieren. (C)</p> Signup and view all the answers

Was ist das Hauptproblem bei der Verwendung von Video-KI in der Rekrutierung?

<p>Das Risiko der Ãœbernahme menschlicher Voreingenommenheit durch die Algorithmen. (D)</p> Signup and view all the answers

Welchen potenziellen Nachteil haben Sprachmodelle wie ChatGPT?

<p>Sie können bestehende Vorurteile in der Sprache verstärken und verfestigen. (B)</p> Signup and view all the answers

Was bedeutet das Konzept des „Neuen Rassismus“ im Kontext von KI-Sprachmodellen?

<p>Die Vermeidung rassistischer Terminologie, während verdeckte diskriminierende Praktiken aufrechterhalten werden. (D)</p> Signup and view all the answers

Was ist das Hauptproblem bei der Verwendung von Sprachmodellen, die mit großen Textmengen trainiert wurden, in Bezug auf Diskriminierung?

<p>Sie können Vorurteile gegenüber bestimmten Dialekten oder Akzenten verstärken. (B)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die ethische Herausforderung im Zusammenhang mit Sprachmodellen?

<p>Sie können bestehende soziale Ungleichheiten und Stereotypen verstärken. (D)</p> Signup and view all the answers

Was ist die Rolle des Menschen im Data Science-Prozess?

<p>Der Mensch entscheidet, welches Problem gelöst werden soll, bereinigt Daten, analysiert und interpretiert Ergebnisse. (C)</p> Signup and view all the answers

Welche der folgenden Aufgaben gehört nicht zu den typischen Verantwortlichkeiten eines Data Scientists?

<p>Verwaltung der IT-Infrastruktur des Unternehmens. (A)</p> Signup and view all the answers

Welche der folgenden Aussagen über strukturierte Daten ist korrekt?

<p>Sie verwenden definierte <em>Labels</em>. (A)</p> Signup and view all the answers

In welchem Bereich sind die Datenkompetenzen von Data-Scientists nicht hilfreich?

<p>Verwaltung der Personalabteilung. (D)</p> Signup and view all the answers

Welche der folgenden ist eine Fähigkeit die von Data Scientists benötigt wird?

<p>Mathematisches Denken (B)</p> Signup and view all the answers

Welche Aufgaben werden bei der Datenbereinigung durchgeführt?

<p>Erkennen invalider Werte (B)</p> Signup and view all the answers

Inwiefern beeinflusst der Mensch den Data Science Prozess?

<p>Die Auswahl von bestimmten Methoden durch den Menschen ist entscheidend für den Erfolg (A)</p> Signup and view all the answers

Wie beeinflusst das DIKW-Modell die Entscheidungsfindung in Organisationen?

<p>Es hilft zu verstehen, wie Daten durch Anreicherung mit Kontext und Analyse zu Wissen und schließlich zu Erkenntnissen für fundierte Entscheidungen werden. (B)</p> Signup and view all the answers

Welche Herausforderung entsteht hauptsächlich bei der Analyse von unstrukturierten Daten im Vergleich zu strukturierten Daten?

<p>Die Interpretation unstrukturierter Daten erfordert mehr Fachwissen und ist weniger direkt durch Standardsoftware automatisierbar. (B)</p> Signup and view all the answers

Welche Überlegung ist bei der Nutzung von Social-Media-Daten für Data-Science-Projekte besonders wichtig?

<p>Die Berücksichtigung ethischer Aspekte und potenzieller Verzerrungen, da diese Daten nicht immer repräsentativ für die Gesamtbevölkerung sind. (D)</p> Signup and view all the answers

Flashcards

Strukturierte Daten

Daten, die in einem vordefinierten Format vorliegen und interpretierbar sind.

Unstrukturierte Daten

Daten ohne vordefiniertes Format, oft in Form von Text, Bildern oder Videos.

Labels

Werte und Bezeichnungen oder Kategorien, die Daten zugeordnet werden und für Interpretierbarkeit sorgen.

Daten

Plural von Datum (gegeben). Grundlage für die Erzeugung von Informationen.

Signup and view all the flashcards

Informationen

Aussagekräftige Daten, entstanden durch Konvertierung von Daten in eine nützliche Form.

Signup and view all the flashcards

DIKW-Modell

Hierarchische Struktur, die die Beziehungen zwischen Daten, Information, Wissen und Weisheit beschreibt.

Signup and view all the flashcards

Daten (DIKW)

Fakten oder Symbole ohne Kontext.

Signup and view all the flashcards

Information (DIKW)

Daten, die eine Bedeutung haben und genutzt werden können.

Signup and view all the flashcards

Wissen (DIKW)

Fähigkeit, Informationen zu verstehen und Strukturen zu erkennen.

Signup and view all the flashcards

Weisheit (DIKW)

Verknüpfung von Wissen und Erfahrung, um Entscheidungen zu treffen.

Signup and view all the flashcards

Der Menschliche Faktor

Wichtige Rolle in der Datenanalyse und Entscheidungsfindung.

Signup and view all the flashcards

Experimentierfreudigkeit

Fähigkeit, neue Ansätze für Probleme zu finden.

Signup and view all the flashcards

Mathematisches Denken

Grundlegendes Verständnis für Zahlen und Statistiken.

Signup and view all the flashcards

Datenkompetenz

Fähigkeit, Daten analytisch zu betrachten und Informationen zu gewinnen.

Signup and view all the flashcards

Datenschutz

Ursprung muss datenschutzkonform geschehen.

Signup and view all the flashcards

Bias (Verzerrung)

Daten können verzerrt sein.

Signup and view all the flashcards

Ethik

Daten ethisch korrekt sammeln.

Signup and view all the flashcards

Historischer Bias

Inputdaten enthalten bereits explizite oder implizite menschliche Vorurteile und Stereotypen

Signup and view all the flashcards

Repräsentations-Bias

Bestimmte Gruppen oder Charakteristiken sind unterrepräsentiert.

Signup and view all the flashcards

Technischer Bias

Zugang zur Technologie oder technische Probleme.

Signup and view all the flashcards

Entstehender Bias

Gesellschaftliche Veränderungen bleiben unberücksichtigt.

Signup and view all the flashcards

HireVue und andere Anbieter

Objektivität von Video-KI durch ein Experiment überprüft

Signup and view all the flashcards

Menschliche Voreingenommenheit

Ergebnisse für Bewerber werden systematisch falsch generiert

Signup and view all the flashcards

Dialektvorurteile

Sprachmodelle erzeugen verdeckte Diskriminierungen in Sprachmodellen.

Signup and view all the flashcards

Sprachmodelle

Es wird rassistische Terminologie vermieden, aber diskriminierende Praktiken aufrecht erhalten

Signup and view all the flashcards

KI und Diskriminierung durch Dialekte

Sprachmodelle erreichen immer neue Ebenen verdeckter Vorurteile.

Signup and view all the flashcards

Study Notes

Lernziele

  • Nach dem Studium dieses Kapitels wird es möglich sein, strukturierte und unstrukturierte Daten zu unterscheiden und zu beschreiben
  • Die Fähigkeit, den Unterschied zwischen Daten und Informationen zu erklären
  • Erläuterung des DIKW-Modells
  • Man kann Fähigkeiten benennen und beschreiben, die für Data Scientists erforderlich sind
  • Es wird möglich sein, wichtige Probleme und Gefahren im Zusammenhang mit Data Science zu benennen und zu erläutern

Arten von Daten

  • Es gibt zwei Haupttypen von Daten: strukturierte und unstrukturierte

Einfachste Unterscheidung von Daten

  • Strukturierte Daten sind über Tabellen dargestellt
  • Unstrukturierte Daten sind über Freitext dargestellt

Arten von Daten: Strukturierte Daten

  • Strukturierte Daten gelten weiterhin als die am häufigsten verwendete Datenart
  • Sie verwenden feste Labels, was sie interpretierbar macht
  • Labels sind Werte, Bezeichnungen oder Kategorien, die eindeutig zugeordnet sind
  • Beispiele für strukturierte Daten sind:
    • Numerische Werte wie 1,2,3,4,5
    • Text/Wort wie Einfamilienhaus, Düsseldorf
    • Boolesche Werte wie Wahr oder Falsch
    • Kategoriale Werte wie Gender, Ja/Nein
    • Symbole wie €
  • Es ist wesentlich, dass strukturierte Daten beschriftet werden, damit ihre Bedeutung verständlich ist

Datenpunkt 2848

  • Mithilfe der Tabellenstruktur kann man aus der Zahl 2848 ablesen
  • Es ist möglich, aus dieser Zahl durch die Tabellenstruktur abzulesen

Arten von Daten: Unstrukturierte Daten

  • Unstrukturierte Daten enthalten keine vordefinierten Labels
  • Sie haben das gleiche Format wie strukturierte Daten, z. B. numerisch, Text, kategorial, aber sie sind oft nicht einheitlich
  • Diese Daten sind typischerweise in natürlicher Sprache, z. B. in der Art und Weise, wie Menschen kommunizieren
    • E-Mails
    • Videos
    • Tweets/Posts in sozialen Medien
    • CT/MRT Scans
  • Unstrukturierte Daten sind in sehr großen Mengen vorhanden und benötigen einen großen Zeitaufwand, um Informationen zu extrahieren
    • Data Science hilft bei der Analyse großer Mengen unstrukturierter Daten
    • Algorithmen und maschinelles Lernen werden hier genutzt, z. B. Natural Language Processing

Datenpunkt 2848

  • Nur die Zahl selbst kann abgelesen werden
  • Die Struktur der Tabelle ermöglicht es, die Zahl abzulesen
  • Es gibt einen Unterschied zum vorherigen Beispiel mit strukturierten Daten

Beispiel für unstrukturierte Daten

  • Jemand möchte eine Cookie-Bäckerei eröffnen und den möglichen Gewinn für 6 Stunden Verkauf ermitteln
  • Um Cookies zu backen, benötigt die Person Mehl, Schokolade, Butter und andere Zutaten, die zusammen 3,75 € pro Pfund kosten
  • Die Einrichtung der Bäckerei kostet einmalig 1.580 €, die Arbeitskosten pro Stunde betragen 30 € pro Stunde
  • Die Person kann zwei Bleche mit Cookies pro Stunde zubereiten, von denen jedes 250 Cookies fasst
  • Jedes Blech benötigt 15 Pfund Zutaten und jedes Cookie kann für 2 € verkauft werden
  • Hier ist, wie ein Datenset aussehen könnte
    • Die einmaligen Kosten betragen 1.580 €
    • Die Kosten pro Stunde sind 15 Pfund x 3,75 € x 2 Bleche + 30 € = 142,50 €
    • Der Umsatz pro Stunde ist 250 x 2 € x 2 Bleche = 1.000 €
    • Die anfallenden Kosten pro Tag betragen 142,50 € x 6 = 855 €
    • Der Umsatz pro Tag betrug 6.000 €
    • Der mögliche Gewinn betrug 6.000 - 1.580 - 855 = 3.565 €

Zusammenfassung: Strukturierte und unstrukturierte Daten

  • Strukturierte Daten verwenden definierte Labels, während unstrukturierte Daten keine definierte Beschriftung oder Labels verwenden
  • Strukturierte Datentypen sind numerisch oder textbasiert, während unstrukturierte Datentypen Text und multimodale Daten sind
  • Strukturierte Daten werden in einem Data Warehouse gespeichert, während unstrukturierte Daten in der Regel in einem Data Lake gespeichert werden
  • Strukturierte Daten sind skalierbar und effizient bei großen Datenmengen, während unstrukturierte Daten Probleme bei der Verarbeitung großer Datenmengen haben
  • Strukturierte Daten sind leicht maschinenlesbar, während unstrukturierte Daten schwer maschinenlesbar sind
  • Strukturierte Daten erfordern wenig Expertise für die Nutzung, während unstrukturierte Daten Expertise erfordern, um sie zu nutzen
  • Viele Tools können direkt auf strukturierte Daten angewendet werden, aber nur wenige Tools können direkt auf unstrukturierte Daten angewendet werden
  • Strukturierte Daten machen etwa 20 % aller Daten aus, unstrukturierte Daten machen etwa 80 % aller Daten aus

Open Data

  • Offene Datensätze spielen in Wissenschaft, Wirtschaft, Sozialwissenschaften und Gesundheitswesen eine wichtige Rolle, da sie neue Erkenntnisse liefern
    • Beispiele umfassen: Corona-Sequenzierung, Gründungsmonitor, Wahlen, Wetterbedingungen usw.
  • Open Data bedeutet, dass Daten ohne Beschränkungen frei verfügbar sind
    • Regierungen, NGOs und Forschungsinstitutionen führen Initiativen für Open Data durch
    • Beispiele sind: GOV Data, U.S. Census Bureau, Bundesbank, Destatis, OSF, Github, Kaggle usw.
  • Die folgenden Prinzipien gelten für Open Data
    • Öffentlichkeit (Datenschutz, Sicherheit, Schutz der Privatsphäre gewährleistet)
    • Zugänglichkeit (gängiges Datenformat)
    • Etikettiert
    • Wiederverwendbarkeit (Open Source Lizenz)
    • Vollständigkeit (Primär- und Aggregatdaten)
    • Aktualität (rechtzeitig)
    • Folgenachfrage/Betreuung (Kontaktpersonen)

Daten aus sozialen Medien

  • Social-Media-Daten sind eine wichtige Datenquelle für Forschung, Marketing und Personalbeschaffung
  • Anwendungsprogrammierschnittstellen (APIs) ermöglichen den Zugriff auf diese Datensätze
  • Social-Media-Unternehmen veröffentlichen einige ihrer anonymisierten Datensätze für die Forschung

Multimodale Daten

  • Multimodale Daten umfassen verschiedene Medienformen
    • Bilder
    • Musik
    • Gesten
    • Sprache
  • Beispiel: Funktionelle Nahinfrarotspektroskopie (fNIRS)

Daten vs. Informationen

  • Daten sind Plural vom lateinischem Datum: gegeben
  • Informationen sind aussagekräftige Daten

Daten

  • Daten bilden die Grundlage für die Generierung von Informationen
  • Oft roh und ohne Bedeutung gesehen
  • Als Öl des 21. Jahrhunderts bezeichnet

Informationen

  • Entstehen aber durch Umwandlung von Daten in verwendbare Form mit Bedeutung
  • Sie können interpretiert, analysiert und verwendet werden
  • Die Datenentstehung wird berücksichtigt

DIKW-Modell

  • Das DIKW-Modell ist eine hierarchische Struktur, die die Beziehungen zwischen Daten, Informationen, Wissen und Weisheit beschreibt
  • Die Daten sind Fakten oder Symbole, die ohne Kontext keine Bedeutung haben
  • Informationen sind Daten, die Bedeutung haben und genutzt werden können
  • Wissen ist die Fähigkeit, Informationen zu verstehen, Strukturen zu erkennen und Einblicke zu gewinnen
  • Weisheit ist die Verknüpfung von Wissen und Erfahrung, das Ableiten von Schlussfolgerungen und das Treffen von besseren Entscheidungen
  • Das DIKW-Modell wird eingesetzt, um zu verstehen, wie Daten und Informationen in Wissen und schließlich in Erkenntnisse und Aktionen umgewandelt werden können

DIKW-Modell Beispiel

  • Die Bedeutung von Primzahlen in der Mathematik ist Weisheit
  • Primzahlen? sind Wissen
  • 2,3,5,7,11 ist Information
  • 2,11,7,3,5 sind Daten

Der menschliche Faktor

  • Der Mensch spielt eine wichtige Rolle bei der...
    • Problemauswahl, um zu entscheiden, welches Problem mit Data Science gelöst werden soll
    • Datenbereinigung, um ungültige Werte oder Ausreißer zu erkennen und über ihre Relevanz zu entscheiden
    • Datenanalyse, da die Auswahl bestimmter Methoden hier von entscheidender Bedeutung ist
    • Interpretation, da Einschränkungen von Methoden und Modellen verstanden, erläutert und kommuniziert werden
    • Kommunikation, um wichtige Erkenntnisse der Datenwissenschaft zu vermitteln

Fähigkeiten für Data Science

  • Experimentierfreude ist wichtig, weil man neue Wege braucht, um ein Problem zu lösen
  • Mathematisches Denken ist wichtig, weil Daten meist numerisch vorliegen und grundlegende mathematische und statistische Kenntnisse eine Voraussetzung sind
  • Datenkompetenz ist wichtig, weil Daten analytisch betrachtet werden müssen, um Informationen zu generieren, und weil datengestützte Entscheidungsfindung eine treibende Kraft für Innovation ist

Experimentierfreude

  • Die Fähigkeit, ein Problem zu formulieren, Hypothesen zu formulieren und es mit analytischen und kreativen Ideen zu lösen
  • In einigen Fällen werden Bewerber:innen Fragen gestellt, um ihre logische Denkweise auszuwerten, es geht aber nicht um die "richtige" Antwort, sondern vielmehr um wie sie an diese gelangen

Bearbeitungstechniken

  • Man sollte Annahmen klären
    • Länge und Breite eines VW Golf
    • Größe eines Golfballs
  • Problem zerlegen
    • Volumen des VW Golf berechnen
    • Volumen eines Golfballs berechnen
    • Ergebnisse kombinieren, um Gesamtzahl abzuschätzen
    • Annäherung der Gesamtzahl

Datenkompetenz

  • Die Fähigkeit, die Daten zu verstehen und wichtige Fragen daraus zu beantworten
  • Datensatz mit Körpergröße und Gewicht (Zoll und Pfund)
  • Es ist möglich zu entscheiden, wie viel Gewichtszunahme man bei einer Zunahme der Körpergröße um einen Zoll erwarten würde

Probleme von Data Science

  • Datenschutz
    • Die Datenerhebung muss datenschutzkonform erfolgen
    • Wo, wie und warum sind Daten wie gesammelt wurden?
    • Wer hat die Daten gesammelt?
  • Voreingenommenheit
    • Die Daten können voreingenommen sein
    • Data Scientists müssen Voreingenommenheit erkennen, da das Ergebnis verzerrt ist oder Diskriminierung erzeugt
  • Ethik
    • Werden Daten ethisch korrekt gesammelt?
    • Es kann Voreingenommenheit geben, selbst wenn Daten ethisch korrekt erhoben werden

Ursachen von Diskrimierung

  • Fehlerhafte oder verzerrte (engl. biased) Trainingsdaten
    • Historische Verzerrungen
      • Eingangsdaten, die bereits bestehende (explizite oder implizite) manuelle Vorurteile/Stereotypen enthalten
    • Repräsentations-Bias
      • Die Stichprobe bestimmt Gruppen- und Charaktereigenschaften
  • Technische Einschränkungen
    • Technischer Bias:
      • Zugang zur Technologie (Hardware und Software) oder technische Probleme bei der Ãœbertragung von qualitativen Merkmalen in quantitativ maschinenlesbare Informationen
  • Veränderungen im Laufe der Zeit
    • Entstehender Bias
      • Gesellschaftliche Veränderungen werden vom Algorithmus nicht erfasst

Beispiel HireVue

  • Die Bewertung von Bewerber:innen mithilfe von KI erfolgt durch Analyse von Gesichtsbewegungen und Wortwahl
  • Studierende werden ausgebidet, um Job-Chancen zu erhalten

Videoalgorithmen bei der Einstellung

  • Forshungsfrage: Führen ungleiche Gruppenverteilungen in Trainingsdaten zu Verzerrungen, wenn es um die Einladung zu Vorstellungsgesprächen geht?
  • Durchführung: Die Daten wurden auf einen Trainingsdatensatz von 6.000 Probanden angewendet
  • Der Gewinner-Algorithmus einer Programmier-Challenge wurde untersucht
  • 10.000 Selbstporträt-Clips wurden als Trainings-/Testdaten verwendet
  • Die Mitarbeiter von Amazon MTurk beschrifteten die Daten
  • Es gab eine ungleiche Verteilung der Ethnizität

Rückkehr zu HireVue und anderen Anbietern

  • Im Experiment werden Videoalgorithmen von Bayrischem Rundfunk und Retorio auf Objektivität geprüft
  • Es besteht eine menschliche Voreingenommenheit
    • Diejenigen, die eine Brille tragen, sind weniger gewissenhaft
    • Personen sind verträglicher mit einem Bücherregal im Hintergrund
    • People of Colour werden als schlechter eingeschätzt
  • Die Hersteller betonen, dass die Wirkung, die die Bewerber:innen auf andere Menschen haben, gemessen wird und der Algorithmus entsprechend trainiert wurde

ChatGPT

  • 175 Milliarden Parameter (Deep Learning)
  • 570 GB Textdaten aus Datenbanken (Bücher, Webtexte, Wikipedia, Artikel)
  • 300 Milliarden Wörter (Foren, Blogs) werden dem System hinzugefügt
  • Beschreibt die Konsequenz für Abschlussarbeiten, Prüfungsformate, Nachrichten, Literatur, Urteile
  • In Kenia, Indien und Uganda kennzeichnen Mitarbeiter schädliche Texte (HateSpeech, Gewaltverbrechen) für weniger als 2 $ pro Stunde
  • Der Zugang zu besseren Modellen ist kostenpflichtig

KI und verdeckte Diskriminierung

  • Sprachmodelle verstärken tendenziell systematische Vorurteile
  • Diskriminierung in Sprachmodellen in Form von Dialektvorurteilen
  • Neue Arten von Rassismus vermeiden rassistische Terminologie, aber sie halten diskriminierende Verhaltensweisen aufrecht

KI und Diskriminierung durch Dialekte

  • Es gibt Folgen in hypothetischen Experimenten
  • Sprachmodelle ordnen Sprecher:innen des afroamerikanischen Englisch (AAE) in der Regel weniger angesehenen Berufe zu oder werden für Kapitalverbrechen härter bestraft
  • Eine Zunahme von "Dialekt-Vorurteilen" führt zu einem Anhalten von Diskriminierung

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Use Quizgecko on...
Browser
Browser