Different Paths of Knowledge Klausur PDF

Summary

This document appears to be a study guide for a university course, focusing on different paths of knowledge. It covers topics such as scientific methods, theories, and data analysis. The document is structured around a list of different topics, and their related sources, potentially for a course in philosophy or computer science.

Full Transcript

Different Paths of Knowledge - Dokument für die Klausur - Inhalt 1. Wichtige Begriffe und Personen................................................................................... 1 1.1. Begriffe.....................................................

Different Paths of Knowledge - Dokument für die Klausur - Inhalt 1. Wichtige Begriffe und Personen................................................................................... 1 1.1. Begriffe......................................................................................................................... 1 1.2. Personen...................................................................................................................... 3 1.3. DATAx Begriffe............................................................................................................ 4 2. History of Methods....................................................................................................... 8 2.1. Quelle 1........................................................................................................................ 8 3. Methods in Science.....................................................................................................11 3.1. Quelle 1.......................................................................................................................11 3.2. Quelle 2.......................................................................................................................12 4. DATAx – How computers work....................................................................................13 4.1. Quelle 1.......................................................................................................................13 4.2. Quelle 2.......................................................................................................................14 5. DATAx – Programming 101.........................................................................................16 5.1. Quelle 1.......................................................................................................................16 5.2. Quelle 2.......................................................................................................................17 6. DATAx – Computational Thinking................................................................................17 6.1. Quelle 1.......................................................................................................................17 6.2. Quelle 2.......................................................................................................................18 7. DATAx – Machine Learning.........................................................................................20 7.1. Quelle 1.......................................................................................................................20 7.2. Quelle 2.......................................................................................................................21 8. Data and Methods.......................................................................................................22 8.1. Quelle 1.......................................................................................................................22 8.2. Quelle 2.......................................................................................................................27 8.3. Zusammenfassung......................................................................................................29 9. Experiments and Hypotheses......................................................................................29 9.1. Quelle 1.......................................................................................................................29 9.2. Quelle 2.......................................................................................................................31 9.3. Zusammenfassung......................................................................................................33 10. Causality and Correlation............................................................................................33 10.1. Quelle 1.......................................................................................................................33 10.2. Quelle 2.......................................................................................................................35 10.3. Zusammenfassung......................................................................................................36 11. Bias (Voreingenommenheit) and Critical Thinking.......................................................36 11.1. Quelle 1.......................................................................................................................36 11.2. Quelle 2.......................................................................................................................41 12. Scientific Methods and Societal Paradigms.................................................................45 Quelle 1................................................................................................................................45 Quelle 2................................................................................................................................48 13. Emergence of Agency.................................................................................................53 Quelle 1................................................................................................................................53 Quelle 2................................................................................................................................56 14. Mixed Methods............................................................................................................59 Quelle 2................................................................................................................................61 15. Transdisciplinary Research.........................................................................................63 Quelle 1................................................................................................................................63 1. Wichtige Begriffe und Personen 1.1. Begriffe Wissenschaft: - besondere Form der Wissensbildung; folgt dabei strengen Standards und Normen = Institution, eine gesellschaftliche Form der Wissensbildung zum Erhalt der wissen- schaftlichen Form Methode: - Universale Theorien, nicht immer notwendig auf die Wissenschaft bezogen = Plan- mäßiges Verfahren zur Erreichung eines Ziels Theorie: - Annahmen, nach denen Verfahren bestimmt/gestaltet werden - Ursprungsgedanke für eine Aktion, die dann zu einem Produkt führt Induktion: - Ableitung einer allgemeinen Regel durch eine oder mehrere Bedingungen - verallgemeinertes Denken - Vertreter Francis Bacon – „Ausgehend von einer Beobachtung können wir durch Ver- allgemeinerung zu Gesetzen gelangen“ Deduktion: - Erkennen einer logischen Regel und einer gegebenen Bedingung – eine Schlussfol- gerung auf logische Konsequenz findet statt - aus allgemeinen Aussagen einzelne Beobachtungen ableiten - Vertreter René Decartes Empirie: - Ein empirischer Beleg liegt vor, wenn die getroffene Hypothese durch gesammelte Daten bzw. Erfahrungen belegt werden kann - Überprüfung mittels statistischer Tests – Ist die Hypothese statistisch signifikant? Qualitative Methoden: - Konzentration auf menschliche Dimensionen der beobachtbaren oder konzeptuellen Realität - Beobachtungsdaten oder Interpretation vorhandener Daten direkt mit Theorie oder Konzepten verknüpft – tiefes konzeptuelles Verständnis - Erhebung nicht standardisierter Daten und deren Auswertung Quantitative Methoden: - Konzentration auf Messung, Zählung und konstruierte Verallgemeinerung - Aus Daten sollen Muster extrahiert werden oder Theorien untermauert/belegt werden = numerische Darstellung empirischer Sachverhalte normativ/deskriptiv: - Maßstab oder Norm, Anweisung „so sollte es gemacht werden“/ Aussagen über die Realität „die Tatsache beschreibend“ Validität: - zentrales Konzept innerhalb der Hypothesenprüfung - gibt an, inwieweit eine Hypothese bestätigt werden kann; verbunden mit der Argu- mentation – gibt die Gesamtstärke des Ergebnisses eines statistischen Resultats an Reliabilität: 1 - Schlüsselkonzept der Statistik - gibt eine Vorstellung davon, ob Analysen unter den gegebenen Bedingungen genau und reproduzierbar sind Plausibilität: - Plausibilitätsprüfung, Methode in deren Rahmen ein Wert oder allgemein ein Ergeb- nis überschlagsmäßig daraufhin überprüft wird, ob es überhaupt plausibel, einleuch- tend und nachvollziehbar sein kann oder nicht Ontologie: - Disziplin der Philosophie, die sich mit der Einteilung des Seienden und den Grund- strukturen der Wirklichkeit befasst - beschäftigt sich mit allem, was es gibt und welche Kategorien von Objekten existieren und in welchem Verhältnis sie zueinanderstehen Epistemologie: - Erkenntnistheorie, dass die Fragen nach den Voraussetzungen für Erkenntnis, dem Zustandekommen von Wissen und anderer Formen von Überzeugungen umfasst - Lehre vom Wissen, Kontrast zur Sinneswahrnehmung beruhenden Meinung Emergenz: - Die Summe hat eine andere Eigenschaft als die einzelnen Elemente (Beispiel: 1 Pixel nutzlos, alle Pixel auf dem Handy ergeben Gesamtbild Konstruktivismus: - Erkenntnistheorie, die sich mit der Frage beschäftigt, wie wir zu unseren Erkenntnis- sen bzw. zu unserem Wissen gelangen - geht davon aus, dass gewisse Zweifel an dem Glauben angebracht sind, dass Wis- sen und Wirklichkeit übereinstimmen Falsifikation: - Überprüfung auf Widersprüchlichkeit (deduktive Methodik der Nachprüfung) Verifizierbarkeit: - Nachweis, dass ein vermuteter oder behaupteter Sachverhalt wahr ist (induktive Me- thode) Korrelationen: - Überprüfung, ob eine Beziehung zwischen zwei Variablen besteht Kausalität: - Die Beziehung zwischen Ursache und Wirkung - Unterschied anhand von Beispielen: Korrelation – „Menschen mit größerer Schuh- größe haben tendenziell ein höheres Einkommen.“ Kausalität – „Die Schuhgröße hat einen Einfluss auf das Nettoeinkommen.“ Bias: - Die Handlung, eine bestimmte Person oder Sache in unfairer Weise zu unterstützen oder abzulehnen, weil persönliche Meinungen das eigene Urteil beeinflussen können - Bias trübt unser Urteilsvermögen - biased – voreingenommen Kognitiver Bias: - kognitive Verzerrung, wahrnehmbarer Bias - Beispiele: Framing, Kultureller Bias, Eigennütziger Bias 2 Hypothese: - von Widersprüchen freie, aber zunächst unbewiesene (aber logische) Aussage/ An- nahme als Hilfsmittel für wissenschaftliche Erkenntnisse Testen von Hypothesen: - Aufteilung in Nullhypothese (H0) und Gegenhypothese (H1) - wiederholte systematische Untersuchung einer vorgefassten Theorie, idealerweise sollte während der Prüfung alles konstant gehalten werden Fehler beim Testen: - zwei verschiedene Fehler: Fehlertyp I (falsch positiv) und Fehlertyp II (falsch negativ) Paradigmen: - Ein Denkmuster, welches grundlegende Probleme und Methoden weiterer Bereiche eines Faches definiert und das Weltbild einer Zeit prägt Agency: - die Fähigkeit eines Individuums, vorsätzlich zu handeln, unter der Annahme eines kausalen Ergebnisses, das auf dieser Handlung beruht Komplexität (Ockham ́s Razor): - Grundgesetz des Ockhamschen Rasiermessers, das definiert, dass alle Dinge so ein- fach wie möglich und so komplex wie nötig sind Numerische Daten: - quantitative Daten, die in Zahlen ausgedrückt werden und mit denen sich rechnen lässt (Aufteilung in kontinuierliche Daten – nicht zählbar und diskrete Daten – zähl- bar) Kategorische Daten: - qualitative Daten, die in benannten Kategorien gesammelt werden können, die vonei- nander unabhängig sind - Beispiel: Haarfarbeprodukte, verschiedene Bezeichnungen für Farbpigmente, menschliche Wahrnehmung - unterteilbar in ordinale (können in Reihenfolge gebracht werden, Bsp. Noten) und no- minale Daten (können nicht geordnet werden, Bsp. Verschiedene Ethnien) Binäre Daten: - reduziertes Datenformat, das aus den Ebenen 1 und 0 besteht (Bsp. Informatik oder Lichtschalter An/Aus) Mixed Methods: - Kombination von Elementen eines quantitativen und eines qualitativen Forschungs- ansatzes innerhalb einer Untersuchung oder mehrerer aufeinander bezogener Unter- suchungen - kann sich auf wissenschaftstheoretische Position oder auf eine Interpretation bezie- hen Transdisziplinarität: - Forschungsmodus, der häufig in der Nachhaltigkeits- und Transformationsforschung angewendet wird (Aufteilung in Multi – und Interdisziplinarität) 1.2. Personen Aristoteles, Platon, Sokrates (Antike, ca. 350 v.Chr.): Gründung der westlichen Philosophie; Geburtsort der modernen Demokratie; noch keine empirische Forschung 3 Galileo Galilei (1564-1642): Heliozentrisches Weltmodell, erklärt dass die Planeten um die Sonne kreisen und die Sonne im Mittelpunkt des Systems sei Francis Bacon (1561-1626): Bacon löste eine Zunahme der empirischen Untersuchung aus; Novum Organum (1620) – Induktives Denkverhalten, wobei von besonderen Einzelfällen auf allg. Gesetze geschlossen wird Thomas Kuhn (1922-1996): Prägung des Paradigmenbegriffs; Paradigmen sind „konkrete Problemlösungen, die die Fachwelt akzeptiert hat“, ebenfalls bezeichnet er Paradigmen als „disziplinäre Matrix“ Karl Popper (1902-1994): Begründete den kritischen Rationalismus, Arbeiten zur Erkenntnis – und Wissenschaftstheorie; „Two-Culture“ Methode – Naturwissenschaftler vs. Geisteswissen- schaftler, Mittelwert: Sozialwissenschaftler; empirisches Falsifikationsprinzip David Hume (1711-1776): Philosoph der schottischen Aufklärung; Prägung der philosophi- schen Strömung des Empirismus. Humes Meinung zur Kausalität: Die Kausalität ist in Raum und Zeit zusammenhängend, die Ursache liegt vor der Wirkung, und es besteht eine ständige Verbindung zwischen Ursache und Wirkung. Hume ́s Kriterien: 1 – gleiche Ursache, gleiche Wirkung – Kriterium der Reproduzierbarkeit 2 – verbindendes Kriterium als Ursache bei Objekten mit denselben Effekten (einheitliche Kri- terien heutzutage bei großen Datenmengen) 3 – bei verschiedenen Effekten muss es einen Grund geben, weshalb es unterschiedlich wirkt John Locke (1632-1704): Vertreter des neuzeitlichen Empirismus; Gegenstand für Lockes Wissen sind die Ideen (Kritik an eingeborenen Ideen) Erkenntnistheorie: wandte sich gegen die Rechtfertigung der Naturwissenschaften aus dem bloßen Denken und suchte ihr Funda- ment in der Erfahrung Thomas Hobbes (1588-1679): Monarchist, Staatstheoretiker und Philosoph. Mechanistische Erkenntnistheorie, Druck auf jeweilige Sinnesorgane sollen Sinneswahrnehmungen auslösen, welche wiederum zu Einbildungen (Imagination) führen – Sinneswahrnehmungen sind in Wahrheit nicht vorhanden, sondern nur scheinbar Immanuel Kant (1724-1804): Vordenker der Aufklärung, Wendepunkt in der Philosophiege- schichte nach seinem Werk „Kritik der reinen Vernunft“ zur modernen Philosophie, Einfluss auf Erkenntnistheorie. Auseinandersetzung und Gegenüberstellung mit der rationalistischen und der empiristischen Philosophie des 18. Jahrhunderts Karl Marx (1818-1883): Einflussreichster Theoretiker von Sozialismus und Kommunismus; Marxismus – beeinflusst Diskurse der Geschichtswissenschaften und Soziologie wie auch Wirtschafts- und Politikwissenschaft bis in die Gegenwart 1.3. DATAx Begriffe Input – Computing (CPU) – Output Interaktion eines Informatiksystems mit seiner „Außenwelt“, analytische Maschine entwickelt von Charles Babbage (1837) Input: - Eingaben in Form von Signalen oder Daten, die das System dann empfängt CPU (central processing unit), Prozessor: 4 - programmierbares Rechenwerk, treibt Algorithmen bzw. Prozesse an – führt Befehle aus, meist in Form der Datenverarbeitung Output: - Ausgabe die vom System gesendet wird Dualzahlen/Binärzahlen: - Zahlen der Informatik und der „Computersprache“ - Es gibt nur die Zahlen 0 und 1 - Beispiel: Die Dezimalzahl 375 lautet als Binärzahl 10010 ASCII- Code („Amerikanischer Standard-Code für den Informationsaustausch): - 7-Bit-Zeichenkodierung - ordnet Zeichen wie Buchstaben, Ziffern und Satzzeichen sowie nicht druckbaren Steu- erzeichen bestimmte Codes zu - Beispiel: A=66 Darstellung von Bildern: - Farben werden durch das RGB-Prinzip dargestellt - 16 Millionen verschiedene Farben - 1 Pixel – 3 Byte, 1 Bild – 100 Millionen Byte - Speicherung von einem RGB-Bild – Abmessungen * 3 - Um weiß in RGB Bildern zu erhalten müssen folgende Werte eingestellt werden : für R,G und B jeweils 255 Darstellung von Videos: - benötigt mehr Speicherkapazität - 30-60 Bilder pro Sekunde - Hauptproblem beim Speichern, ist das viele redudante Daten gespeichert werden, da nachfolgende Frames ähnlich sind Von-Neumann-Computerarchitektur: - bestehend aus Control Unit, Arithmetic and Logic Unit und Memory Unit = Steuerein- heit, Arithmetik- und Logikeinheit und Speichereinheit Kommunikationsbus: - bestehend aus Data Bus, Adress Bus und Control Bus = Datenbus, Adressbus und Steuerbus ALU (arithmetic logic unit): - elektronisches Rechenwerk, welches in Prozessoren zum Einsatz kommt = grundle- gende Operationen: +,-,*,AND, / Programmierung: - Was soll der Computer eigentlich tun – in einer Sprache, die der Computer versteht = verschiedene Programmiersprachen - Befehle, die wir dem Computer geben, was er tun soll - Programmiersprachen haben unterschiedliche Anwendungsfehler Scratch: 1. Kernkonzept: 5 - Fähigkeit von Computern Daten in Programmiersprache zu speichern – Ein Konzept, das wir als Variable bezeichnen - Zum Zeitpunkt der Ausführung können Programmiersprachen in Variablen Daten spei- chern - Variable hat einen Namen, Datentyp und einen Wert, der einer Variable zugewiesen werden 2. Kernkonzept: - Basisoperationen (einfache Befehle wie Addition und Subtraktion), durch unterschied- liche Farben gekennzeichnet - Was eine Basisoperation ist, hängt davon ab in welchem Umfeld wir uns befinden - Hardware oder in einer Programmiersprache - Kernidee von Blöcken: Erspart Zeit und Mühe Steuerungsfluss: - zwei Arten: Schleifen und bedingte Ausführung Blöcke: - mit Hilfe der Blockdefinition muss man nur einmal den Programmcode schreiben Python: - wird in der Praxis und Wissenschaft genutzt - seit 30 Jahren – rapides Wachstum der Nutzung - statistisches Verfahren oder maschinelles Lernen - verschiedene Entwicklungsumgebungen - grundlegender Unterschied zu Scratch: Konvertierung von Dualzahlen und Dezimal- zahlen Rechnerisches Denken: - Denkprozess, der uns hilft, Probleme und deren Lösungen in einer Form zu formulie- ren, die von einem Computer verstanden werden können; Metamethode Kernkonzepte: Abstraktion, Dekomposition, Generalisierung und Algorithmierung 1. Abstraktion: - Konzentration auf wesentliche Aspekte, um zu einer Lösung zu gelangen 3 Ansätze: - Reduzierung: Komplexität durch Weglassen unwichtiger Details - Select (Wählen): geeignete Darstellung - Identifikation: Beziehungen zwischen zuzuordnenden Objekten – wie ist der Zusam- menhang zwischen der realen Welt und dem was ich erreichen möchte, um es mit dem Computer zu lösen 2. Dekomposition: - Zerlegung in Teilprojekte - Erleichterung der Lösung komplexer Probleme, Verständnis neuer Situationen und das Entwerfen großer Systeme - Bsp. Umwandlung von Dezimalzahlen in Binärzahlen 3. Generalisierung: 6 - Erkenntnisse ableiten, die ich aus neuem Problem gewonnen habe = Übertragung auf andere Problemstellungen - bestehende Lösungen anpassen, Muster identifizieren 4. Algorithmisierung: - Input, Processing, Output - Verfahren, was das ursprüngliche Problem zur Lösung überführt - grundlegende Logik nach dem Computer - Schritt für Schritt Beschreibungen wie ich vom Problem zur Lösung komme - Alle Schritte in Form von Basisoperationen - Eigenschaften: Diskretheit, Eindeutigkeit, Endlichkeit, wird nach Ausführung IMMER beendet - Bsp. Navigation mit Maps Telefonbuch – leichte Suche einfach Seite für Seite durchblättern Binäre Suche – effizienter, schneller / dabei hängt die Anzahl der erforderlichen Schritte loga- rithmisch von den zu suchenden Elementen ab Rucksackproblem: - Optimierungsproblem der Kombinatorik - Aus einer Menge von Objekten, die jeweils ein Gewicht und einen Nutzwert haben, soll eine Teilmenge ausgewählt werden, deren Gesamtgewicht eine vorgegebene Ge- wichtsschranke nicht überschreitet. Unter dieser Bedingung soll der Nutzwert der aus- gewählten Objekte maximiert werden. - begrenzte Kapazität in Form von Gewicht - Bsp. Rucksack Platz Innenraum – 10 Euro hat mehr Gewicht als 2 Euro... Maschinelles Lernen: - Verständnis der Grundlagen, um Chancen oder Risiken zu bewerten oder sie realisie- ren zu können Künstliche Intelligenz: Überbegriff - John McCartney - beschreibt den Teil der Informatik, der sich mit der Entwicklung und Untersuchung von Intelligenz und menschlichen Verhaltens befasst Untersuchung der Intelligenz: - ELIZA, in den 60ern entwickelt; Computerprogramm, welches die Möglichkeiten der Kommunikation zwischen einem Menschen und einem Computer über natürliche Spra- che aufzeigen soll; frühe Umsetzung des Turing-Tests (Beispiel künstliche Intelligenz, nicht für maschinelles Lernen) - Turing-Test, eine Maschine erfüllt den Test, wenn ein Mensch, der zahlreiche Fragen stellt, nicht mehr erkennt ob auf der anderen Seite ein Mensch oder Maschine sitzt Ab 80er Jahre: maschinelles Lernen, man lernt aus Erfahrung In den letzten 10 Jahren: Deep Learning, unstrukturierte Daten analysieren und bestimmte Modelle bauen Statistisches Modell: - kann die Beziehung zwischen einer Reihe von Prädikatoren und einer Zielvariablen quantitativ beschreiben 7 Wie lernen Maschinen? - Grundsätzlicher Gedanke: Wissen generieren – In Form von wiederauftretenden Mus- tern auf Basis von Daten - empirische Daten – unduction – statistical models - Bsp. Texte mit identischem Inhalt in anderen Sprachen – Vorgang nennt sich Induktion - Abbildung mit Hilfe von Funktionen oder statistischen Modellen Zwei Phasen des maschinellen Lernens: - Lernphase: Wie komme ich zu dem statistischen Modell? – Ich lerne bestimmte Muster und kodifiziere die in dem statistischen Modell - Anwendungsphase: Anwendung von dem statistischen Modell auf neue oder alte Da- ten Gather data – generate features – train model – evaluate – use Daten sammeln und aufbereiten, damit sie für den Computer lesbar sind Überwachtes/ Unüberwachtes Lernen: - können als Trainingsarten von Algorithmen bezeichnet werden - Überwachtes Lernen gut geeignet, um Klassifizierungen vorzunehmen, d.h. Daten an- hand von vorgegebenen Kategorien einzuteilen/ ebenfalls geeignet für Regressions- analyse – Vorhersagen zur Häufigkeit der gestellten Fragen - Unüberwachtes Lernen gut geeignet zum Clustering, d.h. um Muster in Daten zu er- kennen und diese anhand ähnlicher Muster zu kategorisieren/ ebenfalls geeignet für Assoziationsanalyse – welche Zusammenhänge gibt es unter Daten Überwachtes Lernen Unüberwachtes Lernen Prozess Input/Output Daten sind vorgegeben Nur Inputdaten sind gegeben Inputdaten Beispieldaten mit Zielvariable Beispieldaten ohne Zielvariable Das Lernen passiert vor dem Deploy- Echtzeitansatz Kann in Echtzeit genutzt werden ment Anzahl der Features Anzahl ist bekannt Anzahl ist unbekannt Vorhersagen von Werten und Klas- Generierung von Wissen und Mustern sen: z.B. Vorhersage von einer Kün- aus großen Datenmengen: z.B. Clus- Einsatzgebiete digung, Kaufwahrscheinlichkeiten tering von Kundenmerkmalen, Dimensi- oder den Stromverbrauch onsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk. 2. History of Methods 2.1. Quelle 1 Themen treiben die Forscher an. Theorien beginnen in einer Disziplin und breitet sich aus Methoden dienen zur Definition einer Disziplin. (problematisch) Wissenschaftliche Methoden: Erlauben Reproduzierbarkeit und sind erlernbar, oder doku- mentierbar und lernbar oder alles zusammen Aufnahme, Analyse und Interpretation von Da- ten (Daten können alles sein) bestimmte spezifisch Sprache - erzeugt Probleme Geschichte der Methoden: 8 Östliches Erbe: Indien Mathe, Medizin, Logik), Babylonia(Mathe, Astronomie, Medizin), Ägypten(Mathe, Astronomie, Medizin) Persien(Chemie, Physik; Astronomie, Medizin, Mathe, Literatur) – Z.B. kommt die 0 aus dem Osten Die Antike: Ethik, Ontologie, Logik, Mathe, Astronomie, Meteorologie, Geologie, Psychologie, Zoologie, Medizin - Herodot: 1. Geograf, historische Beschreibung der Griechen und Perser Krieg, Bias durch griechische Perspektive, story-telling, beeinflusst durch bias - Ibn al-Haytham: Frage der Optik, Systematische Erforschung von wissenschaftlichen Methoden, experimentell Beobachtungen, Early islamic scientific revolution - Aristoteles, Platon – erste Philosophen (beschäftigen sich mit Wetter, Logik, Natur und Meteorologie) Vor dem Zeitalter der Vernunft: Messung und Lösung, Lösungsorientierung, man hatte Fra- gen z.B. mechanischer oder architektonischer Art - Leonardo Da Vinci: Einer der letzten Polymathematiker Astronomie, Maler, Journals und Notebooks, Anatomie, Engineer - Mercator Karte: unterstützt und sorgt für Kolonialismus, Karte gut ausgeprägt in Afrika (deshalb Kritisch) - William of Ockham: Alles ist so einfach wie möglich und so kompliziert wie nötig Erfindung des Drucks – Hermaneuthik wuchs - Francis Bacon: Wichtigkeit der empirischen Untersuchung, "Vater der Methoden" Kontrolle der Kirchen - Empirismus (empirisches Erforschen von Dingen und Sehen von Ergebnissen oder gar Regeln) löste eine Revolution und Ausdifferenzierung der Wissenschaftszweige aus, tiefere Ausbildung der wissenschaftlichen Disziplinen Zeitalter der Vernunft: - Galileo Galilei: Physik, Ingenier – Questioned existing paradigm, paved the way to the scientifc method - Newton: Mathe, Physik, Astronomie, naturell Philosophie, Ingenieur - Darwin: Profitierte aus Kolonialismus, konstruierte Gesellschaft (sozial Darwinismus seeeehr schwierig) - Mill: Utilitarianism (Aufkommen von Statistiken, Daten, Analyse von Daten = holländi- sche doppelte Buchhaltung (Dinge wie, ob das Ernteergebnis von Baumwolle seinen Marktwert später im Jahr vorhersagen könnte), maimise happiness - Kant: Reason Wissenschaft wurde von der Kirche getrennt, Verschiedene Bereiche der Wissenschaft trennten sich The first truly systematic case studies were designed in medicine. Hence, we moved from experiments as a means of observation into experimental inquiry, paving the road to 20th century hypothesis testing. Nach den Kriegen: - Karl Marx – Kritik an Gesellschaft und Kapitalismus - Carl Hempel – science of deduction - Wittgenstein – Sprache gegen Realität, Limits für Wissenschaft 9 Critical theory: - Karl Popper – kritischer Rationalismus, gefeiert von Positivisten, nicht so kritisch - Thomas Kuhn –Wissenschaftlicher Paradigmenwechsel, Revolutionen - eine Revolu- tion, die eine Grenze zwischen normaler Wissenschaft und etwas Neuem herbeiführt, ein fundamentaler Wandel in den zugrundeliegenden Konzepten einer wissenschaftli- chen Disziplin und eine Erforschung neuer Phänomene oder Sichtweisen innerhalb einer Disziplin - Paul Feyerabend – methodischer Anarchist, gegen Methoden, suspicious, focuses on problems - Julie Klein – Interdisziplinarität - Elinor Ostro - systematischen Denken - Roy Bhasker – Kritischer Realismus - Derek Parfit – Ethik - Thomas Kuhn: Wie entwickelt sich die Wissenschaft? Wie sollte sie sich entwickeln? Problems between different schools of thinking 1. Welle: Philosophie: Reason, social contract, Logik 2. Welle: Psychologie: Politik, legal studies, Wirtschaft 3. Welle: Ökologie, Nachhaltigkeit, Datenwissenschaften Wissenschaft & Gesellschaft zusammen! Internet und Computer: Die neue Wissenschaft der interconnectedness Wie können wir zusammenarbeiten, Wissen austauschen, Regression in komplexen Syste- men managen, Menschen verbinden, wie produzieren wir wissen, was müssen wir beach- ten? - Julie Klein, Elinor Ostrom, Roy Bhaskar, Derek Parfit Mit zunehmender Erkenntnis der Komplexität der Probleme, mit denen die Menschheit kon- frontiert ist, wurde klar, dass eine einzelne Disziplin nicht in der Lage sein würde, die notwen- digen Lösungen anzunähern. Stattdessen würden die Disziplinen zusammenarbeiten müs- sen – Interdisziplinarität Probleme: - Gegensätzliche Denkansätze, inkompatible Sprache, Konkurrenz um Aufmerksamkeit und Ressourcen - Wissenschaft hielt eine Art arrogante Distanz zur Gesellschaft (Elfenbeinturm) - Gemeinsame Problemstellung und gegenseitiges Lernen von Wissenschaft und Ge- sellschaft stellten einen radikal neuen Forschungsmodus dar, und wir fangen gerade erst an, die zugrunde liegenden Paradigmen, die die Wissenschaft seit Jahrhunder- ten geprägt haben, zu verändern Transdisziplinäre Forschung: inklusiver, reflexiver, lösungsorientierter Weg zur Verbindung von Wissenschaftszweigen und Wissenschaft mit der Gesellschaft Computer ermöglichten schnellere Berechnungen und neuartige methodische Ansätze. Internet: Neue Quellen und Formen des Wissens, neue Formen der Kommunikation, des Austauschs zwischen Forschern Manchmal geht Quantität vor Qualität, aber zumeist ist das Wissen zugänglicher als je zuvor - Disziplinen und Methoden bilden sich aus dem historischen Kontext heraus - Keiner weiß, was in der Zukunft passieren wird 10 - Wissenschaftliche Methoden sind nicht unabhängig von der Entwicklung der Mensch- heit - Demütig sein und sich der Grenzen des eigenen Weges bewusst sein - Sich kritisch bewusst sein, dass unser Wissen begrenzt ist 3. Methods in Science 3.1. Quelle 1 Was sind Methoden? Wissenschaftliche Methoden: Erzeugen Wissen Manche produzieren reproduzierbare Muster, manche produzieren Wissen in einem Prozess, der dokumentiert werden kann. Alle wissenschaftlichen Methoden sind erlernbar, da die Wissensproduktion systema- tisch ist Dreht sich ums Sammeln, Analysieren und Interpretieren von Daten - Design criteria focus on knowledge, not disciplines - Methode ausschlaggebend für Ergebnis - Wissenschaftler müssen sich untereinander, sowie mit der Gesellschaft vernetzen (Ver- lassen des Elfenbeinturms) – Globalisierung und Komplexität der Probleme Quantitative Methode: Messung, Zählung und konstruierte Verallgemeinerung, wobei die sta- tistische oder mathematische Analyse von Daten sowie die Interpretation von Daten, die aus Zahlen bestehen, miteinander verknüpft werden, um Muster zu extrahieren oder Theorien zu untermauern Qualitativ: menschliche Dimension: Konzentration auf beobachtbare oder konzeptuelle Reali- tät, wobei oft Beobachtungsdaten oder die Interpretation vorhandener Daten direkt mit der 11 Theorie oder den Konzepten verknüpft werden - beides Normativ und gleich subjektiv bzw. objektiv Deduktive baut auf Theorie auf, die durch Beobachtung oder Logik bestätigt wird, quantitativ Induktive ziehen Schlussfolgerungen auf der Grundlage von Daten oder Beobachtungen, qualitativ, Drang, nicht deterministisch zu sein Verschiedene wissenschaftliche Methoden konzentrieren sich auf bestimmte räumli- che Skalen oder sind sogar auf diese beschränkt, andere wiederum können sich über mehrere Skalen erstrecken Globale räumliche Skala: globale Analyse, für einheitliches Verständnis der gesellschaftli- chen und natürlichen Phänomene Individuelle Skala: einzelne Objekte, für Einblick in Lebewesen Dazwischen - Systemskala: Landschaften, Systeme, Institutionen, Einzugsgebiete, enthält mehrere einzelne Objekte, die miteinander interagieren oder in eine breiter Matrixum- gebung eingebettet sind, Wissen über den Wandel von Systemen erzeugen Analyse der Vergangenheit für Szenarien in der Zukunft – temporal scale Gapminder – quantitativ Dollar Street – qualitativ 3.2. Quelle 2 Quantitativ vs. Qualitativ: Hauptunterscheidung Dieser Unterschied ist oft die Ursache für die tiefe Verankerung zwischen verschiede- nen Disziplinen und Teildisziplinen. Es gibt einen klaren Unterschied zwischen dem Wissen, das mit qualitativen und qua- litativen Methoden erzeugt wird, daher ist die Frage nach besser oder schlechter nicht relevant. Stattdessen ist es wichtiger zu fragen, welches Wissen unter den gegebenen Umständen am meisten hilft, das notwendige Wissen zu schaffen. Induktiv vs. Deduktiv: eine Theorie, die aus Daten abgeleitet wird, vs. eine Theorie die mit Daten getestet/ geprüft wird dritten Weg, der sich abduktives Schließen nennt. Dieser Ansatz verbindet die Stärken sowohl der Induktion als auch der Deduktion und ist sicherlich viel näher an der Art und Weise, wie ein Großteil der modernen Forschung tatsächlich durchgeführt wird. Skalen: Manche Methoden überschreiten räumliche und zeitliche Skalen, während andere eher auf eine bestimmte partielle oder zeitliche Skala beschränkt sind relevant, da sich bestimmte Disziplinen fast ausschließlich auf bestimmte Teilskalen konzentrieren → Zum Beispiel: Psychologie oder die Populationsökologie = Individuum Makroökonomie = globale Skala 12 Was ist eine wissenschaftliche Methode: Einige erzeugen reproduzierbare Muster, einige erzeugen Wissen in einem Prozess, der dokumentiert werden kann Alle wissenschaftlichen Methoden sind erlernbar, da die Wissensproduktion systema- tisch ist. Wissenschaftliche Methoden = das Sammeln, Analysieren und Interpretieren von Da- ten. Design-Kriterien: - Es gibt Dutzende, wenn nicht Hunderte von wissenschaftlichen Methoden manche Methoden sind mit anderen verbunden manche Methoden sind mit anderen verbunden innerhalb größerer Kategorien von Methoden verschachtelt Ordnung kann helfen, kann auch ein kritischeres Verständnis fördern Entwurfskriterien konzentrieren sich auf Wissen, nicht auf Disziplinen Quantitative Methoden: Messen, Zählen, um Muster zu extrahieren oder Theorien zu unter- stützen. Konstruktion der Realität durch Zahlen Qualitative Methoden: menschlichen Dimensionen der beobachtbaren oder konzeptionellen Realität und verknüpfen oft Beobachtungsdaten oder bestehenden Daten direkt mit der Theo- rie oder den Konzepten und ermöglichen so ein tiefes kontextuelles Verständnis → Beide sind normativ (geltend), beides sind Konstrukte der Realität, verschiedene Sichtwei- sen= nichts ist besser oder schlechter - Bsp. Guter Whiskey ODER Viel Whiskey - Optimal: Guter UND Viel Whiskey -> Kombination aus Beidem Deduktiv: Es gibt eine Theorie, die durch Beobachtungen oder Logik bestätigt wird Induktive Methoden: Durch Daten oder Beobachtungen wird eine allgemeine Schlussfolgerung (Theorie) abgeleitet Räumliche Skalen (kommt darauf an, welche Disziplin behandelt wird) globaler räumlicher Maßstab: Daten, die den gesamten Globus oder einen nicht willkürlich gewählten Teil des Globus abdeckt. Systemmaßstab: Maßstab, der mehrere einzelne Objekte enthält, die miteinander interagieren oder in eine größere Matrix eingebettet sind. individueller Maßstab: Maßstab, der sich auf einzelne Objekte konzentriert. Zeitliche Skalen: Die zeitliche Analyse kann sich auf Daten aus der Vergangenheit konzentrie- ren, kann die Zukunft vorhersagen, vorschlagen oder die Zukunft simulieren oder nur einen Zeitrahmen abfragen. 4. DATAx – How computers work 4.1. Quelle 1 Input output nach Charles Babbage und Ada Lovelace 13 Binär & Dezimal - Binär: Bi=2 Dezimal: dezi=10 – Subindex – nicht hoch 2 oder 10 sonder unten 10 oder 2, wird manchmal weggelassen Umwandlung 375 -> 3x10hoch2 + 7x10hoch1 + 5x10hoch0 (Basis ist 10, deshalb x10) 1101 -> 1x2hoch3 + 1x2hoch2 + 0x2hoch1 = 13 (Basis ist 2, deshalb x2) ASCII – jeder Buchstabe und jede Zahl hat eine Zahl (A=65), 128 Zeichen darstellbar,7bit verwendet Farben - Jeder Pixel hat 3 Farben, die es repräsentieren - RGB – rot, grün, blau - (255/255/255) weiß - (255/255/0) gelb - (0/0/0) schwarz - 16 Millionen verschiedene Farben - Speicherschonung: „Die nächsten 100 Pixel sind weiß“ – komprimierbar Videos - Videos- Sequenz von Bildern, d.h. Fotos werden hintereinander gehängt - Speicherschonung: „Was ist identisch?“, nur Pixel werden angesehen, die sich verändern Ton - Geräusch: Druckveränderung Computing, Von Neumann-Architektur - Memory-Unit/ Speichereinheit von 1. Daten wie Bildern & Musik 2. Daten, die dem Computer sagen, was zu tun ist - Kommunikationsbus: 1. Daten Bus (=Transportation der Daten) 2. Adress Bus (=Wo auf der Speichereinheit soll etwas gespeichert werden) 3. Kontroll Bus (=Was soll mit den Daten gemacht werden?) CPU ALU - Arithmetisch logische Einheit: CU – Control Unit: - +/*/- Arithmetische Operation (also - Lesen und schreiben Rechnungen) - ALU auffordern dessen Arbeit zu ma- - Logische Operationen (and, or, not..) chen - Vergleichen von Nummern 4.2. Quelle 2 Analytical Machine: The Input to Output Machine - Input: keyboard, Camera, sensor, internet - Output: printer, monitor - Input is provided for the computer and the software processes the input from the hard- ware and gives an output - proposed by Charles Babbage in 1837 How do computers map reality to 0’s and 1’s? 14 Computer as a machine consisting of billions of small electronic transistors (switches) – on or off. Computers only know 0 and 1. - Representing number with decimal numbers (Positional notation: Every place. Every digit has a specific value 1. Digit goes for the 1’s, second goes for the 10’s…) and binary Numbers: Positional notation with basis 2. Examples: 37510 = 3*102+7*101+5*100 or 11012= 1*23+ 1*22+0*21+1*20= 8+4+0+1= 13 - Representing text with ASCII (American Standard Code for international interchange): letters and digits and symbols are converted to numbers (128 different symbols) - Representing images using RGB (Red, Green, Blue): Enables us to record an image and convert it to a sequence of numbers Each pixel can be identified by a specific height and width, so pixels are count and put into a sequence -> Each pixel is represented by 3 numbers (0/0/0 = black, 230/0/0 = red, 255/255/0 = yellow) - Also used for videos, just the pixels that are different are looked at so that storage is con- served - Representing sound with air pressure: sampling frequencies (Abtastfrequenz/Amplitude) Convert the measurement to a specific set of numbers (values) Not only sounds but all types of continuous signals could be sampled liked that How do computers process the 0/1-data? - Von Neumann-Architecture CPU: Control Unit (CU) and Arithmetic / Logic unit (ALU) - The control unit loads commands and coordinates the command processing which is done by the arithmetic unit from the memory unit, it tells the arithmetic unit what to do, the commands are executed by it and it keeps track of the processes in the CPU and com- puter - The ALU has limited set of commands that it can execute: 1. Arithmetic operations (+, -, *, /) 2. Logic operation -> Combining numbers (and, o, not, shift bitwise) Communication Bus - connects the different parts of the computer - Communication between CPU, memory unit and Input/output devices - enabled by 3 communication channels (=bus) Data bus: Transport of the actual data Address bus: What part of the memory should be accessed and where is the data stored? Control bus: What should be done with the data? Memory Unit (MU) - Memory (storage) has 2 different types: Data representing real world phenomena: e.g.: images, surveys, or music (real world stuff) Data representing programs that tell the computer what to do (program data) Key Concepts (storing & control flow) - Storing data: representing real world phenomenals in 0s and 1s - Basic operations: what the control unit and ALU execute (arithmetic and logic operations) - Control flow: A program is executed step by step (sequen- tial) - key concepts are used all programming language together with some level of abstraction 15 5. DATAx – Programming 101 5.1. Quelle 1 Programming = Key Concepts+Abstraktion Storing Data – in Form von Variablen, man kann so auch Bilder speichern Variabel: große Massen an Daten werden gespeichert hat einen Namen z.B. first_person und einen Daten Typ z.B. Text oder Nummer bzw. Wert Bei Python: - first_name = input („Name der ersten Person?“) - second_name = input(„Name der zweiten Person?“) - print(first_name + „ und „ + second_name + „, ihr solltet Euch treffen!“) Basic operations – Verknüpfung, rechnen, Programmiersprache, Laden von Bild von Fest- platte zu USB-Stick etc. - Auf Scratch: Variablen setzen, Anzeigen von Text, Video motion, Nach Input fragen (Na- men, Alter…) - Was eine Basic operation ist hängt von Ebene ab, auf der wir uns befinden (Hardware, Programmiersprache) Control flow – Schleifen (repeat until..), bedingte Ausführung (if, then, else) Beispiel Hausbau Decomposition - Programme in Unterprogramme aufteilen (Bei Scratch in Blöcke aufteilen, z.B. bei Binär & Dezimalumwandlung), Probleme in Unterprobleme aufteilen Ziel: Redundanz vermeiden, bessere Lesbarkeit, Programmieren: eine detaillierte Beschreibung einer Lösung in einer Form bereitzustellen, die Computer verarbeiten ("verstehen") können. Man kann sich Programme also als einen Satz von Anweisungen vorstellen, der einem Computer sagt, wie er Daten verarbeiten soll. Programmiersprachen: Es gibt hunderte, wenn nicht tausende von Programmiersprachen, die sich in den letzten 80 Jahren entwickelt haben. Jede hat ihre spezifischen Anwendungs- gebiete, Vor- und Nachteile. Die meisten Programmiersprachen haben jedoch einige Schlüs- selkonzepte gemeinsam. Python - Einsatzgebiete: Data science verfahren, Statistik, maschinelles Lernen - Python erweitern mit Libary (Schildkröte downloaden) – dies ermöglicht grafische Funkti- onalität - Einrückung spielt große Rolle (= Teil der Definition) – besser lesbar Fotobearbeitung: 16 5.2. Quelle 2 Schlüsselkonzepte bei der Programmierung Basic operations: - CPU: Addieren und Subtrahieren - Scratch: Nach Eingabe fragen, Variable festlegen, anzeigen, sprechen - abhängig von der Umgebung und der Programmiersprache Storing data: - Computer speichern riesige Mengen von Daten - In Programmiersprachen werden Daten in so genannten Variablen gespeichert - Variablen haben einen Namen (z. B. erste Person), einen Datentyp (z. B. kurze Zahl oder Text) und einen Wert (z. B. Melina) Control flow: - bezieht sich auf die Fähigkeit, von der sequenziellen Ausführung von Grundoperationen abzuweichen - Es gibt zwei wichtige Möglichkeiten, den Ablauf eines Programms zu verändern: Schlei- fen/Wiederholungen oder bedingte Ausführungen Decomposition: - Probleme können in Unterprogramme (Blöcke und Funktionen) zerlegt werden - Dekomposition bedeutet, Programme zu strukturieren und in kleinere Teile zu zerlegen Overview: - Programmieren: Informatiker lieben es, Probleme mit Hilfe von Computern zu lösen. Beim Programmieren geht es darum, eine detaillierte Beschreibung einer Lösung in einer Form bereitzustellen, die Computer verarbeiten ("verstehen") können. Man kann sich Pro- gramme also als eine Reihe von Anweisungen vorstellen, die einem Computer sagen, wie er Daten verarbeiten soll. Zu diesem Zweck werden Programmiersprachen verwendet. - Programmiersprachen: Es gibt Hunderte, wenn nicht Tausende von Programmierspra- chen, die sich in den letzten 70 Jahren entwickelt haben. Jede hat ihre spezifischen An- wendungsbereiche, Vor- und Nachteile. Die meisten Programmiersprachen haben jedoch einige Schlüsselkonzepte gemeinsam. Die Schlüsselkonzepte der Programmierung in zwei Programmiersprachen (Python und Scratch) werden wir genauer ansehen. 6. DATAx – Computational Thinking 6.1. Quelle 1 Computational thinking: Probleme, Denkprozesse und Lösungen in Form formulieren, die vom Computer verstanden werden kann. Damit er sie danach automatisiert lösen kann. „Wie sage ich etwas meinem Computer, damit er es versteht und umsetzen kann“? Jeannette Wing hat diesen Begriff geprägt Key Concepts Abstraktion – Ein Problem vereinfachen: Nur Konzentration auf Teilbereich eines Problems, z.B. Bei Eisenbahnnetz nur auf Verbindungen und nicht auf Schienenbreite zu achten Ziel: Problem versimpeln, um es besser zu handhaben 17 Das geschieht durch: Reduzierung (weniger wichtige Infos auslassen), Präsentationsweise auswählen, Beziehungen zueinander analysieren Beispiel: Analyse der Warteschlange in Mensa, Irrelevant sind Kleidung, Größe, … Wichtig sind Ankunftszeit Dekomposition – Programm unterteilen, um Probleme herunterzubrechen Beispiel: Dezi- in Binärzahlen, Abbildung: Generalisierung – Erlernte Vorlage in anderem Kontext verwenden, Unterstützt durch Abs- traktion, Verallgemeinern Beispiel: Bahnanalyse kann auf andere Bereiche z.B. auf den Individualverkehr angewendet werden. Algorithmisierung – ist ein Verfahren was Problem zur Lösung führt in Schritt für Schritt Be- schreibung, Allgemein (z.B. Ablaufdiagramm, textuelle Beschreibung… muss nicht in Pro- grammiersprache sein) Beispiel: Rezept, Navigation (optimalen Weg finden), Telefonbuchsuche = binäre Suche, google page Rank (oft zitierte Webseiten werden vernetzt und somit als wichtig empfunden) Knapsack Problem, aber nicht klausurrelevant Charakteristiker von Algorithmen: Diskretheit (jeder Schritt ist genau geschrieben), Eindeutig- keit (Wenn bestimmter Zustand erreicht ist, passiert immer das gleiche), Endlich, Terminie- rung (unabhängig des inputs kommt grundsätzlich Lösung heraus) 6.2. Quelle 2 Definition von „Computational Thinking“ - Denkprozess, der mit der Formulierung eines Problems und der Formulierung seiner Lösung in einer Weise verbunden ist, die ein Computer - Mensch oder Maschine - ef- fektiv ausführen kann (nach Wing) - Ziel: Entwicklung einer Lösung, die von einem Computer umgesetzt und ausgeführt werden kann - Berücksichtigung der Fähigkeiten des Computers (z.B. grundlegenden Operationen) - Computergestütztes Denken ist eine wichtige Grundlage für das Verständnis und den Entwurf computerbasierter Methoden 18 Schlüsselkonzepte Ziel: Ein Problem oder ein System zu vereinfachen, um es besser zu verstehen und zu handhaben - Reduzierung der Komplexität durch Weglassen weniger wichtiger Details Abstraction - Geeignete Darstellung auswählen - Identifizierung der Beziehungen zwischen den abzubildenden Objekten - Prozess der Zerlegung eines ursprünglichen Problems in kleinere Teilprobleme (einfachere Versionen) Decomposition - Komplexe Probleme lassen sich so leichter lösen, neue Situationen sind leichter zu verstehen und große Systeme leichter zu designen - Lösung von neuen Problemen auf der Grundlage früherer Lösungen durch Identifizierung von Generalization Mustern und Nutzung von Ähnlichkeiten sowie Verbindungen zu ähnlichen Problemen - Ableitung von Erkenntnissen und Übertragung auf andere Probleme - Ein Algorithmus ist ein schrittweiser Weg von einem Problem zu dessen Lösung. Er kann in die Algorithmization Logik eines Computers übersetzt werden, so dass er automatisch ausgeführt werden kann. - Algorithmen sind terminierend und eindeutig, beinhaltet Kodierung Notwendig Fähigkeiten für computational thinking - Über ein Problem nachdenken, z.B. um Komponenten zu identifizieren - Entwurf kreative Lösungen (Algorithmen) - Analysiere von Mustern zur Verbesserung und Verallgemeinerung von Algorithmen - Übertragung von Wissen aus bereits gelösten Problemen - Schreiben von Computercode zur Implementierung von Algorithmen Wrap-Up - Der Entwurf von Algorithmen erfordert ein grundlegendes Verständnis für die "Fähig- keiten" eines Computers - Algorithmen werden in allen Teilbereichen der Informatik verwendet und spielen eine Schlüsselrolle bei technologischen und methodologischen Innovationen - Algorithmen als logische Beschreibungen von Problemlösungswegen bieten eine in- teressante "Linse" Quizfragen - Für die Verwendung des binären Suchalgorithmus verwenden zu können, müssen die Elemente sortiert sein. - Die binäre Suche hat ihren Namen von der Tatsache, dass wir eine sortierte Liste von Elementen in zwei Unterlisten aufteilen. - Das Schlüsselkonzept der dynamischen Programmierung: Es verwendet vorberech- nete Ergebnisse wieder, um wiederholte Berechnungen zu vermeiden. - Der Brute-Force-Ansatz (das ist das Auswerten jeder Kombination) für das 0/1- Knapsack-Problem ist ineffizient, weil die Skalierung sehr schlecht ist, wenn die An- zahl der Elemente steigt, da angenommen wird, dass die verschiedenen Optionen unabhängig voneinander sind. - Die kleinste verallgemeinerte Version die Eingabe für ein 0/1-Knapsack-Problem zu beschreiben, benötigt die folgenden Elemente: Eine Liste von Elementen mit den Ge- wichten und Werten pro Element und einer Gewichtsbeschränkung 19 7. DATAx – Machine Learning 7.1. Quelle 1 Definition: beschreibt den Teil der Informatik, der sich mit der Entwicklung und Untersuchung von intelligentem, menschenähnlichem Verhalten beschäftigt Künstliche Intelligenz – Jan Mcasi (Einer der Gründer) Ziel: intelligentes, menschliches Verhalten von Computern 1. Beispiel: Eliza, imitiert Psychologen (Regeln: Schlüsselworte werden identifiziert und entsprechende Fragen werden ausgespuckt) 2. Touring Test= Wenn man bei Eliza nicht mehr erkennen würde, dass es kein Mensch ist Am Anfang Künstliche Intelligenz (Überbegriff) inkludiert den Rest – Regeln werden defi- niert Dann Maschinelles Lernen (lernen von Erfahrungen & Daten) – Regeln werden erschlos- sen Dann deep learning (Fotos und Videos analysieren) nicht klausurrelevant Supervised learning: Man hat Label (Z.b. Merkmale, die nichts damit zu tun haben) - Finden einer Funktion, die dieser unbekannten funktionalen Beziehung ähnlich ist Unsupervised learning: Gruppenaufteilung (Beschrei- bung der Features, die man schon hatte) Anwendung: Spracherkennung (Alexa, Siri), Ge- sichtserkennung, automatische Übersetzung, Ana- lyse von Gefühlen in Texten, computer vision, style transfer (Filter anwenden) Computer haben mehr Geduld, als Menschen (Lehrer nicht ersetzen aber verbessern) Wie lernen Maschinen? 1. Empirische Daten (Z.B. Man gibt Computer Texte mit gleichem Inhalt aber unter- schiedlichen Sprachen) oder Bild von Tom und Jerry 2. Induktion (Computer erkennt Muster bzw. lernt dadurch die Sprache) Learning Algo- rithm: Ableitung von Größe und generell Mustererkennung 3. Statistisches Modell (so wird das abgebildet) Präsentation: Das ist TOM/JERRY (Charles Bevege: Input/Output Modell) Warum ist lernen wichtig? Wenn man nur auswendig lernt, kann man das Wissen nicht auf neues anwenden (Z.B. auf ein neues Bild von Jerry) -Memory-based learning 90% der versendeten Mails sind Spam -> Mail filter auch Lernprozess (durch z.B. viele !!!) Maschinelles Lernen, Prozess am Beispiel E-Mails 1. Gather data: Mails klassifizieren, Zuordnung: Spam oder nicht? - Getränke in Form von Liste 2. Generate features: wie repräsentieren wir Mails, damit Computer lernt (bestimmte Wörter, Satzzeichen) - Eigenschaften von Getränken suchen (Kohlensäure,Zucker, Dichte, Alkohol) oder auch ein Bild 3. Train model: Verbindung herstellen 20 - „Nearest neighbor“ Koordinatensystem mit Alkoholgehalt und Farbe, wenn man Getränk bekommt, ordnet man es ins Koordinatensystem ein und schaut was der nächste Nachbar ist -> dann werden Erkenntnisse angepasst - Entscheidungsfunktion: Wellenlänge und Alkoholgehalt (input) sind Argumente einer Funktion 4. Evaluate: Auswertung und Prüfung - Messung wie gut das Modell ist, Aufteilung in Trainingsdaten- und Testdatensatz 5. Use – Auf neue Mails anwenden Voraussetzung: Es muss Muster geben, die nicht ganz leicht sind, Man braucht Daten Kritische Perspektive: Es ist gut Algorithmen zu vertrauen, aber nicht blind zu vertrauen - Definierung von Fair und Unfair ist schwierig - Und kann ausgetrickst werden - Alte bias können reproduziert werden - Sociatal impact 7.2. Quelle 2 Begriffe & Geschichte Künstliche Intelligenz: Teil der Informatik, der sich mit der Entwicklung und Untersuchung intelligenten, menschenähnlichen Verhalten beschäftigt. AI geht zurück auf John Mccarthy und zu dieser Zeit werden erste Regeln definiert. (Frühes Beispiel ist Programm Eliza) Maschinelles Lernen: Wissen wird generiert durch das Lernen und die Entdeckung von Mustern sowie aus Erfahrungen (Daten) z.B. Spracherkennung (Alexa), Bildmanipulation (Snapchat), etc. Deep Learning: Vertiefte Analyse von Videos und Fotos ermöglicht Herausbildung von Strukturen, Durchbrüche treiben AI Boom an - Ziel: intelligentes, menschliches Verhalten von Computern - Möglichkeiten durch Deep Learning: Maschinelle Übersetzung, Spracherkennung, Senti- ment-Erkennung, Computer Vision, Stilübertragung - Kritik / Risiko: bestehende Vorurteile können reproduziert oder verstärkt werden, macht Fehler und kann ausgetrickst werden, außerdem sollte man dem System nicht blind ver- trauen - Supervised learning: Die beobachteten Daten werden durch eine unbekannte Funktion beschrieben, die Funktion beschreibt, wie die Eingabe mit dem Output zusammenhängt Wie lernen Maschinen? Empirische Daten Learning Algorithm Statistisches Modell Eingabe von Bildern Erkennung von Vorhersage der Klasse & Text Musten z. B. Größe, (Wahrscheinlichkeiten) Farbe, Form Schritte des maschinellen Lernens 21 Erzeugen von Trainieren Sammeln von Daten Bewertung Benutzung Eigenschaften des Modells 8. Data and Methods 8.1. Quelle 1 Beispiele für Datenbanken: „Prometheus“ (Bildarchiv, qualitativ), „iDiv“ (Vegetationsdaten- bank) „NASA Archiv“ (Informationen die durch Satelliten ermittelt werden) Ethische Bedenken (Datenschutz im z.B. Gesundheitswesen): Missbrauch (z.B. Gesichtser- kennungssoftware), Manipulation, Produktion von Ungerechtigkeit Private Kundendaten und Identität sollen privat bleiben: Privatsphäre bedeutet nicht Geheim- haltung, da private Daten möglicherweise aufgrund gesetzlicher Vorgaben geprüft werden müssen, aber dass private Daten, die von einer aber private Daten, die von einer Person mit deren Einverständnis erhoben wurden, sollten nicht zur Nutzung durch andere Unternehmen oder Personen freigegeben werden mit irgendwelchen Rückschlüssen auf ihre Identität. Geteilte private Daten sollten vertraulich behandelt werden: Fremde Unternehmen teilen sen- sible Daten - medizinische, finanzielle oder ortsbezogene - und müssen Einschränkungen haben, ob und wie diese Informationen weitergegeben werden können. Kunden sollten einen transparenten Überblick darüber haben, wie unsere Daten verwendet oder verkauft werden, und die Möglichkeit, den und die Möglichkeit haben, den Fluss ihrer privaten Informationen über massive, analytische Systeme von Drittanbietern zu steuern. Big Data sollte sich nicht in den menschlichen Willen einmischen: Big-Data-Analysen können moderieren und sogar bestimmen, wer wir sind, bevor wir unsere eigene Entscheidung tref- fen. Unternehmen müssen anfangen, sich Gedanken zu machen über welche Art von Vor- hersagen und Rückschlüssen erlaubt sein sollten und welche nicht. Big Data sollte keine unfairen Vorurteile wie Rassismus oder Sexismus institutionalisieren. Maschinelles Lernen Algorithmen können unbewusste Vorurteile in einer Population absor- bieren und sie über Trainingsmuster verstärken. Diversere Datenverfügbarkeit für Menschen durch: The world bank, open source initiative, trotzdem Limitierung von Daten, wir schauen auf Teil der Realität With big data comes big responsibility The new age of data – die qualitative Revolution - Die meisten Daten im Internet sind qualitativ - Die meisten Daten sind zutiefst normativ - Daten wachsen exponentiell - Mehr und mehr Daten werden digitalisiert - Neue Datenquellen entstehen (mehr Diversität) - Das Kommunikationspotenzial der Menschen steigt Normative Interpretation Inhaltsanalyse (Texte, Gemälde, etc.), Bildklassifizierung (Fernerkundung, MRA und Male- rei), Fokus-Diskussionen, Online-Fragebögen, Offene Interviews, Hermeneutik, Grounded Theory (Theoriegenierung, qualitativ) Variablen - Formatierung der Daten 22 - Logarithmische Skala (Richterskala) - Zeitliche Konstante - Konstruierte Variablen (IQ) - Der Aufstieg der Maschinen - Kulturelle und soziale Vielfalt - Emergenz von Variablen Wie Technologie Wissenschaft verändert - Technologie ist nie ein Ziel, sondern nur ein Weg zum Ziel: - Interviews - Workshop-Einstellungen - Bürgerwissenschaft - Juristische Forschung - Serious Gaming - Soziale Netzwerkanalyse - Systematische Literaturrecherche Wichtig für Methoden: Daten-Ethik, Datenspeicherung, Datenintegration, Datenübersetzung, Grenzen der Daten, Kontinuität im Auge behalten GEEIGNETE KOMMUNIKATION UND ZUSÄTZLICHE RESSOURCEN. - Grenzen der Methoden aufzeigen, z. B. Datenquellen, Konstruiertheit - Anzahl und Anteil qualitativer Methoden erhöhen - Wissensproduktion diversifizieren - Neuartige Erleichterung der Forschung - Wissenschaft - Gesellschaft versöhnen Wiki: Maßeinheiten und Messwerkzeuge - Auftauchen neuer Maßeinheiten und Messwerkzeuge = Erschließung neuen Wissens & zeigt Grenze des gesamten Wissens (Kritische Theorie) - Werden oft als wissenschaftliche Methoden definiert, jedoch falsch, da sie kein Wis- sen erzeugen, sondern sind Grundlage für Wissensproduktion - Datenformate können sich widersprechen und behindern - Zahlen sind nicht objektiv, sondern auch normativ (IQ) Dateneinheiten Celsius: am häufigsten verwendete Maßein- heit. gefriert Wasser bei (~) 0°C und siedet bei (~) 100°C. -273,15°C = niedrigste Tem- peratur Fahrenheit: In USA, basiert auf einem Ther- mometer mit einem Gemisch aus Wasser, Eis und Ammoniumchlorid - die niedrigste Temperatur von Gemisch = 0°F, °F = (°C)x(9/5) + 32 Kelvin: In Wissenschaft, immer um 273,15 höher als Celsius 23 Richterskala: - Messung der Stärke von Erdbeben, in Medien, Technik ist spezifischer - basiert auf dem Logarithmus der Amplitude der größten seismischen Welle eines Erdbebenereignisses. Jeder An- stieg um eine Einheit auf der Skala be- deutet eine Verzehnfachung der Stärke eines Erdbebens und eine 31-fach hö- here freigesetzte Energiemenge Beaufort-Skala: - Geschwindigkeit von Winden anhand ih- rer Auswirkungen auf Land und Ozeane zu bewerten. Sie geht von 0 bis 12 Dezibel: - Dezibel (1 Bel = 10dB), häufigste Anwen- dung bei bei Lautstärke und Geräuschen - Verhältnis zwischen zwei Messwerten (Mess- und Referenzwert) auf einer logarithmi- schen Skala - Beispiele: 20dB - leises Flüstern, 50dB - normale Unterhaltung, 110dB – Rockkon- zert, 140dB – Gewehrschuss, 190dB - tödliche Lautstärke Glück: Subjektive Maßeinheit (Individuell, global, quantitativ) BIP: menschliches (vermeintliches) Wohlbefinden auf nationaler oder globaler Ebene 'World Happiness Report': Beruht auf Fragen zu über 100 Aspekten des Lebens IQ: - Angabe und Vergleich von menschlicher Intelligenz - Test beinhaltet logisches Verständnis, Sprachverständnis, Allgemeinwissen, mathe- matische Fähigkeiten und andere - durchschnittliche Ergebnis ist mit 100 definiert, mit einer Standardabweichung von 15 IQ 130 als 'hochbegabt´ Flynn-Effekt: immer höhere durchschnittliche IQ-Werte (Kann nicht erklärt werden) Kritik: Tagesformabhängig, deckt nicht alle relevanten Aspekte der Intelligenz ab, falsche Rückschlüsse auf Wert eines Menschen HDI (Human Development Index): - konstruiertes quantitatives Maß, das auf quantitativ messbaren Elementen menschli- chen Lebens basiert. - Wert zwischen 0 & 1, basierend auf: Lebenserwartung bei Geburt, Qualität der Bil- dung (gemessen an Dauer des Schulbesuches), Pro-Kopf-Einkommen IHDI: - Ungleichheiten innerhalb dieser Kriterien anerkennt und berücksichtigt GINI-Koeffizient = finanzielle (Un-)Gleichheit innerhalb einer Nation US-Amerikanisches Maßsystem vs. Metrisches Maßsystem: - Metrisch: „Für den Herrn nicht akzeptabel“ sagt USA, bevorzugte System für Handel und Gewerbe weltweit USC: in USA, Liberia & Myanmar 24 - Beispiele: Länge und Fläche: 1 Zoll = 2,54cm, 1 Fuß = 30,48cm, 1 Yard = 91,44cm, 1 Meile = 1,609344 km, 1 Acre = 4046,873 m² - Masse und Gewicht: 1 Unze = 28,35g, 1 Pfund = 453,59g - Das Gewicht der Seele: 1907 – Arzt Duncan MacDougall „ Die Seele wiegt 21 Gramm“ Messung kurz vor und kurz nach Tod - Wassertiefe und Knoten: Tiefenlotung ist Methode zur Messung der Wassertiefe: dünnes Seil mit einem Lot (Gewicht) ins Wasser gelassen, bis Grundoberfläche er- reicht. Anhang von Markierungen am Seil kann man Tiefe messen. Heute eher Backup - Thermometer: Flüssigkeiten (und Gase) in Abhängigkeit von der Temperatur ausdeh- nen und zusammenziehen, meistens Quecksilber International vereinbarten Bereich von Temperaturen, die von einem Thermometer angezeigt werden - Sextant: nautisches Werkzeug zur Bestimmung der Position eines Schiffes Funktionsweise: schaut durch das Fernrohr auf einen bestimmten Punkt (auf einen Stern, die Sonne oder den Horizont) und bewegt den Spiegel so lange, bis ein zwei- ter Bezugspunkt auf den Halbspiegel reflektiert wird, so dass sich die Objekte schließlich überlappen. Anhand der Bewegung des Spiegels kann man den Winkel auf der Skala des Sextanten ablesen. - Trigonometrie: "Dreiecksmessung": eine der ältesten Formen des Rechnens und Messens, Verwendung von Seitenlängen und Winkeln von Dreiecken für Berechnun- gen Anwendung in z.B. Astronomie oder Navigation LiDar ("light detection and ranging"): - Misst Abstand zwischen dem LiDAR-Sensor und jedem Objekt in seinem sichtbaren Bereich - Einsatzbereich: Flugzeug- oder satellitengestützt als auch in der Nähe der Oberfläche - Funktionsweise: Sensor sendet mit einem Laser einen Lichtimpuls aus und erfasst das Licht, das von jedem Objekt reflektiert wird. Basierend auf der Zeit, die das Licht benötigt hat, berechnet er die Entfernung zum Objekt. -> Möglichkeit der Erstellung von 3D Bildern - Objekt kann fest, flüssig oder gasförmig sein Chinesisches Fingerrechnen: - Zahlen von 1-10 mit nur einer Hand anzuzeigen Das Lineal: - Archetyp der Messwerkzeuge - Einsatzgebiete: Abstand zwischen Punkten oder die Länge von Linien bestimmen, geometrisches Hilfsmittel: um festzustellen, ob eine Linie gerade oder gekrümmt ist und um bei Bedarf gerade Linien zu zeichnen - Länge: Schule (30cm), Antike (unterschiedlich), architektonische Lineale (mehrere Meter) Weltraumteleskop: - Ziel: Kartierung und Vermessung entfernte Sterne, Planeten und andere astronomi- sche Objekte - Vorteile: Keine Filterung Verzerrung durch die Erdatmosphäre sowie Lichtverschmut- zung Nachteile: hohe Kosten bei Bau und Wartung Gas- und Flüssigchromatographie: (beiden Hauptformen der Chromatographie) 25 - Analysetechnik zur Quantifizierung von Verbindungen in einem Gemisch, z.B. bei der Qualitätskontrolle in der Industrie, in der Forensik oder in den Umweltwissenschaft - 2 Hauptkomponenten: stationäre- und mobile Phase Gaschromatographie: m.P. aus Intergas (Helium oder Stickstoff) und s.P. aus Flüs- sigkeit Flüssigchromatographie: m.P. eine Flüssigkeit und s.P. ein Feststoff Die zu analysierende Probe wird in diese Phasen eingebracht. Diejenigen Verbindungen, die stärker mit der stationären Phase wechselwirken ("like-dissolves-like"-Regel, d.h. chemisch ähnliche Verbindungen bleiben zusammen), bleiben länger in dieser Phase, während die Verbindungen, die weniger mit der stationären Phase wechselwirken, sich mit der mobilen Phase bewegen. Die Verteilung der Verbindungen zwischen den beiden Phasen kann mit verschiedenen Formen von Detektoren analysiert werden, was zu Erkenntnissen über die Zusammensetzung der Ausgangsprobe führt. Datenformate in der Statistik: „Die Daten haben ein Format, und das Format sind die Daten.“ -> Beeinflussung Auswahl: Jedes Datenformat sollte so einfach wie möglich und so komplex wie nötig sein (Occam) Numerische Daten Quantitative Daten, die sich in Zahlen ausdrücken, mit denen sich rechnen lässt, 2 Arten: - Kontinuierliche Daten: numerische Daten, die nicht gezählt werden können, weil sie auf einer endlichen oder unendlichen Skala existieren Beispiele: die Zahl Pi: 3,14159265359..., das typische Gewicht einer Nacktmullratte: 30 Gramm, die Höhe des Empire State Buildings: 443,2m, die Schmelztemperatur von dunkler Schokolade: 45-50°C - Diskrete Daten: numerische Daten, die gezählt werden können (Lego Steine, das Alter...) Kategorische Daten Qualitative Daten, die in benannten Kategorien gesammelt werden, die voneinander unab- hängig sind Kategorien sind konstruiert und enthalten normative und konstruierte Informationen - Ordinale Daten: Können in Reihenfolge gebracht werden, mit ihnen kann nicht ge- rechnet werden, geordnetes System von Zahlen Beispiel: Schulnoten (deshalb normativ und umstritten – Note „2“ hat für jeden andere Bedeutung) Likert-Skala: mit Skalierung von „ich stimme voll zu“ oder „stimme eher nicht zu“ -> schwierig zu analysieren, gibt aber nur schlechte Alternativen - Nominale Daten: kategorische Daten, die nicht in Rangfolge gebracht werden kön- nen, Beispiel: Ethnien, Geburtsländer, oder verschiedene Arten von Geschlechtern Normativ, durch verschiedene Weltanschauungen Muss deutlicher reflektiert werden, Geschlecht wird verschieden definiert, Noten (ordi- nal sind da ein bisschen eindeutiger) … 26 Binäre Daten: am meisten reduzierte Datenformat, das grundsätzlich aus zwei Ebenen be- steht (1 und 0, also an/aus, ja/nein) Medizin (tod, lebendig), Informatik, Ampeln einfache Sicht auf die Realität, und diese mag oft mit der Welt übereinstimmen, wie wir sie wahrnehmen. Aber seien Sie sich bewusst: Andere Menschen haben vielleicht eine weniger einfache Sichtweise. 8.2. Quelle 2 Daten und Methoden (Messmethoden + Datenformate) - Vorlesung soll Beispiele zeigen für Datenformate oder Skalen und somit die damit ver- bundenen Möglichkeiten für die Methoden veranschaulichen→ Welche Daten gibt es? Was kann man damit machen? - Beispiel 1 - Prometheus→ Bildarchiv mit Millionen von Bilden für qualitative Bildanalysen - Allgemein Datenbanken die öffentlich und kostenlos zugänglich sind - Das größte Datenzentrum ist das NASA-Archiv, ebenfalls kostenlos zugänglich - Kartendatenbanken, alte Karten werden digitalisiert und online gestellt - Das wirft ethische Fragen auf: Was passiert mit den Daten? Beispiel Medizin: Wie sieht es mit den Daten von Privatpatienten aus? Wie sieht es aus mit der Transparenz? Wie sieht es aus mit dem Vertrauen? Werden die Daten ggf. missbraucht? Werden Menschen durch die Daten vielleicht auch manipuliert? - Somit gibt es ethische Standards, die festlegen welche Regeln für die Benutzung von Daten gelten. (Datenschutz?!) - Open-Source Kanäle veröffentlichen wissenschaftliche Informationen kostenlos und frei zugänglich im Internet - Die meisten Daten im Internet sind qualitativ. Sie werden wohl quantitativ gespeichert, aber vor allem in der Analyse und Interpretation werden qualitativen Methoden verwen- det. - Die meisten Daten im Internet sind auch normativ, das ist auch der Grund warum die Daten qualitativ untersucht werden.→ Normatives Verständnis benötigt qualitative Me- thoden - Immer mehr Daten werden digitalisiert und wachsen exponentiell und ermöglichen eine bessere Kommunikation und Veröffentlichung, Wissenschaftliche Arbeiten können der Gesellschaft zugänglich gemacht werden. - Diese Möglichkeiten werden aber auch missbraucht. Thema: Gesichtserkennung, birgt eine Gefahr, die viele ethische Fragen aufwerfen. - Wir haben häufig Normative Interpretationen/Wahrnehmungen von Daten Was die Datenanalyse betrifft, Inhaltsanalysen, Klassifizierung von Daten Klassifizierungen von Bilddaten (Werden in der Medizin verwendet mit so genann- ten MRA Bildern, auf deren Grundlage Diagnosen aufgestellt werden können.) [auch hier wieder ethische Fragen] Focus Diskussionen im Internet (Fragebögen zur subjektiven Wahrnehmung von Corona) Offene Interviews 27 Hermeneutische Fragen Daten im Internet können auch mit der Hermeneutik interpretiert werden und damit induktiv Theorien aufgestellt werden - Beispiel wie man mit den Daten arbeiten kann zeigt die Bachelorarbeit einer ehemali- gen Studentin: Gemälde aus dem 17. Jahrhundert wurden klassifiziert nach Ökosystemdienst- leistungen (Nutzen, den der Mensch aus der Natur zieht) Bilddaten wurden von Prometheus generiert und mit einem Programm nach dem genannten Kriterium klassifiziert Gibt einen Einblick wie viele Daten und Rückschlüsse in einem einfachen Bild vorhanden sein Gibt einen Einblick wie viele Daten und Rückschlüsse in einem einfachen Bild vorhanden sein können Gibt Aufschlüsse zu dem Weltbild der damaligen Zeit Wichtig im Umgang mit Daten sind Fragen nach: Der Formatierung der Daten Mit welchen Skalen werden die Daten repräsentiert? Konstante der Zeitlichkeit: Können sich die Daten noch verändern? Verändern die sich? Wie verändern die sich? Inwieweit sind die Daten konstruiert? Kategorien sind konstruiert Berücksichtigung, dass Daten von Maschinen generiert werden Es gibt kulturelle und soziale Diversitäten, inwieweit repräsentieren die Daten diese Diversität? Verstehen ob die Daten dies beinhalten Emergenz von Variablen, Daten die ganz neuen Sichtweisen auf die Welt eröff- nen - Technologie ist nur ein Weg zu Ziel nicht das Ziel selbst - Was deutet das Ganze für Methoden? Wir müssen uns Fragen der Ethik stellen →Wie gehen wir mit Daten um? Wie werden diese gespeichert? Wie können Daten integriert werden? Siehe Beispiel Bachelorarbeit Wie werden Daten übersetzt? Und was sind die Limitierungen der Daten? Was können Daten leisten und was können sie nicht leisten? Daten können sich verändern. - Wichtig ist auch dies genau zu kommunizieren: Klarstellen, dass es Limitierungen gibt und Methoden Grenzen haben. Deutlich machen, dass es Dinge gibt, die wir wissen aber es auch Dinge gibt, die wir nicht wis- sen Steigender Anteil von qualitativen Methoden sind da von zentraler Bedeutung muss weiter zunehmen vom Umfang und von der Diversität 28 Wir müssen die Wissensproduktion diversifizieren, verschiedene Zugänge, um Wissen zu generieren wählen, um Wissen zu schaffen das wir brauchen Wir benötigen Unterstützung der Wissenschaft wie diese Zugänge designet werden. Damit der Dialog zwischen Wissenschaft und Gesellschaft intensiviert wird. Damit es da einen stärkeren Austausch gibt als jetzt. 8.3. Zusammenfassung - Viele neue Datenquellen entstehen derzeit und erschließen neue Wissensschichten - Mit großen Daten kommt aber auch große Verantwortung - Neue Daten verändern die Art und Weise, wie sich die Wissenschaft vernetzt - Daten sind kein Wissen oder Erkenntnis - Die Methodik muss all diese Veränderungen berücksichtigen - Wie wird die Wissenschaft die zunehmende Kommunikation erleichtern, die ange- sichts von mehr und neuen Daten erforderlich ist - Wir können uns nicht vorstellen, wie die Welt der Daten und die Welt der Methoden in 50 Jahren aussehen wird - Es gibt viele neue Datenquellen, die zurzeit emergieren und uns neue Strata der Re- alität eröffnen - Wichtig ist, dass wir da eine Verantwortung haben für diese Datenströme nicht nur wie wir sie speichern und anonymisieren, sondern auch die Auswertung kann zu Ma- nipulation führen. Wir beginnen jetzt erst zu verstehen wie viele Ebenen dies hat. - Dank der Daten, der Publikationen, der E-Mails haben wir ein neues Verständnis wie Wissenschaft miteinander verbunden ist. - Aber Daten sind nicht Wissen und schon gar nicht Erkenntnis. - Daten sind unsere Betrachtung wie wir bestimmte Dinge sehen und das muss sich der Forschung über Methoden klar sein. - Wie will Wissenschaft damit in Zukunft umgehen? Wie entwickeln wir die erheblichen - Kommunikationsströme die diese große Anzahl von Daten - die weiterhin exponentiell steigen verarbeiten? - Wir können uns nicht vorstellen, wie die Welt der Daten und der Methoden in 50 Jah- ren aussehen wird. 9. Experiments and Hypotheses 9.1. Quelle 1 Experimente: systematische und reproduzierbare Wissensproduktion im Testen von Hypo- thesen Hypothesen: wiederholte systematische Untersuchung einer vorgefassten Idee durch Be- obachtung Daten nicht reproduzierbar, sondern patterns Früher sehr streng und experimentell, jetzt mehr Meta-Analyse/Realexperimente (weniger Reproduzierbar) Verlauf: - H0 Null Hypothese: „All swans are white“ - H1 Alternative hypothesis: Falsifizierung von H0 - False positive (Type I error) and false negative (Type II error) 29 Paradigmenwandel -> Wahrscheinlichkeitsrechnung (Herr Fischer = Eugenics, also guter Sta- tist aber nicht so ethisch), heute Standard Doppel blind(2-arm-trail): Plazebo oder Impfung, keiner weiß es (sonst Beeinflussung) q-arm trail: drug – evaluation, also ohne Plazebo Wissenschaftler und Ethik – auf Folie Mittlerweile mehr Studien, Daten, Verständnis von Limitation, Gesellschaftliche und Wissen- schaftliche Interaktion, tiefe Fallstudien, mehr Diver- sität Wie vermeidet man Fehler? Vorstudien, Wahrscheinlichkeiten kalkulieren, Biases und Limitierung anerkennen, keeping track of data, Christian Drosten, Wissenschaftler Normalverteilung Validität – inwiefern könnte die Hypothese bestätigt werden? Prozentsatz, es qualifiziert, inwieweit eine Hypothese wahr ist, bzw inwieweit eine Hypothese überhaupt be- stätigt werden kann, all models are wrong, some mo- dels are useful Validität erstreckt sich von der Postulierung der ursprünglichen Hypothese über das metho- dische Design, die Wahl der Analyse und schließlich die Interpretation Alles von Theoriebildung bis zur endgültigen Bestätigung Zuverlässigkeit – Wie viele Menschen sind krank geworden, trotz Impfung? Unschärfe bzw. Unsicherheit – Unsicherheit ist ein Wort für alle Fehler, die innerhalb einer methodologischen Anwendung gemacht werden können. (Z.B. in Beobachtungen, Messun- gen, Analyse, …) Reliabilität – ob bestimmte Ergebnisse konsistent oder, mit anderen Worten, reproduzierbar sind (Eine zuverlässige Messung liefert also vergleichbare Ergebnisse unter den gleichen Be- dingungen) - Wenn wir schwarze Schwäne in Australien entdecken - nimmt die Reliabilität unserer ersten Hypothese ab. 30 - Abhängig von: Ausmaß der Stichproben, Beobachter, unterschiedliche methodische Ansätze bringen unterschiedliche Reliabilitäten, Revidierung der zugrundeliegenden Theorie (nicht statisches Maß) Typen von Experimenten: - Labor Experimente: Stabile Bedingungen, systematisch, nur wenige Parameter mani- puliert, kontrollierbar, untersucht nur Teilaspekte der Realität erstmals von Bacon, Mill, Zeitalter der Aufklärung In Astronomie & Landwirtschaft wurde deutlich reproduzierbare Bedingungen = schwer zu erreichen sein können - Feldforschung: Gefahr von Unplanbarkeit, dafür Realität, weil Laborforschung nicht ausreichte - Realexperimente: Nicht genügend Replikate, dafür tiefer in den Kontext 9.2. Quelle 2 DAS WISSENSCHAFTLICHE EXPERIMENT - EINE KURZE GESCHICHTE - Experimente beschreiben den systematischen und reproduzierbaren Aufbau zur Prü- fung einer bestimmten Hypothese. - Zunächst kontrollierte Experimente - Dann, komplexere Versuchspläne - Jetzt: Meta-Analysen und natürliche Experimente FORMULIERUNG EINER HYPOTHESE - Nullhypothese (H0): Alle Schwäne sind weiß - Alternativhypothese (H1): Falsifikation der Nullhypothese - Beachten Sie falsch-positive (Typ-I-Fehler) und falsch-negative (Typ-II) Fehler TESTEN EINER HYPOTHESE - Statistische Tests helfen, Studien zu entwerfen und Wahrscheinlichkeiten zu berech- nen über H0 und H1. - Die Wahrscheinlichkeitsrechnung in der Statistik war ein Paradigmenwechsel. - Versuchspläne und Statistiken werden im Laufe der Zeit immer weiterentwickelt. - Heute wird die Basis in Experimenten erweitert. STATISTISCHE TESTS HELFEN, STUDIEN ZU ENTWERFEN UND WAHRSCHEINLICH- KEITEN ÜBER H0 UND H1 ZU BERECHNEN. Beispiel: DESIGNS UND STATISTIKEN WERDEN IMMER FORTSCHRITTLICHER ÜBER DIE ZEIT. Die klinische Phase-3-Studie mit BNT162b2 begann am 27. Juli und hat bisher 43.538 Teil- nehmer aufgenommen, von denen 38.955 eine zweite Dosis des Impfstoffkandidaten erhalten haben (Stand: 8. November 2020). Ungefähr 42% der weltweiten Teilnehmer und 30% der US-Teilnehmer haben einen rassisch und ethnisch unterschiedlichen Hintergrund. Die Studie setzt die Rekrutierung fort und wird voraussichtlich, wenn insgesamt 164 bestätigte COVID-19-Fälle aufgetreten sind, beendet. HEUTE: BASIS VON EXPERIMENTEN WIRD ERWEITERT - Mehr Studien 31 - Mehr Daten - Bessere Kenntnis der Grenzen von Studien - Mehr Schwung in Richtung Pluralität - Wissenschaft-Gesellschaft-Interaktion - Tiefgehende Fallstudien - etc. WIE MAN FEHLER IN DER HYPOTHESE VERMEIDET - Vortest der Studie - Betrachtung des Designs in Bezug auf die Ausgewogenheit - Berechnen der Wahrscheinlichkeit und der statistischen Power - Aufzeigen von Ver- zerrungen und Einschränkungen - Behalten der Daten im Auge Validität (Gültigkeit): Das Gütekriterium Validität bezeichnet die Gültigkeit einer Messung, d.h. ob überhaupt das gemessen wurde, was gemessen werden sollte. Valide sind Test, Erhebungen und Untersu- chungen also dann, wenn sie das messen, was sie messen sollen. - Inwieweit kann eine Hypothese bestätigt werden? - Es gibt verschiedene statistische Maße - Es gibt verschiedene statistische Maße - Prozentsatz vielleicht am greifbarsten, Wahrscheinlichkeit am häufigsten - Abhängig von der Formulierung der Hypothese, Design, Stichprobe, Analyse und Interpretation - Alle Modelle sind falsch, einige Modelle sind nützlich Reliabilität (Zuverlässigkeit): Die Reliabilität ist ein Testgütekriterium und gibt an, wie zuverlässig ein Test ein bestimmtes Merkmal misst. Beim Vorliegen von stabilen Merkmalen erwartet man, dass man auch bei wiederholten Mes- sungen dieselben Ergebnisse erhält. Aus diesem Grund resultiert aus einer hohen Reliabilität eine Unabhängigkeit des Tests von Zufallsschwankungen und Umweltbedingungen. Die Reli- abilität hängt damit stets auch von der Objektivität ab. - Eine zuverlässige Messung liefert vergleichbare Ergebnisse unter konstanten Bedin- gungen - Maße sind Konstrukte - Andere externe Einflussfaktoren - Stichprobenkonsistenz - Verschiedene Maße der Reliabilität - Ist unsere Hypothese an sich richtig? Uncertainty (Unsicherheit): - Die Schlechtigkeit der Welt führte zu einem Anstieg der Unsicherheit wegen der der Varianz innerhalb der empirischen Untersuchung. - Wie repräsentativ ist unsere Stichprobe? - Sind wir sicher, dass unsere Stichprobe unvoreingenommen ist? - Weisen wir auf unsere Grenzen hin? Varianz: Die Varianz gibt an, wie sich deine Beobachtungswerte um den Mittelwert aller Beobachtungen verteilen. LABORVERSUCHE 32 - Erster Schritt zur systematischen Untersuchung einer Hypothese - Alle Variablen wer- den kontrolliert, außer der, die wir testen - Lange Tradition in Chemie, Technik, Physik, Psychologie - Biologie etc. - Untersuchen Sie einen sehr definierten Teil der Realität FELDVERSUCHE - Varianz integrieren und durch Replikate zähmen - Die meisten Variablen kontrollieren, wenige manipulieren - Manipulation von Variablen in (zu) Faktorstufen - Der Standort ist der Schlüssel für das Design und die Hypothesenprüfung - Und dann geht es schief - willkommen bei unbalancierten Designs und - Und dann geht es schief - willkommen bei unbalancierten Designs und das unge- plante Ende von Studien EXPERIMENTE IN DER REALEN WELT - Nicht genügend Replikate - Tiefe kontextuelle Analyse - Typischerweise über Hypothesentests hinaus - Oft ein Ausgangspunkt - Startpunkt der abduktiven Rotation META-ANALYSE Eine Meta-Analyse integriert die statistischen Ergebnisse verschiedener Studien in eine über- greifende Analyse. 9.3. Zusammenfassung - Experimente sind essenziell - Unschärfe, Validität, … werden berücksichtigt und miteinbezogen - Lab experiments are controlled field experiments are mostly controlled, and natural experiments have few or no controlled variables - Wir können Limitierung verstehen, wir betrachten Teilaspekte der Realität , IMMER KRITISCH BLEIBEN - Experimente sind das Brot und Butter der modernen Wissenschaft - Experimente zeigen Ergebnisse mit einer Gültigkeit, Zuverlässigkeit und Unsicherheit - Bei Laborexperimenten werden alle Variablen kontrolliert, bei Feldexperimenten die meisten Variablen - kontrolliert, und natürliche Experimente haben wenige oder keine kontrollierten Vari- ablen ⎯Während viele Disziplinen auf Experimente angewiesen sind, müssen wir auch ihre Grenzen 10. Causality and Correlation 10.1. Quelle 1 Korrelation – ob zwei Variablen miteinander in Beziehung stehen (Z.B. Einkommen und Zeit) Geschichte: - Pearson – Theoretischen Erwägungen in Bezug auf Korrelation, offen bzw. induktiv - Fisher – lineare Relationen, deduktiv Vorhersagen treffen und Phänomene erklären Die beiden hassten sich 33 - Beziehungen zwischen zwei Variablen können positiv oder negativ (je größer desto schwerer, Kleiner - niedrigeren Bruttokalorienbedarf) - Hard science und soft science - Normalverteilung - Fisher – Pepsi Test erfunden: zuerst Tee, oder zuerst Milch rein - Signifikanz – bei 5% - Korrelationskoeffizient von 1 bei perfektem Verhältnis, 0 bei Streuung (generell zwi- schen minus 1 und plus 1) – „Kann die Regression eine große Varianz Ihrer Daten erklären, oder sind die Ergebnisse hinsichtlich ihrer Erklärungskraft eher schwach?“ - -1 wäre dann je mehr desto weniger - Durch Korrelationskoeffizient Zukunftsprognosen – alles relativ - Kein Modell ist perfekt! Correlation models are - Approcimations, Parsimonious, Generalisation Frage der Logik Positive Beziehung – wenn Regen steigt, steigt Wachstum Negative Beziehung – wenn eines steigt, sinkt das andere Kausalität: - Abhängigkeit, wenn Beziehungen nicht nur wahrscheinlich, sondern auch vernünf- tig sind. Variable (A) wird aktiv durch eine Variable (B) getrieben. Wenn B weggenommen oder ver- ändert wird, verändert sich auch A oder wird nicht mehr vorhanden. Hume – seine Kriterien 1. Eine Variable erzeugt einen Effekt: Zusammenhang von Eis und Hitze, Dünger und Er- trag auf Ernte 2. Wenn mehrere Variablen den gleichen Effekt erzeugen: Verschiedene Seifen töten Corona, Eis und Madeleine für Kindheitserinnerungen 3. Wenn 2 Objekte unterschiedliche Effekte haben, muss es einen Grund dafür geben: Wenn 2 Getränke haben verschiedene Effekte (Cola, Kaffee, Bier, Wasser, Aspirin vs. Paracetamol (verschieden Wirkung) Man kann nicht alles damit erklären: Je weniger Piraten, desto mehr erwärmt sich die Erde – natürlich quatsch - Die Kausalität ist Raum und Zeit zusammenhängend - Ständige Verbindung zwischen Ursache und Wirkung - Hoher kausaler Weg: positivsm, alles lässt sich erklären oder niedriger kausaler Weg: critical realism, man kann vielleicht einiges erklären Varianz: Maß für die Größe der Abweichung von einem Mittelwert, Streuung Parsimon: Dass Dinge so leicht wie möglich und so kompliziert wie nötig ist (Philosoph hier einfügen) – Rezept! Regression: Unterteilung in Regression und Korelation – kontinuierliche Daten und man schaut sich Verhalten an, Grundannahme bei Regression: Kausaler Zusammenhang (Nie- derschlag – größere Wurzel) Korrelation – Das eine wächst und das andere auch (nicht ab- hängig) - P-Wert: 0,05 Messwert um Hypothesen statistisch testen, Signifikanz 34 - Hard science – Naturwissenschaften - Soft science – Geisteswissenschaften 10.2. Quelle 2 In der Statistik wird eine Beziehung zwischen zwei statistischen Variablen damit gemessen. Der Korrelationskoeffizient gibt den Grad des Zusammenhangs an. Dieser wird mit einer Zahl zwischen -1 und 1 angegeben. Ist der Wert 0 gibt es keinen Zusammenhang. Die Zahl 1 steht für einen Ist der Wert 0 gibt es keinen Zusammenhang. Die Zahl 1 steht für einen vollständigen positi- ven linearen Zusammenhang, beide Werte wachsen in gleicher Weise. Umgekehrt gibt es auch eine negative Korrelation, die vorliegt, wenn ein Wert wächst, während der andere ab- nimmt. Scheinkorrelation Auch wenn sowohl der Konsum von Eis als auch die Fälle von Sonnenbrand steigen, bedeu- tet es nicht, dass Eis zu Sonnenbrand führt. Bei diesem Beispiel hängen beide Größen kau- sal mit dem Sonnenschein zusammen, aber nicht kausal voneinander. Es kann sogar zu rein zufälligen Korrelationen kommen. Aus diesem Grund dürfen Entscheidungen nie alleine auf Basis der Kenntnis einer Korrelation gefällt werden. Kausalität: Wenn zwischen zwei ein aus Ursache und Wirkung besteht, spricht man von einer Kausa- lität. können einen Hinweis auf kausale Zusammenhänge geben. Wer etwa viel raucht (Merkmal X), hat ein höheres Risiko an Lungenkrebs (Merkmal Y) zu erkranken. Wichtig: Eine Korrelation allein ist noch kein Beweis für einen ursächlichen Zusammenhang. EIN FLÜCHTIGER BLICK AUF HUMES KAUSALITÄTSKRITERIEN 1. Die gleiche Ursache erzeugt die gleiche Wirkung. 2. Wenn mehrere Objekte die gleiche Wirkung erzeugen, dann muss es unter ihnen ein vereinigendes Kriterium geben, das die Wirkung verursacht. 3. Wenn zwei Objekte eine unterschiedliche Wirkung haben, muss es muss es einen Grund geben, der den Unterschied erklärt. 1) DIE GLEICHE URSACHE ERZEUGT DIE GLEICHE WIRKUNG. - Sie fallen aus dem 15. Stock vs. Sie fallen aus dem 40. Stock. - Wärme und Eis- cremeverkauf - Düngemittel und Ernteertrag 2) WENN MEHRERE OBJEKTE DEN GLEICHEN EFFEKT ERZEUGEN, DANN MUSS ES EIN VEREINIGENDES KRITERIUM UNTER IHNEN GEBEN DAS DIE WIRKUNG VERUR- SACHT. - Verschiedene Düngemittel - Beliebige Seifenarten gegen das Corona-Virus - Eiscreme oder Madeleines 35 3) WENN ZWEI OBJEKTE EINE UNTERSCHIEDLICHE WIRKUNG HABEN, MUSS ES MUSS ES EINEN GRUND GEBEN, DER DEN UNTERSCHIED ERKLÄRT. - Verschiedene Getränke wirken auf die gleiche Weise gegen Durst - Aspirin vs. Para- cetamol - Kuhdünger vs. Pferdedünger 10.3. Zusammenfassung - In einem Jahrhundert der Zahlen spielten Korrelationen eine Rolle - Dennoch kann Korrelation vorhersagen und sogar helfen, zu erklären - Korrelationsmodelle sind Verallgemeinerungen, Näherungen und (idealerweise) par- simonisch - Kausalität kann eine ganz andere Sache sein - Kausalitätsvorstellungen sind in der Logik verwurzelt - Ob sie von Bedeutung sind, ist eine Frage der Wissenschaftstheorie - Ob man letztlich Beziehungen zwischen zwei kontinuierlichen Variablen verstehen kann, ist eine Frage der Praxis 11. Bias (Voreingenommenheit) and Critical Thinking 11.1. Quelle 1 Bias: the action of supporting or opposing a partiular person or thing in an unfair way, be- cause of allowing personal opinions to influene your judgment Beispiele: Dunning-Krueger Effect: Wenn eine Person denkt, dass sie alles wüsste und al- len überlegen ist, jedoch nicht viel weiß – Verschwörungstheoretiker, Donald Trump Optimismus bias: Is the believe of someone that he is not going to experience a negative event Hindsight bias/ Rückschaufehler: Nachdem ein Ereignis eingetreten ist, die Vorhersehbar- keit dieses Ereignisses zu überschätzen. Betrifft alles, jeden Lebensbereich Kognitiv: (def. Ein kognitives Bias ist ein sich wiederholender oder grundlegender Fehltritt beim Denken, Beurteilen, Erinnern oder anderen kognitiven Prozessen) Types of bias: - Anchoring/ Ankern: Die eigene Analyse am ersten angetroffenen Datenpunkt orientie- ren, z.B. Preisvergleich - Apophänie: Die Tendenz, in zufälligen Daten bedeutungsvolle Muster zu erkennen (Tik, Tak, Toe) Attributionsbias: Systematische Fehler auf Basis einer mangelhaften Wahrnehmung des eigenen oder fremden Verhaltens - Bestätigungsbias: Die Tendenz, Informationen zu suchen und zu bevorzugen, die die eigene bestehende Meinung bestätigen - Framing: Die Art und Weise, mit der individuelle Akteure Daten präsentieren und kon- struieren - Kultureller Bias: Die Interpretation und Bewertung von Phänomenen gemäß dem ei- genen kulturellen Standard - Halo / Horn-Effekt: Der allgemeine Eindruck eines Beobachters beeinflusst dessen Gefühle über spezifische Eigenschaften einer Entität (Von einer Eigenschaft auf andere schließen) - Eigennütziger Bias: Die Tendenz, Erfolge sich selbst und Fehlschläge äußeren Fak- toren zuzuschreiben 36 - Status Quo-Bias: Die emotionale Tendenz, jede Veränderung als Verschlechterung wahrzunehmen Ineressenkonflikt: (def. eine Reihe von Umständen, die das Risiko schaffen, dass das fachliche Urteilsvermögen oder Handlungen in Bezug auf ein primäres Interesse durch ein sekundäres Interesse ungebührlich beeinflusst werden. Er besteht, wenn die Um- stände vernünftigerweise als Gefahr angenommen werden, dass die getroffenen Entschei- dungen durch Hilfsinteressen ungebührlich beeinflusst werden können (finanzielle oder per- sönliche Interessen)) - Bestechung: Für eine spezielle Meinung oder ein spezielles Verhalten vergütet zu werden. - Bevorzugung: Mitglieder der eigenen Gruppe gegenüber Außenstehenden zu bevor- zugen. Lobbyismus: Andere Akteure zugunsten eigener Interessen zu beeinflussen - Probleme bei Selbstregulierung : Ungenauigkeiten auf Basis von Selbsteinschät- zung gegenüber unabhängiger externer Evaluation - Shilling: Vorzugeben, unabhängiger Beobachter zu sein, während man dies nicht ist. Statistische bias: (def. Eine systematische Tendenz im Prozess der Datenerhebung, die zu einseitigen, irreführenden Ergebnissen führt. Dies kann auf verschiedene Weise auftreten, sei es bei der Auswahl der Stichprobe oder bei der Art und Weise der Datenerhe- bung. Es handelt sich um eine Eigenschaft eines statistischen Verfahrens oder seiner Ergeb- nisse, bei der sich der erwartete Wert der Ergebnisse von dem tatsächlichen zugrunde lie- genden quantitativen Parameter, der geschätzt wird, unterscheidet.) - Vorhersagen-Bias: Konsistente Unterschiede zwischen Vorhersagen und tatsächli- chen Ergebnissen - Erwartungshaltungs-Bias: Der unterbewusste Einfluss, den die Erwartungshaltung ei- ner/s Forschenden auf die Forschung hat. - Reporting Bias: Selektive Wahl und Veröffentlichung von Informationen, z.B. (un)er- wünschte Forschungsergebnisse - Soziale Erwünschtheit-Bias: Umfrageteilnehmende, die so antworten, wie sie es für sozial erwünscht halten - Selektions-Bias: Unrepräsentatives Sampling Vorurteile: (def. Urteilen oder die Bildung einer Meinung, bevor man die relevanten Fakten eines Falles kennt. Meist ungünstige Urteile gegenüber Menschen oder einer Per- son aufgrund von Geschlecht, politischer Meinung, sozialer Klasse, Alter, Behinde- rung, Religion, Sexualität, Rasse/Ethnizität, Sprache, Nationalität oder anderen persönli- chen Merkmalen zu beziehen. Vorurteile können sich auch auf unbegründete Überzeugun- gen beziehen und "jede unvernünftige Einstellung, die ungewöhnlich resistent gegen ratio- nale Beeinflussung ist", umfassen. - Klassismus: Haltungen, die einer bestimmten sozialen Klasse zugutekommen - Lookismus: Vorurteile auf Basis körperlicher Eigenschaften, z.B. Attraktivität oder kul- turelle Präferenz - Rassismus: Verhalten auf Basis der Annahme, es gäbe über- und unterlegene (menschliche) Rassen - Sexismus: Verhalten auf Basis der Annahme, dass ein Geschlecht oder eine sexuelle Orientierung (zumeist männlich, heterosexuell) besser als andere wäre Contextual biases Wissenschaflicher Bias: (basically Bias in der Wissenschaft ) 37 - Wissenschaftlicher Bias: Wissenschaftler, die ihre Weltanschauungen ihre Forschung beeinflussen lassen - Experimentatoren-B

Use Quizgecko on...
Browser
Browser