Full Transcript

Internet- und Webtechnologie (Theorieteil) FH-Prof. Mag. Dr. Stefan Dreisiebner DI Martin Stromberger Foliensatz erstellt und laufend erweitert durch Alfred Wieser, Christian Inzko, Martin Stromberger und Stefan Dreisiebner Wie hat sic...

Internet- und Webtechnologie (Theorieteil) FH-Prof. Mag. Dr. Stefan Dreisiebner DI Martin Stromberger Foliensatz erstellt und laufend erweitert durch Alfred Wieser, Christian Inzko, Martin Stromberger und Stefan Dreisiebner Wie hat sich das Web entwickelt? Ein komplexes Ökosystem Definitionen und Geschichte Eine Kurzversion …. Das Internet (Begriff: Inter = Zwischen und Net = Netz) ist ein globales, dezentral organisiertes Rechnernetz. Es wird aus einer Vielzahl von miteinander verbundenen Einzelnetzwerken gebildet. Die Kommunikation zwischen den einzelnen Rechnern erfolgt dabei auf der Grundlage des Transmission Control Protocol/Internet Protocol (TCP/IP). Zu diesen Diensten gehören beispielsweise das WWW (World Wide Web), der E-Mail-Dienst, aber auch das File Transfer Protocol (FTP), das eine systemunabhängige Übertragung beliebiger Daten zwischen Computern ermöglicht. Definitionen und Geschichte Das Internet und WWW sind nicht das gleiche, gehören aber zusammen Definitionen und Geschichte Die ersten Ursprünge des Internets gehen auf die 1950er und 1960er Jahre zurück. Noch in den 1950er Jahren dienten Computer ausschließlich militärischen und wissenschaftlichen Zwecken ("Rechenmaschinen") Erst in den 1960er Jahren kam es zu einem Perspektivwechsel, als Computer auch zunehmend als Kommunikationsmittel verstanden wurden Als erstes landesweites Computernetzwerk entstand 1969 das ARPANET Mit dem ARPANET (ARPA = Advanced Research Projects Agency) wurde das erste Netzwerk ohne zentrale Steuerung und Kontrolle geschaffen, mit dem militärische und wissenschaftliche Einrichtungen verbunden werden konnten. Weitere wichtige Meilensteine: X.25 (1974),USENET (1979), TCP/IP (1983) 6 Definitionen und Geschichte Hello World! Das Wendejahr 1989 als Wende für das Internet Den großen Durchbruch für die Öffentlichkeit erlangte das Internet mit der Erfindung des World Wide Web (WWW) im Jahr. Das WWW, das technisch gesehen als Dienst auf dem Internet aufsetzt, integriert viele Dienste unter einer grafischen Oberfläche, die mit einem Browser aufgerufen werden können. Damit wurde es auch technischen Laien relativ leicht möglich, das Internet zu nutzen. 7 Definitionen und Geschichte Verbreitung (Anm. CIS = Commonwealth of Independent States; primär ehem. Sowjetunion) Definitionen und Geschichte Verbreitung Definitionen und Geschichte Verbreitung Definitionen und Geschichte Die Entwicklung des Webs Generative AI © https://abis-cloud.de/blog/das-internet-kompakt-erklaert/ Definitionen und Geschichte Statische Webseiten versus dynamische Webseiten © https://thielu.de/static/blog.php?post=7 The Client-Server Model The Request-Response Loop The Client-Server Model The Peer-to-Peer Alternative The Client-Server Model Unterschiedliche Typen/Arten von Servern Web Servers Application Servers Database Servers Mail Servers Media Servers Authentication Servers … The Client-Server Model Real-World Server Installations – Server Farm The Client-Server Model Real-World Server Installations – Server Rack The Client-Server Model Real-World Server Installations – Data Center Where Is the Internet? From the Computer to the Local Provider Where Is the Internet? Vom lokalen Provider zur Überseeanbindung – European Internet Exchange Association(IXP) and Data Centers Where Is the Internet? Vom lokalen Provider zur Überseeanbindung – European Internet Exchange Association(IXP) and Data Centers Where Is the Internet? Verbindung zwischen den Kontinenten Wie funktioniert das Internet? Internet Protokolle Eine „geschichtete“ Architektur Die Internetprotokollfamilie besteht aus rund 500 Netzwerkprotokollen. Diese Protokolle bilden die Basis für die Netzkommunikation im Internet. Häufig wird die Bezeichnung TCP/IP Protokoll-Familie verwendet. Die Netzwerktechnik ist eine ganz eigene Disziplin. Ein grundlegendes Verständnis darüber, was die einzelnen Internet-Protokolle leisten, hilft dabei drauf aufbauende technische Anwendungen besser zu verstehen. In der Folge OSI-Modell -> Detaillierter und daher häufig in der Lehre verwendet. In der Praxis wird primär das TCP/IP-Modell eingesetzt -> einfacherer Aufbau auf vier Schichten. Internet Protokolle Eine „geschichtete“ Architektur Das ISO/OSI-Referenzmodell (Open Systems Interconnection model) ist ein Referenzmodell für Netzwerkprotokolle als Schichtenarchitektur. Es wird seit 1983 von der International Telecommunication Union (ITU) und seit 1984 auch von der International Organization for Standardization (ISO) als Standard veröffentlicht. Seine Entwicklung begann im Jahr 1977. © https://de.wikipedia.org/wiki/OSI-Modell © https://funwebdev.com/ Hintergrund: Entstehung des ISO/OSI- Referenzmodells 26 Hintergrund: Entstehung des ISO/OSI- Referenzmodells Probleme, die zur Entwicklung des ISO/OSI-Referenzmodells führten: Vielzahl an inkompatiblen Netzwerktechnologien. Jedes System war eine Insel. Einfache Aufgaben wie Datentransfer waren unmöglich oder sehr mühsam und fehleranfällig. Jeder Hersteller implementierte seine eigenen Regeln und Implementierungen. Verwaltung und Wartung war sehr komplex. Lösung: Ein einheitlicher Standard denn alle Hersteller einhalten. Somit können Systeme verschiedener Hersteller miteinander verbunden werden und Daten austauschen. 27 Internet Protokolle Link Layer Verantwortlich für die physische Übertragung von Daten (sowohl drahtgebunden als auch drahtlos) und Aufteilung des Bitdatenströme in Blöcke (Frames), Hinzufügen von Prüfsummen Behandelt Themen wie Paketerstellung, Übertragung, Empfang, Fehlererkennung, Kollisionen, gemeinsame Nutzung von Leitungen und vieles mehr. 28 Internet Protokolle Internet Layer Verantwortlich für Verbindung, Routing und Adressierung Bereitstellung netzwerkübergreifender Adressen (IPV4, IPV6, ICMP) Datenübertragung über das gesamte Kommunikationsnetzwerk (Routing) Aufbau und Aktualisierung von Routingtabellen und die Fragmentierung von Datenpaketen, ein Datensegment dient zur Kapselung der Daten Hardware in dieser Schicht: Router 29 Internet Protokolle IP-Adressen 30 Internet Protokolle IP-Adressen 31 Internet Protokolle Bestandteile einer IP-Adresse Die Subnetzmaske gibt den Aufbau des Subnetzes vor. 32 Internet Protokolle Transport Layer Verantwortlich für Segmentierung des Datenstromes, Vermeidung von „Datenstaus“, Sicherstellung der fehlerfreien Übertragung Das Datensegment besteht aus einzelnen Protokollelementen. Die Adressierung des Datensegmentes erfolgt durch einen Port. Die Transportschicht bietet den anwendungsorientierten Schichten einen einheitlichen Zugriff. Die anwendungsorientierten Schichten müssen die Eigenschaften des Kommunikationsnetzwerkes nicht mehr berücksichtigen. TCP: Das Transmission Control Protocol ist ein verbindungsorientiertes Protokoll, das für eine gesicherte Ende- zu-Ende Verbindung zwischen den Geräten sorgt. Hierbei wird sichergestellt, dass die Daten wirklich beim Empfänger angekommen sind, um Datenverluste zu verhindern. Das führt aber dazu, dass die Datenübertragung bei TCP langsamer ist. UDP: Das User Datagram Protocol ist ein verbindungsloses und ungesichertes Protokoll. Im Gegensatz zu TCP wird hier nicht auf eine Empfangsbestätigung der Daten gewartet. Somit wird UDP hauptsächlich verwendet, wenn Datenverluste nicht sehr schlimm sind (zum Beispiel beim Videostreaming) und die Datenübertragung um einiges schneller sein soll. 33 Internet Protokolle Was ist ein Port? (1) Das englische Wort "Port" lässt sich mit dem Wort "Tor" oder "Durchlass" übersetzen. Ein Port erlaubt die Kommunikation zwischen Ihrem Computer mit anderen Computern sowie mit dem Internet. Eine Firewall schließt ungenutzte Ports, damit über diese keine Viren auf Ihren PC gelangen. Mit Ports können Datenpakete im Internet stets einer passenden Anwendung zugeordnet werden. Ihr Computer verfügt insgesamt über 65.536 Ports. Kommt ein Datenpaket, zum Beispiel eine Mail, auf Ihrem Computer an, so wird diese stets über den für Mails reservierten Port geleitet. 34 Internet Protokolle Was ist ein Port? (2) Bildlich dargestellt wird es noch etwas einfacher. Computer verschicken Daten in kleinen Paketen. Der Port wird als Empfänger auf das Paket geschrieben. Das Paket wird dann durch die Tür mit der richtigen Nummer durchgelassen und versendet. Öffnen Sie zum Beispiel die Webseite www.fh-kaernten.at , sendet Ihr Computer eine Anfrage für den Erhalt der benötigten Daten an den Web-Server. Diese Anfrage wird über den Port 80 geschickt, welcher stets für Webseiten verwendet wird. 35 Internet Protokolle Transport Layer 36 Internet Protokolle Application Layer Sitzungsschicht (Schicht 5): Steuerung der Verbindung und des Datenaustausches Darstellungsschicht (Schicht 6): Umwandlung der systemabhängigen Daten in ein unabhängiges Format. In dieser Schicht werden die Daten komprimiert/dekomprimiert sowie verschlüsselt/entschlüsselt. Anwendungsschicht (Schicht 7): Funktionen für Anwendungen sowie Dateneingabe und -ausgabe 37 Internet Protokolle Application Layer - Protokolle Es gibt viele Protokolle der Anwendungsschicht. Die bekanntesten sind: Das Hypertext Transfer Protocol (http) wird für die Web-Kommunikation verwendet. Das Secure Shell-Protokoll (ssh) ermöglicht Remote-Befehlszeilenverbindungen zu Servern. Das File Transfer Protocol (ftp) wird für die Übertragung von Dateien zwischen Computern verwendet. POP/IMAP/SMTP: E-Mail-bezogene Protokolle für die Übertragung und Speicherung von E-Mails. Das Domain Name System-Protokoll (DNS), das zur Auflösung von Domain-Namen in IP-Adressen verwendet wird. 38 Domain Name System Name Levels The Domain Name System (DNS) is the phonebook of the Internet. Humans access information online through domain names, like nytimes.com or espn.com. Web browsers interact through Internet Protocol (IP) addresses. DNS translates domain names to IP addresses so browsers can load Internet resources. 39 Domain Name System Arten von Top Levels Domains Generic top-level domain (gTLD) Unrestricted. TLDs include.com,.net,.org, and.info. Sponsored. TLDs including.gov,.mil,.edu, and others. New TLDs. Country code top-level domain (ccTLD) TLDs include.us ,.ca ,.uk , and.au. Internationalized Domain Names arpa (Address and Routing Parameter Area) 40 Domain Name System.arpa Die Domain arpa ist eine Top-Level-Domain im Domain-Name- System (DNS) des Internets. Sie wird exklusiv für technische Infrastrukturzwecke benutzt. Ursprüngliche Interpretation der Abkürzung - Advanced Research Projects Agency Aktuelle Bedeutung - Address and Routing Parameter Area 41 Domain Name System Ablauf der Registrierung einer neuen Domain Beispiel für Österreich/.at-Domains: https://www.nic.at/ 42 © https://funwebdev.com/ DNS Prozess der Namensauflösung Wenn eine Anfrage zur DNS-Namensauflösung an einen DNS-Server weitergeleitet wird, untersucht der DNS-Server seinen lokalen DNS-Cache auf die IP-Adresse. Wenn sich die IP-Adresse nicht im Cache des DNS-Servers befindet, prüft er seine Hosts-Datei. (Da die Hosts-Datei eine statische Textdatei ist, wird sie nicht häufig verwendet). Wenn der DNS-Server nicht autorisierend und für die Weiterleitung konfiguriert ist, leitet der DNS- Server die Anforderung an einen DNS-Server höherer Ebene weiter. Wenn der DNS-Server die Anforderung nicht weiterleiten kann oder die Weiterleitung fehlschlägt, verwendet der DNS-Server seine Root-Hinweis-Datei (auch als Cache.dns bekannt). In der Datei "Root Hints" sind die 13 Root-DNS-Server aufgeführt. Der Root-DNS-Server antwortet mit der Adresse eines com-, edu-, net- oder anderen DNS- Servertyps (je nach Anforderung). Der DNS-Server leitet die Anfrage an den High-Level-DNS-Server weiter, der mit einer Vielzahl von IP-Adressen antworten kann 43 Exkurs zu Cybersecurity: Sicherheitsrisiko durch hosts-Datei 44 Exkurs zu Cybersecurity: Sicherheitsrisiko durch hosts-Datei Schadsoftware kann die hosts-Datei eigenmächtig und unbemerkt ändern So können NutzerInnen bei dem Aufruf eigentlich harmloser Domains auf die IP-Adressen von Seiten mit Schadcode oder gefälschte Seiten umgeleitet werden Außerdem können Adressen gesperrt werden, z. B. die Server von Antivirenprogramm- Anbietern, sodass deren Anwendungen sich nicht mehr updaten können Das definieren der hosts-Datei als schreibgeschützt kann diese vor unerwünschten Änderungen schützen Mittels der hosts-Datei können umgekehrt aber auch gefährliche Domains gesperrt werden, indem diese auf nicht existierende IP-Adressen z.B. 0.0.0.0 umgeleitet werden. Mehr zur hosts-Datei bei verschiedenen Betriebssystemen: https://www.ionos.at/digitalguide/server/konfiguration/hosts-datei/ 45 DNS Prozess der Namensauflösung Interaktion zwischen Client und DNS-Server 46 Exkurs zu Cybersecurity: DNS-Spoofing 47 Exkurs zu Cybersecurity: DNS-Spoofing Auch Internetanbieter können DNS-Spoofing nutzen Die meisten Menschen nutzen – ohne sich dessen bewusst zu sein – einen DNS-Server ihres Internetanbieters. Dieser ist im Normalfall im lokalen Router voreingestellt. So unterliegt jede DNS-Abfrage der Kontrolle durch den Internetanbieter. Internetanbieter können z. B. gezielt ihre DNS-Tabellen manipulieren, um staatliche Zensurvorgaben umzusetzen. In vielen Ländern wird den Nutzern so der Zugriff auf Filesharing- oder Porno-Domains vereitelt. Versucht der Nutzer, auf eine dieser blockierten Domains zuzugreifen, wird er stattdessen auf eine Warnseite umgeleitet. Jedoch lassen sich diese Blockaden durch Nutzung eines nichtzensierenden DNS-Servers mit minimalem Aufwand umgehen. Dieselbe Methode wird auch eingesetzt, um Nutzerdaten für Werbezwecke zu sammeln. So setzen Internetanbieter DNS-Hijacking ein, um den Nutzer bei Eingabe nichtexistenter oder falsch geschriebener Domains auf eine spezielle Seite umzuleiten. Diese Seite spielt z.B. Werbung aus oder erstellt Nutzerprofile, die dann gewinnbringend verkauft werden. Quelle: https://www.ionos.de/digitalguide/server/sicherheit/dns-spoofing/ 48 Uniform Resource Locators (URL) Übersicht © https://funwebdev.com/ 49 Uniform Resource Locator Protokoll Erinnern Sie sich, dass wir verschiedene Protokolle der Anwendungsschicht auf dem TCP/IP-Stack aufgelistet haben. FTP, SSH, HTTP, POP, IMAP, DNS,... Beispiele: ftp://example.com/abc.txt sendet eine FTP-Anfrage auf Port 21, während http://example.com/abc.txt überträgt eine HTTP-Anfrage auf Port 80. Uniform Resource Locator Domain Die Domain identifiziert den Server, von dem wir Ressourcen anfordern. Da das DNS-System die Groß-/Kleinschreibung nicht berücksichtigt, ist dieser Teil der URL unabhängig von der Groß-/Kleinschreibung. Alternativ kann eine IP-Adresse für die Domäne verwendet werden Uniform Resource Locator Port Das optionale Port-Attribut erlaubt es uns, Verbindungen zu anderen als den voreingestellten Ports anzugeben Fügen Sie nach der Domäne einen Doppelpunkt hinzu und geben Sie dann eine ganzzahlige Portnummer an. Beispiel: https://www.fh-kaernten.at:80 – funktioniert (der Standard-Port für HTTPS- Verbindungen wäre ansonsten 443) https://www.fh-kaernten.at:100 – wird von Firewall geblockt Hypertext Transfer Protocol Headers © https://funwebdev.com/ Hypertext Transfer Protocol Headers Anfrage (Request) - Header enthalten Daten über den Client-Rechner. Antwort (Response) - Header enthalten Informationen über den Server, der die Anfrage beantwortet, und über die Daten, die gesendet werden. © https://funwebdev.com/ Hypertext Transfer Protocol Request Methods © https://funwebdev.com/ Hypertext Transfer Protocol Response Codes 2## codes are for successful responses, 3## are for redirection-related responses, 4## codes are client errors, 5## codes are server errors. 56 Hypertext Transfer Protocol Response Codes - Beispiele 200: OK 301: Moved Permanently 304: Not Modified 307: Temporary redirect 400: Bad Request 401: Unauthorized 404: Not found 414: Request URI too long 500: Internal server error 57 Web Browser Anfordern einer Seite 2019-10-14 © https://funwebdev.com/ 58 Web Browser Abrufen einer Webseite - Ladezeiten und Unterteilungen © https://funwebdev.com/ 59 Web Browser Browser Rendering Die Interpretation des gesamten HTML-Markups zusammen mit dem Bild und anderen Assets in ein Pixelraster zur Anzeige im Browserfenster wird als Rendering der Webseite bezeichnet. Jeder Webbrowser handhabt das Rendering unterschiedlich. 60 Web Browser Browser Caching 2019-10-14 © https://funwebdev.com/ 61 Web Servers Betriebssysteme Ein Webserver ist nichts anderes als ein Computer, der auf HTTP-Anfragen antwortet. Webserver in der realen Welt sind oft leistungsfähiger als reguläre Desktop- Computer. Webserver müssen einen Anwendungsstapel („application stack“) wählen, um eine Website zu betreiben. Dieser Anwendungsstapel enthält eine Betriebssystem, Webserver-Software, eine Datenbank, und eine oder mehrere Skriptsprache(n) für dynamische Anfragen 62 Web Servers Anwendungsstapel Ein typischer Anwendungsstapel wird mit der Abkürzung LAMP beschrieben. Der LAMP-Software-Stack stützt sich auf: L inux-Betriebssystem, A Pache-Webserver, M ySQL-Datenbank und P HP Skriptsprache 63 Web Servers Komponenten Betriebssysteme Windows, Linux Datenbanksoftware MySQL, PostgreSQL, Sqlite, Oracle, IBM DB2, Mircosoft SQL Server, MongoDB Webserver PHP, ASP.NET, JSP 64 Weitere Ressourcen Das OSI-Modell einfach erklärt https://www.youtube.com/watch?v=bWVrqReifJ8 https://www.youtube.com/watch?v=_kDogzR0-4Q 65 Copyright im Internet Copyright (Urheberrecht) Das Urheberrecht schützt umfangreich Werke der Literatur und Kunst, Filmkunst, Sprachwerke aller Art einschließlich Computerprogrammen, etc. (§ 1 UrhG) § 10 UrhG: Urheber eines Werkes ist, wer es geschaffen hat Copyright entsteht automatisch und benötigt keine Anmeldung (im Gegensatz zu Patenten) Das Anbringen eines Copyright-Vermerks (©) ist für die Entstehung des Urheberechts ohne Bedeutung, kann jedoch im Streitfall den Beweis der Urheberschaft erleichtern Copyright im Internet Das Hochladen eines Fotos auf eine frei zugängliche Website ohne entsprechende Erlaubnis (Lizenz) stellt immer eine Urheberrechtsverletzung dar Dabei ist es egal, ob die Veröffentlichung privaten oder kommerziellen Zwecken dient Unerheblich ist auch, wie viele Personen tatsächlich auf das Foto im Internet zugegriffen haben beziehungsweise ob es überhaupt jemand angesehen hat Wegen der einfachen technischen Möglichkeit, das Internet auf bestimmte Fotos zu durchsuchen (umgekehrte Bildersuche), werden Urheberrechtsverletzungen im Zusammenhang mit der Veröffentlichung von Fotos besonders häufig verfolgt Manche Rechtsanwaltskanzleien haben sich auf solche Urheberrechtsverletzungen spezialisiert und versuchen die Ansprüche von Rechteinhabern in großer Menge durchzusetzen Quelle: https://www.ombudsstelle.at/urheberrecht-und-abmahnungen/wann-liegt-eine-urheberrechtsverletzung-vor/ 68 Copyright im Internet Bei der Gestaltung einer Website oder eines Blogs müssen Sie daher besonders darauf achten, dass Sie Urheberrechte an Fotos, Videos, Musikstücken, Texten, Computerprogrammen oder auch Landkarten (Anfahrtsplan) nicht verletzen Ohne Zustimmung der RechteinhaberInnen dürfen Sie solche Inhalte nicht auf Ihre Website, Ihren Blog oder soziale Netzwerke wie Instagram oder Youtube hochladen Eine Urheberrechtsverletzung liegt auch dann vor, wenn Sie nicht wussten, dass ein Inhalt nicht verwendet werden darf Quelle: https://www.ombudsstelle.at/urheberrecht-und-abmahnungen/wann-liegt-eine-urheberrechtsverletzung-vor/ 69 Gängigste Form von freien Lizenzen: Creative Commons Lizenzen Creative Commons: Licensing Terms Attribution (BY) – must credit the author No Derivatives (ND) – may reuse the work, but only unaltered from the original Noncommercial (NC) – may not use for commercial purposes ShareAlike (SA) – allows derivative works, but requires the same CC license terms be applied to any derivative works Introduction to Information Science – Scholarly Communication Creative Commons: The 6 licenses Attribution (CC BY) Attribution-ShareAlike (CC BY-SA) Attribution-NoDerivatives (CC BY-ND) Attribution-NonCommercial (CC BY-NC) Attribution-NonCommercial-ShareAlike (CC BY-NC-SA) Attribution-NonCommercial-NoDerivatives (CC BY-NC-ND) Introduction to Information Science – Scholarly Communication Gezielte Suche nach frei lizenzierten Bildern: Google Bildersuche 73 Datenbanken mit kostenlosen Bildern Es gibt diverse Webseiten, welche Bilder kostenlos anbieten, gerne wird auch der Begriff „lizenzfrei“ angeführt. Beispiele: pixabay.com, unsplash.com Hier gilt es dennoch jeweils die Lizenzbedingungen genau zu studieren: i.d.R. gibt es genaue Vorgaben wie die Bildquelle angeführt werden muss; auch Einschränkungen für die kommerzielle Nutzung können festgelegt sein. Bei frei von NutzerInnen hochgeladenen Fotos ist nicht garantiert, dass diese auch wirklich die Bildrechte besitzen. Auch bei Abbildungen von Marken und Herstellerlogos auf Fotos ist Vorsicht geboten. 74 Urheberrecht und KI-Output Generative KI-Tools räumen NutzerInnen auf den ersten Blick häufig großzügige Nutzungsrechte des Outputs ein. Die Situation ist auf den zweiten Blick aber komplexer: Inhalt kann auf urheberrechtlich geschützten Werken basieren Urheberrechtsverletzung denkbar bei Wiedergabe Nutzerin/Nutzer trifft i.d.R. Haftung für Urheberrechtsverletzung (!) 75 Weiterführende Informationen Copyright im Internet (WKO): https://www.wko.at/internetrecht/copyright-im-internet--allgemeiner- ueberblick Urheberrechte im Internet (oesterreich.gv.at): https://www.oesterreich.gv.at/themen/onlinesicherheit_internet_und_n eue_medien/internet_und_handy___sicher_durch_die_digitale_welt/7.h tml Urheberrecht und Abmahnungen (Internet Ombudsstelle): https://www.ombudsstelle.at/urheberrecht-und-abmahnungen/ 76 Suchmaschinen und künstliche Intelligenz Wie kommt eine Websuchmaschine zu ihrem Ranking der Suchergebnisse? Eine simple Möglichkeit: Der Vergleich von Dokumentenähnlichkeiten Vektorraum-Modell Entwickelt von G. Salton (1960) Einzelne Begriffe, die in einem Dokument vorkommen, werden entsprechend ihres Vorkommens gewichtet Dadurch kann die Wichtigkeit von Begriffen berücksichtigt werden Dokumente und Abfragen werden als Vektoren dargestellt Um ihre Ähnlichkeiten zu berechnen, werden Ähnlichkeitsmaße verwendet Beispiel: Bestimmung von Dokumentenähnlichkeiten im Vektorraum-Modell Quelle: Henrich, A. (2008): Information Retrieval 1, Grundlagen, Modelle, Anwendungen. Otto-Friedrich-Universität Bamberg. Moderne Websuchmaschinen benutzen komplexere Algorithmen Websuchmaschinen wie Google gewichten Suchergebnisse basierend auf einer Analyse von Hyperlinks kombiniert mit anderen Faktoren wie: Termfrequenz und Termvorkommen HTML Markup Sprache der Website … Faktoren können auch negativ im Ranking Berücksichtigung finden, wie beispielsweise versteckte Links mit dem potenziellen Ziel die Suchmaschine zu täuschen Bekanntester Ansatz: PageRank Algorithmus von Google Linkanalyse bei PageRank Je mehr links auf eine Website verweisen, desto höher ist deren Relevanz/Gewichtung Je höher die Relevanz/Gewichtung der verlinkenden Seite, desto mehr trägt diese auch zur Relevanz/Gewichtung der verlinkten Seiten bei Iterativer Algorithmus Grundprinzip: PageRank 100 53 50 53 50 9 3 50 25 3 25 3 Based on Page et al. 1998 Websuchmaschinen haben auch eine gesellschaftliche Dimension Suchmaschinen als “Information Gatekeeper” Gestaltung der Suchalgorithmen beeinflusst welche Ergebnisse an relevanter Position angezeigt werden Fragen rund um: Transparenz der Algorithmen Wettbewerb (Werden eigene Produkte im Ranking bevorzugt?) Sollen “seriöse” Quellen bevorzugt werden (z.B. bei Gesundheitsinformationen)? … Künstliche Intelligenz (KI) Künstliche Intelligenz (KI) / Englisch Artificial Intelligence (AI) beschäftigt sich mit Methoden, die es einem Computer ermöglichen, solche Aufgaben zu lösen, die, wenn sie vom Menschen gelöst werden, Intelligenz erfordern. Quelle: Gabler Wirtschaftslexikon, https://wirtschaftslexikon.gabler.de/definition/kuenstliche-intelligenz-ki-40285 85 Was umfasst “Intelligenz”? Arten der Intelligenz: Sprachlich und verbal, logisch, räumlich, körperlich/bewegungsbezogen, musikalisch, zwischenmenschlich, intrapersonal, naturalistisch Intelligenz ist kein einfaches Konzept! Argumentation, Lernen, Logik, Problemlösung, Wahrnehmung und sprachliche Fähigkeiten Beispiele für Fertigkeiten von Intelligenz Aus Erfahrung lernen oder verstehen Mehrdeutige, unvollständige oder sogar widersprüchliche Nachrichten und Informationen verstehen Die relative Bedeutung verschiedener Elemente in einer Situation erkennen und beurteilen KI ist schon längst ein Teil unseres Alltags – beispielsweise: Sprachassistenten Feeds in Social Networks Sprachübersetzung Navigationssysteme Assistenzsysteme in Fahrzeugen … Die Rolle von Trainingsdaten für KI 88 Das Erkennen der richtigen Elemente ist aber nicht immer einfach… Quelle: https://www.freecodecamp.org/news/chihuahua-or-muffin-my-search-for-the-best-computer-vision- api-cbda4d6b425d/ 89 Generative KI Generative KI (englisch: Generative AI) ist ein Sammelbegriff für KI- basierte Systeme, mit denen auf scheinbar professionelle und kreative Weise alle möglichen Ergebnisse produziert werden können, etwa Bilder, Video, Audio, Text, Code, 3D-Modelle und Simulationen. Menschliche Fertigkeiten sollen erreicht oder übertroffen werden. Quelle: Gabler Wirtschaftslexikon, https://wirtschaftslexikon.gabler.de/definition/generative-ki-124952 90 Die rasante Entwicklung von generativer KI Quelle Michael Hallissy and John Hurley (2024): Einführung in generative und konversationelle KI, CC-BY 4.0, https://pressbooks.pub/aifurlehrer/chapter/an-introduction-to-generative-ai/ Gartner platziert generative KI am “Peak of Inflated Expectations” auf dem Hype Cycle for Emerging Technologies 2023 92 https://www.gartner.com/en/newsroom/press-releases/2023-08-16-gartner-places-generative-ai-on-the-peak-of-inflated-expectations-on-the-2023-hype-cycle-for-emerging- technologies Performance Dashboard generativer KI https://chat.lmsys.org/ 93 Die rasante Entwicklung von generativer KI Die rasante Entwicklung rund um generative KI Systeme führt für Wirtschaft und Gesellschaft zu zahlreichen Herausforderungen und bietet zugleich auch diverse Chancen. Neue Einsatzszenarien in Verwaltung, Forschung und Lehre; potenzielle Effizienzgewinne Aber auch: Offene (rechtliche) Fragen, fehlende Lizenzen als Hindernisse Generative KI als disruptive Technologie – daher wichtig rechtzeitig damit zu beschäftigen Mehr zu verschiedenen Anwendungsfällen in weiteren Lehrveranstaltung im Studium. Generative KI umfasst immer mehr Anwendungsbereiche. Mögliche Folgen von generativer KI auf den Menschen: Erste Implikationen aus der Forschung Neue Kenntnisse notwendig: KI Tools, deren Einsatzszenarien, möglichen Schwächen und Bias, ethische Aspekte der Nutzung Auch allgemeine Kenntnisse zum Umgang mit Informationen sind als Basis wichtig. Personen mit höherer Informationskompetenz scheinen einen positiveren Zugang zur Nutzung generativer KI-Tools aufzuweisen (Lund und Agbaji, 2023). Informationsprobleme können unter Nutzung generativer KI-Tools rascher gelöst werden (Xu et al., 2023) Lund, B.; Agbaji, D. (2023). Information Literacy, Data Literacy, Privacy Literacy, and ChatGPT: Technology Literacies Align with Perspectives on Emerging Technology Adoption within Communities (January 14, 2023). Available at SSRN: http://dx.doi.org/10.2139/ssrn.4324580. Xu, R.; Feng, Y.; Chen, H. (2023): ChatGPT vs. Google: A Comparative Study of Search Performance and User Experience (July 1, 2023). Available at SSRN: https://ssrn.com/abstract=4498671. Studie: Generative KI kann für den Lernfortschritt hinderlich sein Methodik: Fast 1000 Schülerinnen und Schüler der 9., 10. und 11. Klasse einer Schule in der Türkei Integration von ChatGPT als Hilfsmittel in 15% des Mathematikunterrichts. Kontrollgruppe ohne Zugang zu KI Kurzfristige Ergebnisse: Gruppe mit ChatGPT 48% Leistungssteigerung gegenüber Kontrollgruppe Langfristige Ergebnisse: 17% schlechtere Ergebnisse als Kontrollgruppe, nachdem ChatGPT-Verwendung eingestellt wurde Kernergebnis: Generative KI kann bei Lernen hinderlich sein Wird generative KI wie ChatGPT von Anfang an bei Erlernen neuer Kompetenzen eingesetzt, schränkt dies die Fähigkeit ein die neuen Kompetenzen später eigenständig ohne Hilfe von generativer KI anzuwenden Studie: Bastani, Hamsa and Bastani, Osbert and Sungu, Alp and Ge, Haosen and Kabakcı, Özge and Mariman, Rei, Generative AI Can Harm Learning (July 15, 2024). Available 96at SSRN: https://ssrn.com/abstract=4895486 or http://dx.doi.org/10.2139/ssrn.4895486 Hürden für den KI-Einsatz 97 Mögliche unterstützende Rollen generativer KI im Arbeitsalltag und betroffene Arbeitsfelder Bereich mit dem vsl. stärksten Rückgang an Planstellen 98 https://economictimes.indiatimes.com/tech/technology/how-exactly-does-generative-ai-impact-it-jobs/articleshow/101243345.cms?from=mdr Auswirkung generativer KI auf den Arbeitsmarkt 99 Herausforderungen generativer KI: Bias Wenn KI-Algorithmen mit einseitigen oder unvollständigen Datensätzen trainiert werden, können sie gesellschaftliche Ungleichheiten aufrechterhalten und verstärken. In KI-Systemen treten hauptsächlich zwei Arten von Bias auf: Bias aufgrund Daten (insb. aufgrund der Trainingsdaten) Bias aufgrund des Algorithmus Mögliche Konsequenzen von Bias bei KI: Unfaire Einstellungsverfahren, bei denen KandidatInnen mit bestimmten Hintergründen bevorzugt und andere unfair ausgeschlossen werden. Entscheidungen im Zusammenhang mit Strafjustiz, Kreditvergabepraktiken oder Gesundheitsfürsorge, wo sich Bias aufgrund von rassistischen, geschlechtsspezifischen oder sozioökonomischen Faktoren zeigen kann 100 KI Bias: Stereotypes 101 KI Bias: Stereotypes Aktuelle Studie der Stanford University, publiziert im renommierten Journal Nature “LLMs are more likely to give users of AAE (African American English) lower prestige jobs, more likely to convict them of a crime, and more likely to sentence them to death rather than life for committing a murder.” “These results show that using LLMs for making human decisions would cause direct harm to speakers of African American English” Press release on study: https://hai.stanford.edu/news/covert-racism-ai-how-language-models-are-reinforcing-outdated- stereotypes (Sept 3, 2024) 102 Implikationen für KI-Systeme aus der EU- Datenschutzgrundverordnung EU AI Act Annahme im EU-Parlament im März 2024 – erste Regeln treten bereits Ende 2024 in Kraft, die vollständige Umsetzung wird bis 2026 erwartet Das KI-Gesetz sieht erhebliche Strafen für die Nichteinhaltung der Bestimmungen zu verbotenen Systemen vor, mit Geldbußen von bis zu 35 Millionen Euro oder 7 % des weltweiten Umsatzes. Was ist die Botschaft? Bis Ende 2024 sollten keine verbotenen KI- Systeme in der EU mehr bereitstellt oder verwendet werden. Risk Scoring Scheme according to the EU AI Act Ausnahmen: a) AI models or systems used exclusively for scientific research b) Use of AI systems exclusively for household use c) Use of AI models for systems exclusively for military or defence purposes Verbotene Anwendungsfälle für KI nach dem EU AI Act Biometrische Kategorisierungssysteme, die sensible Merkmale wie politische oder religiöse Überzeugungen, sexuelle Orientierung oder ethnische Zugehörigkeit nutzen. Ungezieltes Durchsuchen des Internets oder von Aufnahmen von Überwachungsanlagen zur Erstellung von Gesichtsdatenbanken. Erkennung von Emotionen am Arbeitsplatz und in Bildungseinrichtungen eingesetzt werden Programme zur Manipulation von menschlichem Verhalten Anwendungen, die Schwächen von Menschen aufgrund Alter, Behinderung, sozialer oder wirtschaftlicher Situation ausnutzen Erstellung eines Benotungssystems für soziales oder persönliches Verhalten ("Social Scoring") Beispiel für von dem EU AI Act betroffene Anwendung Verbotener Anwendungsfall: Ungezieltes Durchsuchen des Internets oder von Aufnahmen von Überwachungsanlagen zur Erstellung von Gesichtsdatenbanken 108

Use Quizgecko on...
Browser
Browser