College 7 & 8 PDF
Document Details
Uploaded by SincereProtactinium9600
Universiteit van Amsterdam
Tags
Summary
This document details information retrieval and evaluation methods, including discussions on precision, recall, and accuracy. It also covers the concept of page rank and Markov chains. It explores how to measure user satisfaction and when search results are adequate. The document is likely from a university course.
Full Transcript
College 7 18-11 Waarom evalueren? Kijken of het doet wat het zou moeten doen Gebruikerstevredenheid is subjectief Je zou systemen willen kunnen vergelijken Hoe kan je gebruikerstevredenheid meten? Web search engine: observeren en kijken of gebruikers vinden wat ze willen...
College 7 18-11 Waarom evalueren? Kijken of het doet wat het zou moeten doen Gebruikerstevredenheid is subjectief Je zou systemen willen kunnen vergelijken Hoe kan je gebruikerstevredenheid meten? Web search engine: observeren en kijken of gebruikers vinden wat ze willen Web shop: kijken of gebruikers vinden wat ze willen en een aankoop doen Controlled experiment: gebruiker een taak geven om uit te voeren Zelf userqueries testen Waarom information retrieval -> mensen hebben information needs Wanneer is zoek resultaat goed? Information need is statisfied Relevante documenten worden gevonden hoe bepaal je relevantie? -> gevonden document moet zoekvraag beantwoorden De query is hierbij niet bepalend, het gaat om de uitkomst Relevance benchamark measuremnt requires: A benchmark document collection A benchmark set of information needs expressed as queries A relevance assesment for each query -document pair- Zo kan assessments automatisch plaatsvinden door automatische vergelijking Standard relevance benchamarks: Human experts: bepalen of elk document relevant of irrelevant is o Measuring Rater Agreement: twee beoordelaars 1 als ze overeen komen, 0 als ze niet overeen -1 volledig oneens komen met bepaling relevantie Cohen’s kappa: 2 beoordelaars Fleiss’ kappa: meer dan 2 beoordelaars What makes a result set better or worse? Precision: fractie van gevonden documenten die relevant zijn o TP/(TP+FP) Recall: fractie van relevante documenten die gevonden zijn o TP/(TP+FN) Wanneer is wat belangrijker? Web search -> precision Corporate database -> beide Search interface for patents -> Recall F-measure: harmonisch gemiddelde van precision en recall Kan verschillende gewichten hebben, maar hoef je niet echt te weten Accuracy: Ieder document is relevant of niet relevant. Hierdoor wordt accuracy de fractie van correcte classificatie. Daarom is Accuracy niet handig om te gebruiken Bijvoorbeeld 0 resultaten is 100% accuraat Evaluation of ranked results: Meer documenten: o Recall neemt toe o Precision neemt af We willen een soort gemiddelde vinden -> we willen 1 waarden (geen curve) Interpolated precision: hoogste precision bij hoogste recall Andere manieren (betere): Mean Average Precision (MAP): ook naar de statistische variantie kijken: Een systeem kan anders reageren op verschillende zoektermen Variantie tussen queries geeft de variantie tussen systemen weer College 8 21-11-2024 Wanneer term-ranking breaks: Wanneer we zoeken voor “ibm” onderscheid maken in:’ o IBM’s copyright page (hoge term frequenty) o Spam page van concurrent (ook hoge term frequenty) o IBM’s homepage (termen komen vooral voor in foto’s etc) Links and Anchors: Idea 1: hyperlink tussen pagina’s, kan gezien worden als Quality Signal Anchor Tekst: allemaal verschillende inputs, zoals: “IBM”, “ibm” etc. Crowd annotation: een link leggen tussen anchor tekst en pagina, zodat als op een bepaalde term wordt gezocht soortgelijken kunnen returnen omdat ze een link hebben. Citation frequency: hoe vaak is een document gelinkt (je kan naar citaties kijken) Co-citation: docuementen of artikels worden vaak samen gelinkt vanuit een artikel(omdat er samenhang is tussen de verschillende documenten of artikelen) Shared references: artikelen die samen linken naar het zelfde artikel (of documenten) Sores op basis van link analysis: Page rank (google) HITS (hyperlink-induced Topic Search) TrustRank (Yahoo!) Idee achter page rank: Hoe kunnen we gebruik maken van de informatie van hyperlink Recommendations from important persons are more impressive Link van belangrijke pagina is belangrijker Daarmee kunnen we de belangrijkheid van de pagina bepalen Berekening achter page rank: Voorbeeld: Doorgaan met iteraties tot dat er geen verschil meer ontstaat Source: pagina zonder inkomende link (zie voorbeeld 2) Sink: pagina zonder uitkomende link (zie voorbeeld 3) Simplified pagerank: Link leak pagrank, sources worden niet meegenomen Full pageRank: teleport Uitgaande van een ranom web “surfer” standaard berekeing: Voorbeeld: Je kan ook model PageRank met behulp van Markov Chains: Voorbeeld: makov Cain en adjacency matrix Termen binnen Markov Chain: Strongly connected: wanneer ieder punt uit ieder punt bereikbaar is Aperiodic: voor iedere punten i en j er is een k zo dat voor iedere K>k er is een pad van i naar j ter lengte K Teleport connects ieder twee punten Stationary solution: na een bepaald aantal stappen de verandering in distributie word kleiner (convergent) Stationary solutions do not depend on initial probabilities Van adjacency matrix naar Markov chain: Als rij een 1 bevat verang ieder element voor 1/N Anders deel iedere 1 door aantal 1’en in rij Vermenigvuldig matrix met (1-a) + a/N voor iedere entry van de matrix om P te krijgen (uiteindelijke matrix) Voorbeeld: Lim-> inf = gaat naar (0,475 0,475 0,05)