Het belang van toetsen PDF

Summary

This document discusses the importance of testing in education, covering different types of assessments and their validity and reliability. It looks at the various factors that affect the quality of testing and how teachers can improve their assessment practices. It includes details about the importance of creating valid and reliable tests. The document is aimed at educators and students.

Full Transcript

# Het belang van toetsen ## Hoofdstuk 1: Het belang van toetsen Docenten zijn belast met de toetsing van studenten. Dit is geen lichte verantwoordelijkheid. Niet alleen omdat het niet gemakkelijk en erg tijdrovend is, maar vooral omdat de toets (uitslag) belangrijk is voor verschillende groepen. I...

# Het belang van toetsen ## Hoofdstuk 1: Het belang van toetsen Docenten zijn belast met de toetsing van studenten. Dit is geen lichte verantwoordelijkheid. Niet alleen omdat het niet gemakkelijk en erg tijdrovend is, maar vooral omdat de toets (uitslag) belangrijk is voor verschillende groepen. In de eerste plaats voor de leerlingen. De toetsuitslag is voor hen de afrekeningsfactor van hun studie-inspanningen. Ze hebben gestudeerd voor een voldoende of meer. Voor de docenten zijn toetsen belangrijk, omdat deze informatie kunnen geven over de kwaliteit van hun onderwijs. Hebben leerlingen hoge cijfers, dan is het onderwijs kennelijk goed geweest (of de toets is veel te makkelijk geweest; zie daarvoor hoofdstuk 2). Verder zijn toetsen erg belangrijk voor de school. Toetsen zijn bepalend voor de voortgang en de determinatie van de leerlingen. Ze bepalen de overgang naar een hogere klas of de promotie/degradatie naar een ander niveau. ## Het belang van goede toetsen ### Toetsvormen De toetsvormen die hier worden besproken, vallen onder de definitie van Van Berkel en Bax (2006): elk instrument dat de docent hanteert bij het nemen van beslissingen over de kennis en/of vaardigheden bij een leerling. Dit kan een summatieve of een formatieve toets zijn, met open en/of gesloten vragen, maar ook een eindgesprek, een scriptie, een voordracht of het maken van een opdracht. Daarnaast zijn er nog veel meer toetsvormen, zoals de casustoets, het portfolio en de vaardigheidstoets. De docent kiest niet alleen voor een onderwerp, maar maakt ook een afweging op welke wijze hij de kennis en vaardigheid van zijn leerlingen kan toetsen. Een aantal toetsvormen komen tijdens deze module niet verder aan de orde. Wel is het van belang dat u er van gehoord hebt. Deze module legt de nadruk op het vervaardigen van de juiste vragen en de criteria waar een toets aan moet voldoen. Criteria voor de beoordeling van scripties, voordrachten en opdrachten zult u elders aanleren. ### De bekendste vormen van evaluatie van cognitieve leerresultaten zijn: 1. Mondelinge toets 2. Schriftelijke toets (repetitie, proefwerk, tentamen, examen) waarbij alle mogelijke vragenvormen kunnen worden gebruikt. Leerlingen moeten voor verschillende vakken verschillende kennis en vaardigheden (aan) leren. Voor wiskunde zijn dat sommen, bij Nederlands (en andere vakken) spreekbeurten, bij biologie, natuurkunde en scheikunde practicumopdrachten en bij verzorging kookopdrachten (bijvoorbeeld pannenkoeken). Qua opdrachten ligt een rijke voorraad evaluatiemiddelen gereed die met name geschikt zijn om, naast het toepassen van leerstof, het zelfstandig en samenwerkend leren te bevorderen. Denk hierbij aan opdrachten waarin leerlingen gezamenlijk aan een opdracht werken. Dit kan een analyseopdracht zijn, waarin leerlingen verschillende kranten bekijken. Het kan ook een opdracht zijn waar leerlingen een videoverslag moeten maken over de verkiezingscampagne van politieke partijen bij een vak zoals maatschappijleer. Welke vorm of variant de docent ook kiest; hij zal een duidelijk beeld moeten hebben welke vaardigheden en/of kennis hij wil toetsen. ## Validiteit en betrouwbaarheid Een leraar die een proefwerk opstelt, streeft ernaar dat de uitslag zo precies mogelijk zal aangeven hoe het op dat moment met de (op het toetsonderwerp betrekking hebbende) kennis van zijn leerlingen is gesteld. Met andere woorden: hij probeert een betrouwbaar evaluatiemiddel te maken. Met de betrouwbaarheid van een evaluatiemiddel wordt de mate van nauwkeurigheid bedoeld, waarmee het leerresultaten meet. Hoge betrouwbaarheid impliceert weinig meetfouten. Wanneer een toetsing herhaald wordt, op een ander tijdstip of met een andere beoordelaar, moet bij benadering hetzelfde resultaat worden geboekt daarom heet betrouwbaarheid ook wel reproduceerbaarheid. De resultaten van een meting mogen niet te veel beïnvloed worden door storende factoren (ruis). Een leerling mag niet ten onrechte een voldoende of onvoldoende krijgen. Bronnen van meetfouten vinden hun oorsprong in de vormgeving van het evaluatiemiddel, de afnamesituatie en de nakijkprocedure. ## Validiteit Met de validiteit van een evaluatiemiddel wordt bedoeld dat het middel in werkelijkheid moet meten wat het zegt te meten. Wanneer bijvoorbeeld in een rekentoets de opgaven zo zijn geformuleerd dat ze hoge eisen stellen aan tekstbegrip, dan meet de toets niet alleen rekenvaardigheid, maar ook de taalvaardigheid. Deze toets meet dus, behalve waarvoor hij bedoeld is, ook nog andere kennis of een andere vaardigheid. Een toets is dan minder valide (= geldig). Een valide evaluatiemiddel representeert de leerdoelen op juiste en evenwichtige wijze. Validiteit heeft zowel betrekking op het gedragsaspect (de vaardigheden) als op de leerstof van de te evalueren leerdoelen. ### Inhoudsvaliditeit De inhoudsvaliditeit betreft de vraag of de vragen en/of opdrachten in het evaluatiemiddel – de toets een evenwichtige afspiegeling vormen van/een representatieve steekproef zijn uit de bestudeerde leerstof. Het evaluatiemiddel moet in bevredigende mate de stof dekken. Een mondeling litera-tuurexamen over tien boeken waarin slechts drie boeken worden besproken, voldoet niet aan deze eis. Met een blauwdruk van een toets (toetsmatrijs) is na te gaan in hoeverre het evaluatiemiddel een verzameling cognitieve doelstellingen dekt naar inhoud en beheersingśvorm. ### Vormvaliditeit Vormvaliditeit gaat over de vraag: komen de vaardigheden/beheersingsvormen van de vragen en/of opdrachten in het evaluatiemiddel overeen met de beoogde, respectievelijk uitgevoerde beheersingsvormen? Indien bijvoorbeeld een toets pretendeert convergent denken te meten, dan moet er ook inderdaad op deze beheersingsvorm een appel worden gedaan en niet alleen op reproductie van kennis. ## Kwaliteit van het evaluatiemiddel De twee belangrijkste betrouwbaarheidsverlagende factoren in toetsen zijn meerduidige vragen/opdrachten en te weinig toetsvragen, waardoor subjectieve interpretaties en pech of geluk een te grote rol gaan spelen. De betrouwbaarheid van een toets is hoger, naarmate deze meer vragen bevat en de formulering van de vragen eenduidiger is. De vragen mogen niet te gemakkelijk zijn, maar ook niet te moeilijk. De betrouwbaarheid van toetsingen neemt toe, naarmate vaker een toetsing plaatsvindt en de resultaten hiervan worden gemiddeld. ## Nakijkprocedure Er is vaak onderzoek gedaan naar correlaties tussen beoordelingen van proefwerken met open vragen of werkstukken van een groep leerlingen die door verschillende, onafhankelijk van elkaar werkende, competente beoordelaars zijn nagekeken. Het ging hierbij met andere woorden om de intersubjectieve overeenstemming. Het blijkt dat deze overeenstemming doorgaans laag is. De beoordelingsvariabiliteit is groot. In de volgende paragraaf zijn de belangrijkste vertroebelende factoren die de docent inbrengt, op een rij gezet. ## Beoordelingseffecten Het beoordelen of nakijken van proefwerken of opdrachten is niet altijd even objectief. Er liggen een aantal gevaren op de loer. Moeheid, irritatie of een ongelukkige thuissituatie kunnen voor een strenge normering zorgen. Aan de andere kant kan een fijn ontspannen weekend, een lieve partner of een fijne vriendengroep zorgen voor een mildere beoordeling. Daarnaast kan het belang dat de docent hecht aan zijn vak, bepalen of hij streng of mild beoordeelt. ### De beoordelaar is ook maar een mens Als voormalig docent Nederlands weet ik wat corrigeren is. Stapels werk heb ik mee naar huis genomen, opstellen, samenvattingen, scripties die ik met behulp van vakkennis, gezond verstand en frisse moed te lijf ging. Het correctiemodel zat in mijn hoofd. Waar vakkennis als een ingebrand keurmerk nog wel standhield, daalde tijdens de soms nachtelijke uren het peil van het gezond verstand en de frisse moed tot een nulpunt. Van corrigeren, in de zin van 'fouten verbeteren' was in het begin nog wel iets aanwezig, maar gaandeweg werden de aanwijzingen schimmiger of zelfs ronduit beledigend, zoals 'hier staat echt onzin!' Leerlingen waarvan het werk op latere uren werd nagekeken moesten het meermaals ontgelden. Diverse opvattingen, gewoontes en werkwijzen van beoordelaars verlagen de objectiviteit van de beoordelingen. ### De belangrijkste beoordelaarseffecten zijn: 1. Norminstabiliteit en persoonlijke beoordelingstendentie 2. Uitstralingseffecten (of halo-effect) 3. Opvattingseffect 4. Volgorde-effect 5. Contaminatie-effect. ### Norminstabiliteit en persoonlijke beoordelingstendentie Bij beoordelingen van leraren is vaak geen sprake van een constante in de beoordelingsnormen. In de praktijk past de docent de aan te leggen normen bewust of minder bewust aan, afhankelijk van het gemiddelde prestatieniveau van de groep leerlingen. De standaard van de beoordelaar kan tijdens het beoordelingsproces verschuiven. Ook verschillen in persoonlijke beoordelingstendentie zorgen voor verschil in normstelling. Sommige leraren beoordelen gewoontegetrouw streng, andere mild. Sommige leraren hebben de neiging alle cijfers min of meer rond het gemiddelde te houden, andere durven meer extreem hoge en lage cijfers geven. Het maakt behoorlijk verschil als bijvoorbeeld een werkstuk beoordeeld wordt door een docent die meer gespreid cijfert of door een docent die meer modaal cijfert. Leerlingen die een uitstekend werkstuk hebben geschreven, zijn het meest gebaat bij het eerste type beoordelaar; leerlingen die een slecht werkstuk maken, hebben geluk als ze een docent treffen die geen zeer lage cijfers uitdeelt. Ook vermoeidheid kan een rol spelen bij beoordeling. De eerste proefwerken van een grote stapel worden vaak nauwkeuriger of strenger nagekeken dan de overige. ### Uitstralingseffecten (halo-effect) 'Halo' betekent letterlijk 'stralingskrans'. Van een halo-effect is sprake als er een uitstraling (storende invloed) uitgaat van bijkomstige kenmerken op de beoordelingsuitkomst, bijvoorbeeld: 1. De leesbaarheid van het handschrift van de leerling. 2. De netheid van het ingeleverde werk. 3. Spelfouten of grammaticale onjuistheden (bij zaakvakken zoals geschiedenis). 4. De reputatie van de leerling. 5. Sympathie of antipathie naar een bepaalde leerling toe. Dergelijke niet ter zake doende kenmerken zouden geen invloed op de waardering mogen hebben, men toetst bij biologie en geschiedenis namelijk geen Nederlands. De evaluatie moet zo veel mogelijk gebaseerd zijn op de relevante kenmerken van de geleverde prestatie. ### Opvattingseffect Het opvattingseffect betreft de storende invloed die uitgaat van verschillen in kennis en inzichten (opvattingen) die bij leraren kunnen bestaan bij het beoordelen, met name de verschillen in het belang dat een leraar toekent aan verschillende aspecten van de geleverde prestatie. Bekend is bijvoorbeeld dat bij het corrigeren van scripties verschil in mening over datgene waardoor een goede scriptie zich kenmerkt, grote invloed heeft op de waardering. Enige van zulke verschillend gewaardeerde aspecten zijn logische opbouw, taalgebruik, leesbaarheid, spelling, argumentatie, brongebruik etc. ### Volgorde-effect Het volgorde-effect ontstaat door de onbedoelde nawerking van eerdere beoordelingen. Na een aantal bijzonder slechte repetities is een redelijke prestatie een verademing voor de docent. De voorliggende prestaties contrasteren met de eerder gemaakte repetities. In plaats van een redelijke 'zes' is de docent eerder geneigd naar een 'zeven' of hoger. Het omgekeerde kan zich ook voordoen. Als een goede leerling eenmaal heeft gepresteerd, kan de docent dermate teleurgesteld zijn dat een logische 'vijf' verandert in een 'vier' of lager, ter waarschuwing. ### Contaminatie-effect Bij het evalueren kunnen oneigenlijke oogmerken van een docent de objectieve beoordeling 'besmetten'. Contaminatie betekent letterlijk 'besmetting'. Er zijn leraren die een goed figuur willen slaan door zo veel mogelijk leerlingen met mooie cijfers te laten overgaan. Er zijn leraren die de status van hun vak willen verhogen en daarom laag gaan cijferen. Het vak is immers o zo moeilijk. Het komt voor dat een leraar, om een leerling niet te ontmoedigen, 'genade-zesjes' gaat geven. Omgekeerd gebeurt het ook dat docenten extra streng zijn en eerder een 'vijf' geven, om de leerling aan te sporen betere prestaties te leveren. ## Betrouwbaar toetsen Onvoldoende kwaliteit van het evaluatiemiddel, storende invloeden in de afnamemethode en subjectiviteit van de beoordeling zorgen voor meetfouten. Verschillende maatre-gelen kunnen de betrouwbaarheid van de metingen van leerprestaties verhogen. ### Kwaliteit van het evaluatiemiddel 1. Formuleer de vragen ondubbelzinnig (zodat over het verwachte antwoord geen misverstand kan ontstaan). 2. Zorg ervoor dat de toets uit een voldoende aantal vragen bestaat om de volledige leerstof te bestrijken. De betrouwbaarheid neemt toe met de toetslengte. Het is immers zo dat naarmate de steekproef van vragen representatiever is voor wat is geleerd, de kans dat deze steekproef voor de leerling gelukkig of ongelukkig uitvalt, kleiner is. (Een toets mag echter ook niet veel te lang zijn, omdat dan de vermoeidheid toeslaat). 3. Het antwoord op een vraag moet niet bij een volgende vraag te vinden zijn. 4. Rangschik de vragen zo veel mogelijk in volgorde van oplopende moeilijkheid, maar eindig met een paar makkelijke vragen (in verband met de inspannings- en concentratiepiek). 5. Plaats de vragen chronologisch/per onderwerp bijeen. Dit voorkomt onnodig schakelen bij de leerling. ### Afnamesituatie 1. Zorg ervoor dat leerlingen tenminste enige ervaring hebben met het type vragen, zodat ze weten wat ze kunnen verwachten. 2. Stel de leerlingen vooraf op de hoogte van correctie en de eventuele weging van vragen. 3. Maak bekend welke hulpmiddelen (bijvoorbeeld een woordenboek of atlas) zijn toegestaan. 4. Geef de leerlingen voldoende tijd om de opgaven te maken en stel ze vooraf op hoogte van de beschikbare tijd. Want haastige spoed is zelden goed. Informeer leerlingen over de tijd die verstrijkt en waarschuw ze op tijd (nog tien minuten). 5. Zorg ervoor dat leerlingen niet worden gestoord. 6. Let op dat afkijken en spieken niet plaatsvinden. Als leerlingen te weinig tijd krijgen om de gestelde vragen/opdrachten op hun gemak te kunnen maken, komt dit de betrouwbaarheid van de toetsing niet ten goede. Ook omgevingsfactoren zijn van belang. Lawaai of een te hoge of te lage temperatuur verlagen de betrouwbaarheid. Waar leerlingen kunnen spieken of op een andere manier fraude kunnen plegen, verhoogt dit (misschien) wel hun cijfer, maar niet de betrouwbaarheid van de meting. ## Betrouwbaarheid Betrouwbaarheid is een noodzakelijke voorwaarde voor de validiteit van een toets. Een onbetrouwbare toetsing kan niet valide zijn, omdat deze naast de bedoelde kennis en vaardigheden storende invloeden (ruis) meet. Hoge betrouwbaarheid is echter geen garantie voor validiteit. Een voorbeeld: een toets voor geschiedenis over een bepaald tijdvak waarin vragen over jaartallen gaan, kan deze kennis van jaartallen precies meten (betrouwbaar zijn). Als het doel van de geschiedenislessen echter niet het reproduceren van jaartallen was, maar inzicht in de betekenis van een gebeurtenis voor het heden, is de toets zeker niet valide. Sterker nog, het schiet zijn doel voorbij. ## Meten, normeren, waarderen en beslissen Aan evalueren of beoordelen van leerprestaties is een viertal aspecten te onderscheiden, te weten: meten, normeren, waarderen en beslissen. Het meten betreft het zo precies mogelijk in kaart brengen van toetsprestaties. Bijvoorbeeld het tellen van het aantal goed beantwoorde vragen en het aantal gemaakte fouten. De twee belangrijkste kwaliteitseisen voor het meten zijn betrouwbaarheid (precisie) en validiteit (geldigheid). Het belangrijkste punt bij het normeren betreft de bepaling van de grens tussen voldoende en onvoldoende. Wanneer voldoet een leerling aan de door de docent gestelde eis en vooral wanneer niet? De grens kan achteraf worden gesteld op basis van de feitelijke prestaties van de leerling (relatief normeren), of vooraf op grond van de door de docent beoogde doelen (absoluut normeren). Het resultaat van de meting wordt omgezet in een waardering, doorgaans in een cijfer. Aan waarderingen worden in de meeste gevallen beslissingen verbonden. Deze beslissingen kunnen de voortgang van de leerling betreffen (promotie of doublure) of leiden tot het vaststellen van kennislacunes. Beslissingsregels geven aan welk gewicht moet worden toegekend aan verschillende toetsen en welke compensatiemogelijkheden er zijn. Bij grensgevallen, waarin sprake is van geringe verschillen in meetresultaat en waarderen, kunnen de genomen beslissingen evenwel sterk verschillen, bijvoorbeeld bij een vijf plus (5+) of een zes min (6-). Het spreekt voor zich dat goede beslissingen gebaseerd moeten zijn op een verantwoorde normering en waardering en dat deze op hun beurt moeten berusten op nauwkeurige metingen. Het volgende schema van Titus Geerligs (2002) helpt bij het maken van een juiste keuze qua toetsing: ``` Beslissen ^ | | | Waarderen ^ | | | Normeren ^ | | | Meten ^ | | | EVALUATIE ^ | | | Evaluatie voor leerresultaten ^ | | | Mondeling Schriftelijk ^ ^ | | | | Open vragen Gesloten Presentaties Opdrachten Rapportages Werkstukken vragen ``` **Afb. 1. Het schema van Geerligs.** ## Conclusie Er zitten een aantal haken en ogen aan het vervaardigen van goede toetsen. De verantwoordelijkheid is immers niet mals. Het bepaalt uiteindelijk het niveau en de mogelijke promotie of doublure van de leerling. Om hier zorgvuldig mee om te gaan, zijn er een aantal ijkpunten waar de docent zich aan vast kan klampen. Allereerst, is de toets valide en betrouwbaar? Daarnaast kan de 'mood' waar de docent in zit, bepalen hoe streng of mild hij het geleverde werk van de leerling beoordeelt. Het belangrijkste is dat de docent een duidelijk toetsdoel voor ogen heeft: 'wat wil ik nu eigenlijk toetsen?'. Daarnaast moet hij bewust zijn van de mogelijke gevaren die op de loer liggen bij de keuze van zijn toetsvorm. Het schema van Geerligs helpt bij deze keuze.

Use Quizgecko on...
Browser
Browser