Testtheorie PDF
Document Details
Uploaded by ForemostTulip
Universiteit van Amsterdam
2006
P.J.D. Drenth, K. Sijtsma
Tags
Summary
De vierde herziene druk van het boek 'Testtheorie' behandelt de theorie van psychologische tests en hun toepassingen. Het boek gaat dieper in op de constructie van items en kwantificering van reacties op items, en behandelt diverse aspecten van testtheorie zoals de bepaling van betrouwbaarheid en validiteit. Geschikt als studieboek voor universitaire opleidingen.
Full Transcript
Testtheorie Testtheorie Inleiding in de theorie van de psychologische test en zijn toepassingen prof. dr. P.J.D. Drenth prof. dr. K. Sijtsma Vierde, herziene druk Bohn Stafleu van Loghum Houten 2006 Ó 2006 Bohn Stafleu van Loghum, Houten Alle rechten voorbehouden. Niets uit deze uitgave mag wo...
Testtheorie Testtheorie Inleiding in de theorie van de psychologische test en zijn toepassingen prof. dr. P.J.D. Drenth prof. dr. K. Sijtsma Vierde, herziene druk Bohn Stafleu van Loghum Houten 2006 Ó 2006 Bohn Stafleu van Loghum, Houten Alle rechten voorbehouden. Niets uit deze uitgave mag worden ver- veelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen, of enig andere manier, zonder voorafgaande schriftelijke toestemming van de uitgever. Voor zover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel 16b Auteurswet 1912 j8 het Besluit van 20 juni 1974, Stb. 351, zoals gewijzigd bij Besluit van 23 augustus 1985, Stb. 471 en artikel 17 Auteurswet 1912, dient men de daarvoor wettelijk verschul- digde vergoedingen te voldoen aan de Stichting Reprorecht (Postbus 3051, 2130 KB Hoofddorp). Voor het overnemen van (een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatie- werken (artikel 16 Auteurswet 1912) dient men zich tot de uitgever te wenden. ISBN 90 313 4747 7 NUR 776 Ontwerp omslag: designwork-bno, Deventer Ontwerp binnenwerk: Studio Bassa, Culemborg Automatische opmaak: Pre Press, Zeist Eerste druk, 1965 Tweede druk, 1975 Derde druk, 1990 Vierde druk, 2006 Bohn Stafleu van Loghum Distributeur in België: Het Spoor 2 Standaard Uitgeverij Postbus 246 Mechelsesteenweg 203 3990 GA Houten 2018 Antwerpen www.bsl.nl www.standaarduitgeverij.be Woord vooraf Voor u ligt een boek met een lange geschiedenis. De eerste editie van de hand van de eerste auteur verscheen in 1965 en werd in 1975 ge- volgd door de tweede editie. In 1990 verscheen met medewerking van de tweede auteur de derde editie. Het voorliggende boek is de vierde, opnieuw ingrijpend gewijzigde en aangepaste editie. Waar liggen de overeenkomsten en verschillen met zijn voorganger? Eerst maar eens de overeenkomsten. Zo is de indeling van hoofd- stukken gehandhaafd; er is alleen een nieuw vierde hoofdstuk bijge- komen dat handelt over de constructie van items en de kwantificering van reacties van personen op items. Daarmee staat het totale aantal hoofdstukken nu op tien. De reden voor het handhaven van deze indeling is dat de hoofdstukken een soort van procedurele volgorde weergeven van het proces van denken over tests en hun constructie. Dus, eerst een historische reflectie (hoofdstuk 1), gevolgd door een uiteenzetting over wat een test is, wat zijn eigenschappen dienen te zijn, wat meten is en hoe het proces van het ontwerpen en maken van een test verloopt (hoofdstuk 2). Vervolgens een overzicht van soorten tests, inclusief een paar concrete voorbeelden (hoofdstuk 3), en daar- na een verhandeling over de bouwstenen van tests, de items, en hoe men reacties van personen op items getalsmatig kan bewerken (hoofdstuk 4). De volgende stap (hoofdstuk 5) betreft het voorleggen van een test aan personen en het toekennen van testscores, en ook hoe men die scores op een begrijpelijke manier kan weergeven. Dan komen de meer technisch-statistische hoofdstukken aan de orde. Eerst (hoofdstuk 6) de bepaling van de betrouwbaarheid volgens de klassieke testtheorie en hiermee samenhangende onderwerpen, ver- volgens (hoofdstuk 7) de bepaling van de kenmerken en de kwaliteit 6 Testtheorie van de test door middel van de moderne testtheorie zoals gevat in de item-responstheorie. Dan komt het bepalen van de validiteit van tests aan bod (hoofdstuk 8) en ten slotte (hoofdstuk 9) wordt de aandacht gericht op het gebruik van tests voor advisering, bijvoorbeeld bij school- en beroepskeuzevragen, in de klinische diagnostiek en bij het nemen van praktische beslissingen over toelating of afwijzing van individuen in onderwijs- en arbeidsorganisaties. Het boek wordt in het laatste hoofdstuk (10) afgesloten met een verhandeling over enkele belangrijke ethische en maatschappelijke problemen met betrekking tot testgebruik. Steeds is geprobeerd om voldoende diepgang te koppelen aan hel- derheid. Overigens is de moderne testtheorie al heel wat verder dan wat in dit boek aan de orde wordt gesteld. Moderne testtheorie zoals die in het zevende hoofdstuk wordt behandeld, wordt tegenwoordig vaak ingebed in een omvattende behandeling van statistische metho- den, zodat de vergelijking van groepen (bijv. samengesteld op basis van schooltypen, onderwijsmethoden, ontwikkelingsniveau), de af- hankelijkheid van testgegevens binnen deze groepen, en de relatie met andere variabelen in een theoretisch netwerk, in één onderzoeksopzet kunnen worden meegenomen. Dit zijn zeer belangrijke ontwikkelin- gen, maar ze veronderstellen een uitvoerige kennis, niet alleen van de toetsende statistiek maar ook van allerlei nogal gevorderde onder- zoeksmethoden, die in bacheloropleidingen doorgaans niet of onvol- doende aan de orde komen. Om de geı̈nteresseerde student niet in de kou te laten staan, bevat dit boek een groot aantal referenties. Met behulp daarvan kan men zich nader op de hoogte stellen. Ter ontnuchtering kan worden vastgesteld dat het gros van de tests en vragenlijsten vandaag de dag nog steeds met behulp van de klassieke testtheorie en de factoranalyse wordt geconstrueerd. Vandaar dat wij hier nog steeds veel aandacht aan besteden. Overigens moet het aantal onderzoekers dat toch steeds meer gebruik maakt van de item-res- ponstheorie om op basis daarvan, vaak nog in combinatie met klas- sieke methoden, hun tests te construeren, niet worden onderschat. In een belangrijk instituut voor toetsontwikkeling als het cito geldt de item-responstheorie al als een standaard. De verwachting is dat deze ‘revolutie’ zich ook verder doorzet, ook al vertoont de praktijk van de testconstructie in Nederland vooralsnog een opvallende hang naar het gebruik van de klassieke methoden. Woord vooraf 7 Er is in dit boek gekozen voor een behandeling van in hoofdzaak reeds gevestigde methoden en procedures, met inbegrip van de item-res- ponstheorie. De reden hiervoor is dat dit een lesboek is dat in het algemeen aan het begin van een studie zal worden gebruikt. Dan dient men zich, naar onze mening, te beperken tot zaken die algemeen aanvaard zijn. Ook al biedt de moderne testtheorie talloze interessante ontwikkelingen en is de verleiding groot hierover eens uit te pakken, men moet zich ook realiseren dat nogal wat van deze ontwikkelingen ‘ver voor de troepen uitlopen’, en dat het, los van hun vaak opvallende vernuftigheid, toch meestal nog onduidelijk is in hoeverre zij zullen stand houden, laat staan doorbreken, in de test-, toets- en vragen- lijstconstructie. Een lesboek voor de beginnende student dient de lezer juist op de hoogte te stellen van de gangbare en geaccepteerde be- ginselen van het vak en nieuwere ontwikkelingen aan te stippen. Overigens bieden diverse universitaire opleidingen cursussen over de meer geavanceerde onderwerpen aan, en kunnen wij geı̈nteresseerde studenten aanraden zich vooral bij hun docenten te melden. Die kun- nen hen dan zonder moeite verder helpen. Vervolgens de verschillen ten opzichte van de vorige editie. Het eerste wat zal opvallen in vergelijking met de editie uit 1990 is het taalge- bruik. Misschien is dit verschil niet zo spectaculair, maar het trof ons dat, na een aanvankelijk grote waardering van de kant van de lezers, zich in de loop van de jaren negentig een kentering in deze mening leek voor te doen. Vond men het boek aanvankelijk helder geschreven, latere generaties vonden de stijl en het taalgebruik nogal ouderwets en nodeloos ingewikkeld. In deze editie is daarom getracht om hierin verbetering te brengen door de dingen zakelijker en bondiger te for- muleren, zonder overigens te vervallen in overdreven taalkundige eenvoud. Een andere wijziging heeft betrekking op de uitleg van veelal inge- wikkelde begrippen en procedures. Tot in de jaren negentig van de vorige eeuw was het aan de universiteiten nog gebruikelijk om een redenering of een bewijs niet helemaal uit te leggen en de student zelf te laten zoeken naar ontbrekende schakels en oplossingen. Een mooi voorbeeld hiervan vormen de vaak gevorderde statistiekboeken, waarin sommige afleidingen of oplossingen niet in de hoofdtekst worden behandeld maar door de lezer zelf via het maken van opgaven moeten worden gevonden. In de huidige tijd is het onderwijs veel meer gericht op het aanbieden van kant-en-klare modules, inclusief alle oplossingen, en lijkt men ernaar te streven alle onzekerheid over hoe 8 Testtheorie de vork nu precies in de steel zit te vermijden door alles precies uit te leggen. Hoe men daar ook over denkt, een modern lesboek moet hiermee rekening houden. Deze editie biedt daarom meer uitleg en concrete voorbeelden dan de vorige, hoewel we niet hebben willen uitsluiten dat het maken van opgaven tot aanvullende inzichten kan leiden. Daarmee is een derde vernieuwing genoemd. Elk hoofdstuk wordt nu afgesloten met een serie vragen en opdrachten. Het oefenen van de stof door middel van deze vragen en opdrachten is naar onze mening een goede manier om na te gaan of men de stof beheerst, maar ook om nieuwe inzichten te ontwikkelen. Waar het berekeningen betreft zijn de antwoorden te vinden op de website van de uitgever, uiteraard bij voorkeur pas te raadplegen ná het uitvoeren van de opdrachten. Een vierde vernieuwing is de toevoeging van een verklarende appendix waarin de statistische begrippen zijn opgenomen die men in dit boek nodig heeft. Opnieuw hebben wij gemeend ons te moeten beperken tot een descriptieve behandeling van de testtheorie, ook al worden begrippen als steekproef en populatie en steekproevenverdeling niet gemeden. Onze keuze is echter ingegeven door de overtuiging dat het van het grootste belang is in dit boek studenten vertrouwd te maken met de logica, de procedures en de belangrijkste begrippen van de testtheorie. Ook al is het formele deel van de testtheorie een specia- lisatie van de statistiek, toch menen wij dat in een inleiding niet onnodig veel lastige zaken tegelijk de revue moeten passeren. Een vollediger begrip van de veelzijdige testtheorie kan in een later stadi- um van de studie zonder veel bezwaar worden verkregen in combi- natie met de inmiddels opgedane kennis van de toetsende statistiek. Een vijfde vernieuwing betreft het nieuwe hoofdstuk 4 over de con- structie van items en de kwantificering van reacties op die items. In voorgaande edities vormde dit onderdeel in sterk verkorte vorm een onderdeel van hoofdstuk 3, maar het werd door ons toch te belangrijk gevonden om zo onopvallend te blijven. Wij hopen uiteraard met de uitvoerige behandeling van de vraag hoe een echte test of vragenlijst er uitziet de stof minder abstract te hebben gemaakt. Hiertoe draagt wellicht ook bij dat in hoofdstuk 3 niet alleen een overzicht van soorten tests wordt gegeven, maar dat nu ook drie echte tests bij wijze van voorbeeld meer in detail worden behandeld. Woord vooraf 9 Tot slot willen wij de volgende collega’s danken voor hun bijdragen aan de totstandkoming van de huidige editie van dit boek: Andries van der Ark, Luc van Baest, Samantha Bouwmeester, Hans Landsheer en Rob Meijer gaven commentaar op voorversies van diverse hoofdstuk- ken, Wilco Emons leverde de figuren, Jos ten Berge en Frits Zegers stelden enkele opgaven bij hoofdstuk 6 en de appendix ter beschik- king, en Arne Evers verschafte informatie over een aantal tests. Vele, niet genoemde collega’s inspireerden ons in de afgelopen decennia tot onze huidige inzichten en standpunten. Wij blijven uiteraard zelf ver- antwoordelijk voor de inhoud van dit boek, inclusief eventuele on- juistheden. Pieter J.D. Drenth Klaas Sijtsma Amsterdam/Bussum, voorjaar 2006 Inhoud Woord vooraf 5 1 Historische ontwikkeling van het testen 15 1.1 Periode tot het verschijnen van de Binet-Simon- test 16 1.2 Periode tussen het verschijnen van de Binet- Simon-test en de Eerste Wereldoorlog 20 1.3 Van het begin van de Eerste tot de Tweede Wereldoorlog 22 1.4 Van het begin van de Tweede Wereldoorlog tot heden 28 1.4.1 Ontwikkelingen in de Verenigde Staten 28 1.4.2 Ontwikkelingen in Europa, vooral in Nederland 32 Opdrachten 35 2 Definitie, kenmerken en toepassingen van de test 38 2.1 Wat is een test? 38 2.1.1 Onderdelen van een test 38 2.1.2 Eerste omschrijving 40 2.1.3 Kenmerken van een test 41 2.2 Meten van eigenschappen door middel van tests 53 2.2.1 Meetniveaus en toegestane operaties 53 2.2.2 Opvattingen over meten 57 2.2.3 De gangbare procedure voor het meten van psychologische eigenschappen 61 2.3 Definitie van een test 67 2.4 Toepassingsmogelijkheden 68 2.4.1 Beoordeling van individuen 68 2.4.2 Beoordeling van groepen 70 Inhoud 11 2.4.3 Beoordeling van invloed van situaties en methoden 71 Opdrachten 72 3 Indelingen, onderscheidingen en begrippen 76 3.1 Indeling naar testgedrag 76 3.1.1 Tests voor prestatieniveau 78 3.1.2 Tests voor gedragswijze 86 3.1.3 Drie voorbeelden van tests 96 3.2 Indeling naar instructie en afneming 1 06 3.2.1 Individuele test en groepstest 1 06 3.2.2 Snelheidstest en niveautest 1 07 3.3 Onderscheid op basis van testvragen 1 09 3.3.1 Cultuurvrije en niet-cultuurvrije tests 1 10 3.3.2 Directe tests en indirecte tests 1 12 3.3.3 Vrije-antwoordentests en keuze-antwoordentests 1 13 Opdrachten 1 13 4 Constructie van items en kwantificering van reacties 1 16 4.1 Van de respondent gevraagde activiteit 1 17 4.2 Vorm waarin het antwoord wordt gegeven 1 19 4.3 Itemvormen: het speciale geval van gepreco- deerde items 1 25 4.3.1 Items voor prestatieniveautests 1 25 4.3.2 Items voor tests voor gedragswijze 1 29 4.4 Kwantificering van antwoorden 131 4.4.1 Kwantificering, diverse informatiebronnen 131 4.4.2 Itemscores 1 33 4.5 Beoordeling van de kwaliteit van items in vooronderzoek 1 36 4.5.1 Dichotome items 1 38 4.5.2 Polytome items 1 42 Opdrachten 1 43 5 Afneming van tests en verwerking van testgegevens 1 46 5.1 Tests afnemen 1 46 5.2 Scoring van antwoorden 151 5.2.1 Scoring van reacties op items met open-vraagvorm 1 52 5.2.2 Scoring van reacties op geprecodeerde items 1 53 5.2.3 Toevalscorrectie 1 56 5.2.4 Weging van itemscores 1 60 5.3 Testen per computer 161 5.3.1 Technologische bijdragen en veranderingen 1 62 12 Testtheorie 5.3.2 Wetenschappelijke bijdragen en veranderingen 1 66 5.3.3 Adaptief testen 1 69 5.4 Bewerkte scores en normen 1 72 5.4.1 Vergelijking met een absolute standaard 1 75 5.4.2 Verhoudingsnormen 1 76 5.4.3 Vergelijking en normen gebaseerd op een rangorde 1 79 5.4.4 Vergelijking en normen gebaseerd op gemiddelde en spreiding 1 82 Opdrachten 1 87 6 Betrouwbaarheid 1 90 6.1 Herhaalbaarheid van metingen 1 90 6.2 De klassieke testtheorie 1 94 6.2.1 Betrouwbare score en meetfout 1 94 6.2.2 Betrouwbaarheid van testscores en de standaardmeetfout 202 6.2.3 Belangrijke onderscheidingen 204 6.3 Bepaling van de betrouwbaarheid 205 6.3.1 Parallelvormmethode 206 6.3.2 Test-hertestmethode 210 6.3.3 Splitsingsmethode 212 6.3.4 Interne-consistentiemethode 215 6.4 Speciale onderwerpen 226 6.4.1 Nauwkeurigheid van metingen 226 6.4.2 Betrouwbaarheid en testlengte 235 6.4.3 Betrouwbaarheid en validiteit 238 6.4.4 Betrouwbaarheid van verschilscores 24 1 6.4.5 Betrouwbaarheid en spreiding van scores 243 6.4.6 Betrouwbaarheid van heterogene tests 244 6.4.7 Generaliseerbaarheid van metingen 245 6.5 Tot besluit 247 Opdrachten 248 7 Nieuwe ontwikkelingen in testtheorie en testconstructie 253 7.1 Principes en begrippen van de item-respons- theorie 256 7.2 Enkele modellen uit de item-responstheorie 262 7.2.1 Het Rasch-model 263 7.2.2 Modellen met respectievelijk twee en drie itemparameters 273 7.2.3 De modellen volgens Mokken 278 7.2.4 De onderlinge relaties van de item-responsmodellen 285 7.3 Meten met item-responsmodellen 287 7.3.1 Betekenis en gebruik van metrische schalen 288 Inhoud 13 7.3.2 Nauwkeurigheid van de meting 29 1 7.4 Praktisch gebruik van de item-responstheorie 294 7.4.1 De itembank en equivalering van scores en kenmerken van items 294 7.4.2 Testconstructie op basis van een itembank 299 7.4.3 Adaptieve tests 302 7.4.4 Vraagonzuiverheid 306 7.4.5 Afwijkende patronen van itemscores 312 7.5 Tot besluit enkele speciale onderwerpen 317 7.5.1 Item-responstheorie voor polytoom gescoorde items 318 7.5.2 Vergelijking klassieke testtheorie en item-responstheorie 320 7.5.3 Rol van item-responstheorie in psychologische theorie- vorming 322 Opdrachten 323 8 Validiteit en betekenis 328 8.1 Het begrip validiteit 329 8.2 Enkele andere onderscheidingen in validiteit 334 8.2.1 Vier belangrijke soorten validiteit 334 8.2.2 Andere onderscheidingen in het begrip validiteit 338 8.3 Predictieve validiteit 34 1 8.3.1 Nadere bepaling van het criteriumbegrip 343 8.3.2 Opzet van een test of testbatterij met predictieve validiteit 346 8.3.3 Differentiatie in het criteriumonderzoek 359 8.3.4 Validiteitsgeneralisatie 363 8.3.5 Beperkingen van predictieve validiteit 368 8.4 Betekenis en begripsvaliditeit 370 8.4.1 Begripsvalidering 370 8.4.2 Betekenisanalyse: op zoek naar de betekenis 376 8.4.3 Alternatieve verklaringen 383 8.5 Nogmaals betrouwbaarheid en validiteit 388 Opdrachten 392 9 De bijdrage van de test in het beslissingsproces 396 9.1 Taxonomie van beslissingen 398 9.2 Enkelvoudig selectie- c.q. afwijzingsmodel 402 9.2.1 Het gebruik van een enkele test 403 9.2.2 Het gelijktijdig gebruik van diverse tests 413 9.2.3 Selectie in een of meer fasen 415 9.3 Plaatsingsbeslissingen 419 9.3.1 Plaatsing en niveauverschillen 419 9.3.2 Plaatsing en kwalitatieve verschillen 423 14 Testtheorie 9.4 Individuele beslissingen 426 9.5 Open vraag 429 9.6 Tot besluit 433 Opdrachten 433 10 Ethiek van het testen 437 10.1 Levensbeschouwelijke en menselijke bezwaren 440 10.2 Technische en methodologische bezwaren 445 10.3 Misbruik 449 10.3.1 Schending van vertrouwen 449 10.3.2 Misleiding 450 10.3.3 Binnendringen in het privéleven 45 1 10.3.4 Discriminatie 453 10.4 Tot besluit 459 Opdrachten 459 Appendix 462 Eenvoudige statistische begrippen 462 Opdrachten 469 Literatuur 474 Register 497 1 Historische ontwikkeling van het testen De testdiagnostiek is als wetenschappelijke discipline in de twintigste eeuw tot bloei gekomen. Dit betekent niet dat vóór 1900 geen onder- zoek werd gedaan dat verwantschap vertoonde met het hedendaagse testonderzoek, noch dat van dit soort procedures geen gebruik werd gemaakt. Zelfs in de oudheid zijn voorbeelden te vinden van vormen van testonderzoek. Reeds vóór 2000 v. Chr. liet een Chinese keizer zijn dienaren eens per drie jaar onderzoeken met een soort van vorde- ringentoets, op basis waarvan zij werden gepromoveerd of ontslagen. Ook werd in China vóór het jaar 1000 v. Chr. geselecteerd op ‘test- scores’ in boogschieten, muziek, paardrijden, schrijven, rekenen en sociale etiquette (zie Du Bois, 1970). In het Oude Testament (Rechters 7, De Nieuwe Bijbelvertaling, 2004) is een voorbeeld te vinden van selectie met behulp van een persoon- lijkheidstest. Gideon reduceert zijn 32.000 man sterke leger eerst op basis van een soort zelfbeoordeling, waarbij hij de ‘angstigen’ laat vertrekken (vs 3). Vervolgens reduceert hij de omvang verder door middel van de volgende ‘test voor gedragswijze’: hij liet hen water drinken uit een beek, en keek of ze ‘het water oplikten met hun tong’, dan wel ‘op hun knieën gingen liggen om te drinken’ (vs 5). De eerste groep werd aangenomen, de tweede niet. Volgens theologische ver- klaringen gaat het hier wel degelijk om een karakterologische onder- scheiding. ‘Aangenomen mag worden dat God door dit eenvoudige middel de wakkeren en de meest toegewijden uit de tienduizenden dapperen heeft geschift’ (Goslinga, 1933, p. 129). In de middeleeuwen en de nieuwere tijd komt men herhaaldelijk pogingen tegen om intellectuele of karaktereigenschappen te be- schrijven en te meten met behulp van zuiver fysieke kenmerken van gelaat (Lombroso), schedel (Gall) of lichaam (Huter) en zelfs buiten- aardse determinanten (astrologie) [zie Kouwer (1963) voor een uit- 16 Testtheorie voerig overzicht van de geschiedenis van de persoonlijkheidsdiagnos- tiek]. De meeste school- en academische examens geschiedden vroe- ger mondeling, hoewel ze aan sommige universiteiten, zoals die van Bologna en Leuven, reeds in de middeleeuwen een sterk formeel karakter hadden. In de orde der jezuı̈eten werden al aan het einde van de zestiende eeuw schriftelijke examens afgenomen, zowel voor toe- latings- als evaluatiedoeleinden. In het begin van de twintigste eeuw begint pas een meer weten- schappelijke aandacht voor de test te ontstaan. Daarbij gaat het niet meer om een goede intuı̈tieve greep of een ‘common-sense’-oordeel op basis waarvan inzicht in mensen wordt verkregen en eventueel beslissingen worden genomen, maar om een systematische bestude- ring en ook een empirische fundering van het instrument dat voor die oordeelsvorming wordt gebruikt. In de ontwikkeling vanaf de eerste aarzelende en vaak weinig succes- volle pogingen tot heden kan men vier perioden onderscheiden, waarbij een nieuwe periode telkens wordt ingeluid door een voor de ontwikkeling van het testen belangrijke gebeurtenis: het verschijnen van de Binet-Simon-test, de Eerste Wereldoorlog en de Tweede We- reldoorlog. In de volgende paragrafen geven we een kort overzicht van deze vier perioden. Vervolgens bespreken we in het kort de ontwik- keling van het testen in Nederland. 1.1 Periode tot het verschijnen van de Binet-Simon-test Aan de eerste waardevolle intelligentietest, de Binet-Simon-test, waarvan de eerste versie verscheen in 1905, gingen diverse ontwikke- lingen vooraf. De eerste stimulans kwam vanuit de psychiatrie in Frankrijk en Duits- land. Nadat de arts Pinel reeds in 1794 de krankzinnigen van hun ketenen en uit hun strafkerkers had bevrijd door te verdedigen dat deze mensen niet misdadig maar ziek waren, ontstond er in de Franse medische wereld een sterke interesse in de geestelijke abnormaliteit en zwakzinnigheid. In 1838 schreef Esquirol een driedelig werk over geestesziekten, waarin hij de nadruk legde op het onderscheid tussen krankzinnigheid en zwakzinnigheid. Idiotie was volgens hem geen ziekte, maar een gebrek aan intellectuele vaardigheden om zich de- zelfde kennis eigen te maken als andere personen van gelijke leeftijd in gelijke omstandigheden. Ongeveer tegelijkertijd probeerde een andere Franse arts, Séguin, met enig succes zwakzinnige kinderen te trainen. Hij emigreerde in 1848 1 Historische ontwikkeling van het testen 17 naar de Verenigde Staten, waar zijn methode pas echt goed ingang vond. De training had voornamelijk betrekking op de motorische en sensorische functies. Het is dan ook niet verwonderlijk dat de ‘test’ die Séguin ontwikkelde op deze motorische en sensorische functies be- trekking had. Het ging hier om een type test dat later ‘performance test’ zou gaan heten. Deze test is bekend als het Séguin Form Board, waarvan later diverse aanpassingen werden gepubliceerd (Kouwer, 1957, pp. 76-77). In psychiatrische kringen in Frankrijk bleef aandacht voor de geestelijke onvolwaardigheid bestaan. Bekende namen zijn Charcot, Janet en Ribot, en uiteindelijk Alfred Binet, die reeds in zijn jonge jaren geboeid was door het verschijnsel zwakzinnigheid. Ook in Duitsland hielden zich in de tweede helft van de negentiende eeuw psychiaters bezig met het onderzoek van diverse geestelijke vermogens. In 1885 werd reeds door Rieger een voorstel gedaan voor een algemeen toepasbare methode voor het intelligentieonderzoek. Ook Kraepelin begon omstreeks dezelfde tijd met zijn pogingen tot diagnose van krankzinnigheid. In 1897 probeerde Ebbinghaus psy- chische vermoeidheid te meten met een test waarin onvolledige zin- nen moesten worden aangevuld, maar die in werkelijkheid functio- neerde als een intelligentietest. In datzelfde jaar deed Ziehen het voorstel om de evaluatie van de antwoorden niet reeds vooraf te ver- richten, maar deze te laten afhangen van de prestaties van de geteste personen. Zo ontstond in de psychiatrie vanuit de belangstelling voor de geestelijke onvolwaardigheid een behoefte aan methoden om de verschillen tussen geesteszieken en de verschillende gradaties in zwakzinnigheid te bepalen. Een tweede ontwikkelingslijn loopt via de experimentele psychologie, die voornamelijk in Duitsland werd beoefend. Opvallend is echter dat de experimentele psychologie naast een stimulerende ook een remmende werking op de testpsychologie heeft uitgeoefend. De stimulans lag in de waarde die werd gehecht aan de exacte beschrijving van experi- menteercondities, de rigoureuze controle van de variabelen en de nauwkeurige verwerking van de uitkomsten. In dat laatste nu ligt, ironisch genoeg, tevens de remmende invloed van de experimentele psychologie op de testpsychologie. De experimentator vond de ver- schillen tussen de proefpersonen eerder vervelend dan boeiend. Hij schreef ze toe aan fouten, inherent aan het experimenteerproces, in plaats van aan werkelijke verschillen in vaardigheid tussen de proef- personen. Dit laatste is nu net datgene waar het bij testen om gaat. In 1879 stichtte Wundt in Leipzig zijn experimentele laboratorium, en dat was de start van het systematische experimentele onderzoek op 18 Testtheorie grootscheepse wijze. Met enorme grondigheid, volledigheid en ook spitsvondigheid werden talloze functies van de mens onderzocht, maar ook in dit werk bleven twee obstakels voor de ontwikkeling van het testen bestaan. Ten eerste was het doel van het onderzoek de generaliseerbaarheid van de wetten en samenhangen terwijl, zoals we al opmerkten, afwijkingen en verschillen werden beschouwd als ex- perimenteerfouten. Ten tweede bleef het onderzoek beperkt tot de primaire sensorische en motorische functies, en werden de hogere en meer complexe cognitieve en intellectuele processen goeddeels buiten beschouwing gelaten. Toch ging men op een zeker moment anders aankijken tegen indivi- duele verschillen. Tegen de zin van Wundt promoveerde bij hem een Amerikaanse experimentator, McKeen Cattell, op individuele ver- schillen in reactietijd. Juist het aspect van de individuele verschillen, dat door de experimentele psychologie altijd zo stiefmoederlijk was behandeld, vormde het onderwerp van dit proefschrift. In 1890 publiceerde Cattell een artikel in het tijdschrift Mind waarin voor de eerste maal het woord ‘test’ werd gebruikt, en waarin hij een reeks van deze mentale (lees: psychofysische) tests besprak en voor verder onderzoek aanbeval. De ‘individuele verschillen’ bleken een vruchtbaar onderwerp voor verder onderzoek te vormen. Terug in de Verenigde Staten stichtte Cattell een laboratorium voor experimentele psychologie en testpsychologie. Op een tentoonstelling in Chicago in 1893 liet een collega van hem, Jastrow, de bezoekers zich onderwerpen aan een serie tests, waarbij ze hun resultaten konden vergelijken met algemene normen. In 1893 werd er binnen de American Psychological Association een commissie ingesteld, met als taak het registreren van tests en het formuleren van hun gebruiksmogelijkheden. Dat de sa- menhang met allerlei praktische criteria als school- en opleidings- resultaten laag bleek te zijn, was teleurstellend, maar de eerste stap- pen op de weg van het systematische onderzoek van individuele ver- schillen waren gezet. De belangstelling van Cattell voor individuele verschillen kan worden teruggevoerd op de derde lijn, die van de genetica, die naast de psy- chiatrie en de experimentele psychologie van invloed is geweest op de ontwikkeling van het testen. Reeds vanaf 1882 verrichtte de Engelse bioloog Galton allerlei antropometrische onderzoekingen. Daarbij interesseerden hem behalve de lichamelijke, ook de sensorische en geestelijke functies. In 1859 had Darwin in het boek The origin of species het probleem van de erfelijkheid van lichamelijke eigenschappen op originele wijze aan de orde gesteld. Zijn neef Galton was ook geı̈n- 1 Historische ontwikkeling van het testen 19 teresseerd in de erfelijkheid van psychische eigenschappen, en pro- beerde aan te tonen dat deze aan dezelfde wetten onderhevig waren als de lichamelijke eigenschappen. In zijn wijze van onderzoeken kwa- men drie elementen voor, die alle een pijler van het wetenschappelijk testonderzoek zouden gaan vormen. Het eerste element was de wenselijkheid van het onderzoek van in- dividuele verschillen. Toen Cattell in 1882 gastcolleges gaf aan de universiteit van Cambridge werd door het contact met Galton zijn interesse in dit onderwerp zo sterk gewekt, dat hij er een groot deel van zijn latere werk aan wijdde. Het tweede element bestond uit de noodzaak van systematisering van de onderzoekstechnieken. Deze traditie uit de experimentele psycho- logie werd door Galton sterk bevorderd. Zonder een sterke standaar- disatie van de condities van het onderzoek en een gedisciplineerd gebruik van de onderzoeksinstrumenten zijn de verkregen resultaten onvergelijkbaar en de conclusies niet generaliseerbaar. Als derde element geldt de poging van Galton om de resultaten van zijn onderzoeken uit te drukken in termen van afwijkingen van het gemiddelde. Het ‘normatieve’ denken en het weergeven van onder- zoeksresultaten in statistische termen, gebaseerd op principes van de waarschijnlijkheidsrekening, bleken geheel nieuwe dimensies te ope- nen voor zowel de theoretische ontwikkeling als de praktische toe- passing van de test. Een jongere collega van Galton, Pearson, werd door deze verwerkingsmogelijkheden geı̈nspireerd en heeft vervol- gens zeer veel betekend voor de statistiek en indirect voor de test- psychologie. Aan Pearson danken wij de correlatiecoëfficiënt, het be- grip rangcorrelatie, de multipele correlatie, de factoranalyse en ver- scheidene andere nuttige statistische technieken (zie voor een uitvoe- rig historisch overzicht Stigler, 1986). Deze eerste periode, de aanloop tot de ontwikkeling van de test- theorie, werd dus gekenmerkt door de behoefte van de psychiatrie aan diagnosemogelijkheden met betrekking tot aard en niveau van gees- telijke afwijkingen, de traditie van de experimentele psychologie be- treffende de gestandaardiseerde onderzoeksprocedure, en de interesse van de genetica in verschillen tussen mensen. Van psychologisch testen op grote schaal was echter nog geen sprake. De interesse hierin was incidenteel en voornamelijk theoretisch gericht, en het onderzoek vond plaats in de laboratoria. Onderzoeksresultaten werden nog wei- nig toegepast en de spaarzame pogingen hiertoe leidden tot teleur- stellende resultaten. Voor een groot deel is dit te verklaren uit de keuze van de vermogens en functies die men door middel van de test trachtte 20 Testtheorie te meten. Deze waren hoofdzakelijk van psychofysische aard. Senso- rische en motorische vermogens en functies, en eventueel geheugen- processen, werden uitvoerig onderzocht, maar onderzoek gericht op meer complexe intelligentiefuncties werd nog nauwelijks gedaan. Hierin kwam verandering door het werk van Binet, die met zijn pu- blicatie van de Binet-Simon-test (Binet & Simon, 1905) een nieuwe periode inluidde. 1.2 Periode tussen het verschijnen van de Binet-Simon-test en de Eerste Wereldoorlog In 1904 kreeg Binet, die directeur was van het eerste laboratorium voor fysiologische psychologie aan de Sorbonne, van het ministerie van Onderwijszaken het verzoek om een onderzoek in te stellen naar de mogelijkheid tot differentiatie tussen luie en incapabele kinderen. Door het nogal grote aantal mislukkingen op de Parijse scholen zag de overheid zich genoodzaakt tot selectieve maatregelen, waarvoor men in staat diende te zijn een onderscheid te maken tussen kinderen die niet konden en kinderen die niet wilden. De gebruikelijke serie ‘tests’ was niet in staat dit onderscheid te maken. Alle pogingen faalden, totdat Binet en zijn medewerker Simon dertig opgaven samenstelden die niet een beroep deden op de veronderstelde basisfuncties van het intelligente functioneren, de psychofysische eigenschappen, maar een steekproef vormden uit de verschillende complexe opgaven waarvoor het kind zich in het dagelijks leven en de schoolpraktijk gesteld zag. De opgaven hadden weliswaar alle een sterk verbaal karakter, maar bestreken toch een grote variëteit van problemen, zoals het benoemen van objecten, het aanvullen van onvolledige zinnen en het begrijpen van verhaaltjes. De test werd beproefd op een vijftigtal normale en enkele zwakzinnige kinderen en voor de opgaven werd een volgorde van moeilijkheid bepaald. Daarmee was de eerste intelligentietest die ook daadwerkelijk een praktische functie had, gereed. Waarin was Binets benadering nieuw? Ten eerste lag dit in de accen- tuering van complexe in plaats van eenvoudige mentale processen. Binet richtte de aandacht op begrip, geheugen, het oplossen van pro- blemen, en verbeeldingskracht. Ten tweede was het empirische uit- gangspunt nieuw. Binet was bereid zijn ideeën, omgezet in testopga- ven, te toetsen aan de empirie. Opgaven die niet naar behoren func- tioneerden werden verwijderd of gewijzigd. Ten derde stelde Binet voor een totaalscore te gebruiken om het intelligentieniveau weer te geven. Reeds voordat in 1908 een tweede en in 1911 een derde versie van de 1 Historische ontwikkeling van het testen 21 test verscheen, waarin telkens het aantal opgaven werd vergroot, een aantal minder goede opgaven werd vervangen en de schaal waarop werd gemeten werd doorgetrokken naar hogere leeftijden, was de faam van de Binet-Simon-test gevestigd. In diverse landen werd de test overgenomen. Het begrip ‘mentale leeftijd’, dat Binet bij zijn tweede testversie introduceerde, en waarmee een indicatie van de geestelijke groei werd verkregen, bleek een vruchtbaar en praktisch nuttig begrip. Claparède (1924) bouwde voort op de ideeën van Binet en een groot deel van de activiteiten in zijn in 1912 gestichte Jean-Jacques Rousseau Instituut was gewijd aan de ontwikkeling en toepassing van tests. Bobertag (1911) vertaalde de Binet-Simon-test in het Duits en Stern (1911) stelde voor de mentale leeftijd te vergelijken met de werkelijke leeftijd van het kind. Goddard vertaalde tezelfdertijd de test in het Engels. Deze vertaling werd later door Burt (1921) voor het Verenigd Koninkrijk aangepast, maar had daarvoor reeds een grote betekenis gekregen door de bewerking door de Amerikaanse psycholoog Ter- man (1916). Terman – hoogleraar aan de universiteit van Stanford (Californië, Verenigde Staten) – besteedde een groot deel van zijn werkzame leven aan de Amerikaanse versies van deze test, sindsdien algemeen bekend onder de naam ‘Stanford-Binet’. Reeds bij de eerste versie van 1916 was aan twee zeer belangrijke testtechnische eisen voldaan: er werden standaardinstructies geformuleerd, zodat vergelijkbaarheid van test- scores mogelijk werd, en er werden normen geconstrueerd, gebaseerd op een representatieve steekproef. Ook nam Terman het idee van Stern (1911) over om de mentale leeftijd, die werd bepaald op basis van de testprestatie, te delen door de chronologische leeftijd, en dit getal – ter vermijding van breuken – te vermenigvuldigen met honderd. Aldus verkreeg men een, ook bij verschillende leeftijden, vergelijkbare, en – dankzij de begrijpelijkheid ook voor de leek – praktische indicatie van het intelligentieniveau van het onderzochte kind. Het werk van Binet was in praktisch opzicht van grote betekenis, maar theoretisch was dit veel minder het geval. Door het accent op de eindproducten en de samenhang met schoolprestaties en beoordelin- gen van intelligentie was de praktijk wel gediend, maar de theoreti- sche vraag naar de samenstellende elementen in de intelligentie niet. Op basis van zijn theoretische onderzoekingen kwam de Engelse on- derzoeker Spearman (1904) tot de conclusie dat in alle tests twee intelligentiefactoren een rol speelden: een algemene (g-)factor en een specifieke (s-)factor. Hiermee had hij zijn bekende twee-factorenthe- 22 Testtheorie orie geformuleerd, die later door de Amerikaan Thurstone met diens multi-factorentheorie zou worden bestreden. Intelligentie was volgens Spearman de gemeenschappelijke factor die men kan extraheren uit een willekeurige serie van ‘intelligentietests’. Doordat Binet steeds had gestreefd naar een breed scala van opgaven had hij daarmee dus onbewust een test voor de g-factor geconstrueerd. Ook op het gebied van de meting van opleidingsvordering van leer- lingen werden in deze periode de eerste stappen gezet, bijvoorbeeld door E.L. Thorndike in de Verenigde Staten en Burt in Engeland. Met behulp van ‘educational achievement tests’ kon men achtergebleven leerlingen als zodanig herkennen en de prestaties van verschillende scholen vergelijken. In deze periode boekte de intelligentiemeting grote vooruitgang door uit te gaan van of voort te bouwen op de ideeën van Binet en Simon. Ook werd een eerste poging gewaagd om de beoordeling van school- prestaties te objectiveren. Het testen op grote schaal, waarvoor klas- sikaal af te nemen tests nodig waren, vond echter nog niet plaats. Van valideringsonderzoek, waarin de samenhang van testuitslagen met latere prestaties wordt onderzocht en waarbij men op basis daarvan tests selecteert en weegt, was vóór de Eerste Wereldoorlog zeker nog geen sprake. 1.3 Van het begin van de Eerste tot de Tweede Wereldoorlog Door het uitbreken van de Eerste Wereldoorlog kwam de ontwikkeling van het testen in een stroomversnelling. De reden was de noodzaak om grote groepen mensen te selecteren voor functies en opleidingen van sterk uiteenlopende inhoud en zeer verschillend niveau. Met suc- ces werden zowel in Duitsland als in Engeland en Frankrijk tests toe- gepast bij de selectie van bijvoorbeeld chauffeurs, piloten en vlieg- tuigherkenners. Voor het eerst werd de psychologie regelmatig toe- gepast buiten het laboratorium en ging de testpsychologie min of meer routinematig functioneren bij de beslissingsproblematiek van selectie en plaatsing. De Eerste Wereldoorlog is in Europa een aan- leiding geweest tot de erkenning van de psychologische test als een instrument dat een positieve bijdrage kan leveren in velerlei beslis- singssituaties. De echte doorbraak volgde toen in 1917 ook de Ver- enigde Staten in de oorlog werden betrokken, en de incidentele po- gingen van de eerste ‘bedrijfspsycholoog’ Münsterberg (1914) om te 1 Historische ontwikkeling van het testen 23 komen tot een rationele selectieprocedure met behulp van collectieve tests hun waarde gingen bewijzen. Het gebruik van individuele testprocedures was te tijdrovend vanwege de enorme omvang van de selectieproblematiek. De noodzaak om snel en efficiënt te testen leidde tot de ontwikkeling van de groepsgewijs af te nemen schriftelijke test. De uit deze noodzaak ontstane schriftelijke test, de Army Alpha, bevatte verschillende soorten opdrachten, zoals rekenopgaven, denksommen en het aangeven van woordbetekenissen. In vrij korte tijd kon men het intelligentieniveau van grote groepen proefpersonen bepalen. De betrouwbaarheid van de test bleek bevre- digend te zijn en het voorspellend vermogen ten aanzien van allerlei opleidingscriteria bleek het gebruik te rechtvaardigen. Na het succes van de Army Alpha groeide de test gedurende de jaren twintig en dertig van een incidenteel gebruikt instrument tot een veel toegepast en gewaardeerd hulpmiddel bij vele soorten beslissingen. Na de Eerste Wereldoorlog liepen de testontwikkeling in Amerika en die in Europa sterk uiteen. In Europa bleef, mede door het daar heersende filosofische klimaat, gedomineerd door Gestaltpsycholo- gie, personalisme en fenomenologie, de individuele diagnostiek po- pulair. Door dit filosofische klimaat werd de wijze waarop de proef- persoon de taak verricht, zoals dit tot uiting komt in zijn of haar werkinstelling en houding tegenover de eigen prestatie, minstens even belangrijk gevonden als de prestatie zelf. Naarmate de interesse in deze kwalitatieve aspecten van werk toenam, werden meer speciaal hierop gerichte observatietests ontwikkeld. Deze individuele observa- tietest werd bijzonder populair (Baumgarten, 1928; Bühler & Hetzer, 1932; Hetzer, 1937). Overigens werd daarnaast nog steeds het intelli- gentieniveau bepaald. In Amerika kwam daarentegen, eveneens vanuit een filosofische, vooral behavioristisch-positivistische achtergrond, maar vooral vanuit een praktische behoefte, het accent steeds sterker te liggen op de kwantitatief verwerkbare groepstests. Behalve de eerder beschreven aanleiding van grote aantallen te nemen selectie- en plaatsingsbeslis- singen, waren ook andere factoren verantwoordelijk voor de popula- riteit van deze vorm van testen. Een toenemend aantal immigranten uit vele landen van herkomst moest op zo rationeel mogelijke wijze in de maatschappij worden opgenomen en geı̈ntegreerd. Zij dienden hiertoe aan een vergelijkend onderzoek te worden onderworpen. Bo- vendien stimuleerde de in Amerika sterk gepropageerde gedachte van gelijke kansen voor iedereen de behoefte aan dergelijke op grote schaal bruikbare instrumenten. Ten slotte vereiste de toenemende 24 Testtheorie specialisatie, differentiatie en vertechnisering van het productieproces een sterke rationalisering van de selectie- en plaatsingsprocedure. De vele immigranten plaatsten de onderzoekers nog voor een ander probleem. Hoe kon ooit sprake zijn van een eerlijke vergelijking als de testopgaven in een taal (Engels) waren geformuleerd die de onder- zochte nauwelijks beheerste, en als bovendien de inhoud van de vra- gen een sterk verbaal karakter had, waarbij wederom een beroep werd gedaan op de kennis van het Engels? Er ontstond derhalve behoefte aan tests die minder afhankelijk waren van taal en cultuur. Reeds vóór de Eerste Wereldoorlog had de Amerikaanse psycholoog Knox geëxperimenteerd met opgaven die niet-verbaal van aard waren en een zogenaamd ‘performance’-karakter hadden. In 1917 publi- ceerden Pintner en Paterson een volledig niet-verbale intelligentietest. Naast de reeds genoemde Army Alpha werd nu in 1918 een tweede schriftelijke groepstest samengesteld, de Army Bèta, die pantomi- misch kon worden geı̈nstrueerd en geen beroep deed op enige taal- kennis of verbale vaardigheid. Dergelijke niet-verbale tests speelden een grote rol bij het algemeen vergelijkend onderzoek tussen bevol- kingsgroepen, al was hun betrouwbaarheid vaak geringer dan die van de verbale tests. Bovendien vormden ze later ook het startpunt voor het onderzoek naar verschillen tussen volken, en met name die tussen de ontwikkelingsgebieden en de westerse cultuur (Porteus, 1933). Ook vonden deze tests een meer specifiek toepassingsterrein in het intel- ligentieonderzoek van gehandicapten, zoals motorisch of perceptueel gestoorden (Drever & Collins, 1936; Snijders-Oomen, 1943). Overigens is het niet zo dat in de Verenigde Staten de individuele test geheel door de schriftelijke test werd verdrongen. De individuele test nam er relatief een minder belangrijke positie in dan in Europa, maar het aantal individuele testbatterijen dat in deze periode verscheen, is niettemin indrukwekkend. De belangrijkste waren wellicht de Terman Merrill (de versie uit 1937 van de Stanford-Binet), en de Wechsler series (wais, wisc; zie de publicaties van Wechsler, 1949; 1955a, b). Het aantal individuele tests overtrof nog verre het aantal in Europa, waar het testen als zodanig een duidelijk minder hoge vlucht had genomen. Engeland nam in de tegenstelling Verenigde Staten versus Europa min of meer een tussenpositie in. Ballard (1920, 1924) propageerde in enkele publicaties aan het begin van de jaren twintig het gebruik van groepstests, en in 1938 verscheen de veelgebruikte Progressive Ma- trices van de hand van Raven. Een grote bloei als in Amerika onder- ging de ontwikkeling en het gebruik van dit soort tests echter niet. Wel 1 Historische ontwikkeling van het testen 25 was er, in tegenstelling tot andere landen in Europa, veel aandacht voor de objectieve evaluatie van schoolprestaties. Evenals in Amerika, waar deze gedachte nog veel sterker leefde, streefde men ernaar om bij de beoordeling van schoolvorderingen de subjectieve impressie van het onderwijzend personeel zo veel mogelijk te vervangen door ob- jectieve methoden. Het ‘vrije-antwoordenexamen’ maakte plaats voor vragen van het meerkeuzetype (‘multiple choice’). Voorts ging de constructie en ijking van deze schoolvorderingentests over van de docent naar de specialist. Deze ontwikkelingen beperkten zich tot Amerika en Engeland. Het gebruik van de test ging vaak vooraf aan de theorie, in plaats van dat men te werk ging volgens de gewenste omgekeerde volgorde. Wel stimuleerde Thurstone (1931) de aandacht voor de kritische evaluatie van de test zelf. Hij was van mening dat de resultaten van een test betrouwbare testscores dienen op te leveren, en als men met een test gedrag buiten de testsituatie probeert te voorspellen – ook wel crite- riumgedrag genoemd – dient de relatie tussen test en criterium van tevoren te zijn aangetoond. Hierdoor ging de statistiek een belangrijke rol spelen in de testpsychologie en werd de kwantificeerbaarheid van de testprestatie een noodzakelijke voorwaarde voor nuttig testgebruik. Een belangrijke invloed werd uitgeoefend door statistiekboeken als die van Kelly (1923) en Guilford (1936), en door Thurstone’s (1931, 1935) publicaties over factoranalyse. Ditzelfde geldt voor het in 1935 door Horst en Thurstone gestarte tijdschrift Psychometrika, en het vanaf 1941 verschijnende tijdschrift Educational and Psychological Measurement. Naast de formeel-statistische ontwikkeling werd door Kelly (1928), Thurstone (1935), Guilford (1936), Thomson (1938) en Holzinger en Harman (1941) ook aan het onderzoek naar de intelligentiestructuur een nieuwe dimensie toegevoegd. Zij introduceerden naast de reeds door Spearman gesignaleerde algemene en specifieke factoren de zo- genaamde groepsfactoren. Intelligentie werd door hen opgevat als een complex geheel van groepsfactoren. Een dergelijke groepsfactor is een voor sommige – niet voor alle – tests gemeenschappelijke factor. Deze structurele opvatting van de intelligentie, met de mogelijkheid van op empirisch onderzoek gebaseerde analyse van profielen van testpres- taties per intelligentiefactor in plaats van de vaststelling van een alge- mene totaalscore, opende geheel nieuwe perspectieven voor selectie, diagnose, beroepskeuze en counseling. De door Thurstone (1938) geı̈dentificeerde factoren ‘verbal comprehension’, ‘word fluency’, ‘number facility’, ‘spacial visualization’, ‘associative memory’, ‘per- ceptual speed’, en ‘reasoning’ zijn nu nog steeds belangrijke onder- 26 Testtheorie scheidingen in de intelligentietheorie en spelen een belangrijke rol in diverse testbatterijen voor intelligentie. Ten slotte besteden we een enkel woord aan het ontstaan en de ont- wikkeling van de persoonlijkheidstest. Drie afzonderlijke methoden kunnen met betrekking tot het testen van de persoonlijkheid worden onderscheiden. Ten eerste noemen we de vooral in West-Europa populaire methode van de observatie. Observatietests waren bedoeld om inzicht te geven in de kwalitatieve aspecten van de prestatie. Van deze observatietests was het via een beoordeling van de werkwijze nog slechts een kleine stap naar tests voor observatie van het voor de proefpersoon typerende gedrag zelf. Bij het gebruik van de observatieproef als persoonlijk- heidstest was van betrouwbare en objectieve of gestandaardiseerde meting nauwelijks sprake, en de persoonlijkheidsbeelden ontstonden voornamelijk langs impressionistische, intuı̈tieve weg. Ten tweede werden in deze periode de eerste persoonlijkheidsvragen- lijsten samengesteld. Reeds in de Eerste Wereldoorlog ontstond een behoefte aan een meer systematische vorm van verzameling van ge- gevens over anamnese en ziektegeschiedenissen dan mogelijk was met behulp van het gebruikelijke interview. De eerste persoonlijk- heidsvragenlijsten die in dit verband werden geconstrueerd, waren eigenlijk niets anders dan gestandaardiseerde, op schrift gestelde, psychiatrische interviews. Deze vragenlijsten waren voorlopers van latere veelgebruikte persoonlijkheidsvragenlijsten. Niet alleen de per- soonlijkheid als zodanig, maar ook allerlei specifieke terreinen, zoals dat van de interesses, de waarden en de attitudes leken vervolgens gemakkelijk toegankelijk door middel van vragenlijsten. De derde methode van persoonlijkheidsdiagnostiek ligt in de toepas- sing van de ‘projectietests’, waarop wij in hoofdstuk 3 uitvoeriger ingaan. In projectietests wordt een stimulus (bijv. een plaat, een inkt- vlek of een onvolledige zin) aangeboden waarop de persoon vrij mag reageren al naargelang de betekenis die deze stimulus voor hem of haar heeft of de associaties die hij oproept. Verondersteld wordt dat de onderzochte in zijn of haar reacties iets van zichzelf openbaart. De psycholoog interpreteert deze reacties. Dit kan leiden tot een per- soonsbeschrijving, een beoordeling van een persoonskenmerk of de diagnose van een ziektebeeld. Deze vorm van testen, die vooral ge- bruikt werd voor de identificatie van onbewuste motieven en behoef- ten en die daarbij vaak teruggrijpt op dieptepsychologische interpre- taties en klinisch psychologische of symbolische duidingen, werd sterk beı̈nvloed door de psychoanalyse. In deze wijze van testinter- 1 Historische ontwikkeling van het testen 27 pretatie werd een sterke nadruk gelegd op de inleving in de proef- persoon en op het invoelend begrijpen van diens emotionele beleven. Een zeer bekende projectietest werd voorgesteld door Rorschach (1921) (de ‘inktvlekkentest’). Een andere bekende test is de Thematic Apperception Test (tat), waarbij afbeeldingen van situaties door de respondent moeten worden geı̈nterpreteerd (Morgan & Murray, 1935). De ontwikkeling van de testtheorie en het testgebruik tussen beide wereldoorlogen kan als volgt worden samengevat. Ten eerste namen de ontwikkeling en het gebruik van tests storm- achtig toe. Daarbij bleef de theoretische verantwoording op basis van psychologische inzichten en ook de methodologische verantwoording vaak in gebreke of zelfs geheel achterwege. Ten tweede bestond er een accentverschil tussen continentaal Europa en de Verenigde Staten. In de Amerikaanse benadering stond centraal het bepalen van de kansen van de onderzochte op een positief resul- taat in de te voorspellen situatie – bijvoorbeeld de prestaties op school of in beroep, of de resultaten van een therapie. Deze kansen werden afgeleid uit het behoren tot een ‘klasse’ van personen die in eerder onderzoek waren getest en van wie de resultaten bekend waren. De objectieve test werd dus gebruikt om te bepalen tot welke klasse iemand behoorde en speelde in dit proces een centrale rol. Deze methode is in feite dezelfde als die van de actuarische wetenschap (die zich bezighoudt met het bepalen van kansen in de context van ver- zekeringsrisico’s), reden waarom men in dit verband ook wel spreekt van de actuarische methode van voorspellen of beschrijven (zie bijv. Wiggins, 1973). In Europa stond daartegenover de meer fenomenologische of intuı̈- tieve methode. Het ging hierbij om de totaliteit van de persoon van de onderzochte, om diens beleven, structuur en dynamiek. De test is dan hooguit een meer of minder nuttig instrument in de handen van de psycholoog, die daarnaast beschikt over zijn observatie, zijn gesprek, zijn menselijk contact en zijn intuı̈tie. De test had hier dus eerder een ondergeschikte rol. Het trekken van conclusies over de persoon vond dan ook niet plaats in kwantitatieve termen of in termen van kansen, maar eerder in de vorm van een beschrijvende analyse met een vaak sterk literair karakter. 28 Testtheorie 1.4 Van het begin van de Tweede Wereldoorlog tot heden 1.4.1 ontwikkelingen in de verenigde staten De Tweede Wereldoorlog luidde in Engeland en vooral de Verenigde Staten voor de testtheorie een periode in waarin een expansie plaats- vond op alle terreinen van het testen. Het aantal beschikbare tests nam snel toe, en er vond een sterke kritische bezinning plaats op de me- thodologische grondslagen van het testgebruik. De gunstige resultaten van het gebruik van tests in oorlogstijd wekten in Engeland een blijvende belangstelling voor het testonderzoek (Vernon, 1950). Bij de overheid bleef het bijvoorbeeld van hoog tot laag gebruikelijk dat men werd onderzocht op eventuele geschiktheid voor de gevraagde functie. Ook in de schoolkeuze werd het psycho- logisch testonderzoek hoe langer hoe meer geı̈ntegreerd, vooral sinds met de Education Act van 1944 een meer formele toelatingspolitiek voor de verschillende scholen voor vervolgonderwijs werd geı̈ntrodu- ceerd. In Amerika werden gedurende de oorlogsjaren met succes de meest vooraanstaande psychologen op het terrein van selectie, testontwik- keling en psychiatrisch-medische keuring ingeschakeld bij de gigan- tische taak waarvoor de keurings- en selectiediensten van de krijgs- macht zich geplaatst zagen. Deze samenwerking leidde tot een enorme toename van het aantal selectie- en diagnostische tests, tot een sterke professionalisering van het selectie- en plaatsingsbeleid en tot een constructieve en kritische bezinning op de psychologische principes van het testonderzoek (zie o.a. Stouffer e.a., 1950). Meer dan 9.000.000 personen werden onderzocht met de Army General Classification Test (agct) en hun gegevens vormden een uitstekende bron voor genuanceerde normerings- en valideringsre- sultaten (zie resp. de hoofdstukken 5 en 8). Behalve het algemene intelligentieniveau werd ook de structuur van vaardigheden bepaald met hiervoor speciaal ontwikkelde differentiële testbatterijen. Daar- naast werden speciale tests ontwikkeld ter bepaling van uiteenlopende specifieke functies en vaardigheden. Schoolvorderingentests maakten voorts een vergelijking van de resultaten van de vooropleidingen mo- gelijk, terwijl opleidings- en kennistests werden gebruikt om zowel de toekomstige prestaties van de kandidaat te voorspellen als de oplei- dingsprogramma’s zelf te evalueren. Individuele en groepsobserva- tietests werden toegepast bij de samenstelling van groepen en be- manningen, voor de bepaling van leiderschapskwaliteiten en bij de psychiatrische keuring. Persoonlijkheidsvragenlijsten en de biografi- 1 Historische ontwikkeling van het testen 29 sche vragenlijsten werden gebruikt voor de identificatie van potentiële psychiatrische patiënten en de selectie voor bijvoorbeeld functies waarin een sterk beroep werd gedaan op stressbestendigheid. Deze ontwikkeling zette zich in de Verenigde Staten na de oorlog in een nauwelijks verminderd tempo voort. In 1947 werd de Educational Testing Service (ets) opgericht. De be- doeling van deze non-profitorganisatie, met een groot aantal psycho- logen, onderwijskundigen, statistici en psychometrici (statistici die zich bezighouden met testtheorie) in dienst, is tegemoet te komen aan de behoeften van het Amerikaanse onderwijs- en opleidingsveld wat betreft de toelating tot en de evaluatie van het onderwijs. Voor de ontwikkeling van de testtheorie is van groot belang dat het beleid binnen ets niet uitsluitend gericht is op toegepast onderzoek en testconstructie, maar veel ruimte laat voor fundamenteel psychome- trisch onderzoek. Naast ets is in de Verenigde Staten een groot aantal ‘test agencies’ werkzaam, zoals American College Testing (act; Iowa City, Iowa) en ctb/McGraw-Hill (Monterey, California; van oorsprong California Testing Bureau). Sommige bestrijken een breed toepas- singsveld, terwijl andere zich hebben gespecialiseerd in bijvoorbeeld de selectie van studenten voor geneeskunde- en rechtenopleidingen en de evaluatie van de daar geleverde prestaties. De oprichting van het Nederlandse cito, waarover straks meer, was geı̈nspireerd door het voorbeeld van ets. Over tests en testonderzoek en ook de psychometrie loopt de com- municatie via vele tijdschriften. Zoals voor tal van wetenschapsgebie- den geldt ligt ook hier het zwaartepunt in de Verenigde Staten. De voornaamste Amerikaanse tijdschriften zijn: Applied Measurement in Education, Applied Psychological Measurement, Educational and Psychological Measurement, Journal of Applied Psychology, Journal of Consulting and Clinical Psychology, Journal of Educational Measurement, Journal of Educational and Behavioral Statistics, Journal of Mathematical Psychology, Multivariate Behavioral Research, Personnel Psychology, Psychological Assessment, Psychological Methods, en Psychometrika. Deze tijdschriften zijn in diverse Nederlandse universiteitsbibliotheken in te zien. De uitgeverijen die zich geheel of gedeeltelijk bezighouden met het uitgeven van tests zijn in aantal sterk toegenomen. Handboeken die een bespreking wijden aan bestaande tests zijn in zeer korte tijd niet meer actueel. Buros publiceert al vanaf 1938 om de drie of vier jaar een Mental Measurements Yearbook, waarin alle, voornamelijk in het Angel- saksische taalgebied bekende tests, worden samengevat en door on- 30 Testtheorie afhankelijke deskundigen beoordeeld. Veel van deze informatie is tegenwoordig via internet beschikbaar. Handboeken over tests en de toepassing ervan brengen niet alleen veel inhoudelijke informatie over tests bijeen, maar bieden tevens een meer of minder uitgebreide behandeling van de wetenschappelijke test- theorie. We noemen een kleine selectie van boeken op inleidend niveau, die een breed terrein bestrijken en als introductie kunnen dienen. Dit zijn de boeken van Anastasi (1961, 1988), Cronbach (1961, 1984), Allen en Yen (1979), Crocker en Algina (1986), Janda (1998), Murphy en Da- vidshofer (1998) en Embretson en Reise (2000). Boeken – aanvankelijk alleen door Amerikaanse auteurs geschreven, maar later ook door Europese – die dieper graven en derhalve meer kennis van statistiek en psychometrie vragen, zijn die van Guilford (1936, 1954), Gulliksen (1950), Lord en Novick (1968), Fischer (1974; in het Duits), Nunnally (1978; de nieuwere editie is van Nunnally & Bernstein, 1994), Lord (1980a), Hulin, Drasgow en Parsons (1983), Hambleton en Swaminathan (1985), Baker (1992; de nieuwere editie is van Baker & Kim, 2004), Van der Linden en Hambleton (1997a) en Boomsma, Van Duijn en Snijders (2001). De oudere onder deze boeken zijn niet meer regulier in de handel, maar wel in diverse universi- teitsbibliotheken in te zien. Vele, vaak technisch-statistische boeken concentreren zich op gespe- cialiseerde onderwerpen. We noemen de boeken van Cronbach, Gle- ser, Nanda en Rajaratnam (1972) en Brennan (2001) over generali- seerbaarheidstheorie, Holland en Wainer (1993) over vraagonzuiver- heid, Fischer en Molenaar (1995) over het Rasch-model, Mokken (1971) en Sijtsma en Molenaar (2002) over niet-parametrische test- theorie, Kolen en Brennan (1995) over equivaleren, en Wainer (1990) en Van der Linden en Glas (2000) over adaptief testen. Deze onder- werpen komen in dit boek aan de orde in de hoofdstukken 6 en 7. Ook op het meer toegepaste terrein van de selectiepsychologie staat, zeker in de jaren na de oorlog, de testtheorie centraal. In 1949 stelde R.L. Thorndike zijn inzichten, opgedaan bij de selectie in de Ameri- kaanse luchtmacht, op schrift in het boek Personnel Selection, dat lange tijd het belangrijkste boek over selectie was. In 1948 werd door Lawshe een selectiehandboek geschreven onder de titel Principles of Personnel Testing, waarvan in 1966 een uitgebreide en sterk verbeterde tweede editie (van Lawshe & Balma) verscheen. Ook het in 1965 gepubliceerde Personnel Testing van Guion (recentere versie uit 1998), en het in 1966 verschenen Personnel Testing and Placement van Dunnette geven een goede en informatieve behandeling van de klassieke Amerikaanse 1 Historische ontwikkeling van het testen 31 benadering van het selectieproces. Later werd selectie gezien als meer dan toegepaste testpsychologie. Zo pogen Cronbach en Gleser (1957, 1965) de selectiesituatie te zien als een beslissingssituatie, en daar een beslissings-theoretisch raamwerk voor te ontwerpen. Van recenter datum zijn de boeken van Anderson en Herriot (1997), Schmitt en Chan (1998), Campbell en Knapp (2001), Evers, Anderson, en Voskuijl (2005), en Smith en Smith (2005). Belangrijke stimulerende en bijsturende invloeden zijn zeker ook uit- gegaan van het in 1954 door een Testcommissie van de American Psychological Association gepubliceerde Technical recommendations for psychological tests and diagnostic techniques. Hiervan zijn later regelmatig revisies verschenen. Vanuit ‘educational measurement’ (onderwijskundig meten) werd een belangrijke invloed uitgeoefend op de testtheorie en de acceptatie van testtheoretische principes. Belangrijke boeken zijn hier die van Lind- quist (1951), Cronbach (1964), Aiken (1971), Thorndike (1971a) en Nunnally (1972). Minder theoretisch en meer gericht op de praktijk van de schooltoetsconstructie waren de boeken van Adkins (1961) en Ebel (1965). Diverse van de modernere boeken zijn hierboven reeds in de opsomming van handboeken over testtheorie en psychometrie ge- noemd. Overigens zijn de theoretische onderbouwingen van de psy- chometrie en het onderwijskundig meten steeds meer hand in hand gegaan. Dit heeft vooral plaatsgevonden in de vorm van de vele ont- wikkelingen op het terrein van de moderne testtheorie of de item- responstheorie (hoofdstuk 7). Dit neemt niet weg dat sommige toe- passingen van theorie en testpraktijk typisch psychologisch of typisch onderwijskundig kunnen worden genoemd, zonder dat zij elkaar overigens uitsluiten. Een volgende belangrijke invloed op de testtheorie is afkomstig uit de schaaltheorie. Belangrijke boeken op het terrein van schaal- en be- oordelingsmodellen zijn die van Torgerson (1958) en Coombs (1964). Veel praktischer was het reeds eerder gepubliceerde boek van Edwards (1957). Ook de uit de schaaltheorie voortkomende invloeden, zoals het meten van voorkeuren voor bepaalde stimuli via ontvouwings- en preferentiemodellen, hebben blijvende invloed gehad op de psycho- metrie (maar minder op de psychologische test). De scalogramanalyse van Guttman (1950), die vooral werd ontwikkeld voor het meten van attitudes, is een ander voorbeeld van blijvende invloed op de psycho- metrie. De genoemde ontwikkelingen lijken de typering ‘expansie’ voor de naoorlogse periode inderdaad te rechtvaardigen. Duidelijk wordt 32 Testtheorie hierin ook dat in Amerika met de sterke groei van het aantal tests een diepgaande bezinning op de theoretische achtergronden gepaard ging. Een andere oorzaak van de versnelde testontwikkeling en testresearch is de ontwikkeling en uitbouw van de verwerking van testgegevens per computer. Momenteel wordt de computer niet alleen gebruikt voor rekenkundige bewerkingen maar ook voor het geautomatiseerde tes- ten per computer. Deze elektronische vorm van testen vervangt dan de gebruikelijke ‘paper-and-pencil’-tests, maar ook tests waarin de op- drachten bijvoorbeeld bestaan uit een spel met blokken of het sorteren van geometrische of andere figuren, zoals die vaak in intelligentie- testbatterijen worden aangetroffen (zie ook de hoofdstukken 3 en 4). In deze laatste gevallen gaat een test enigszins lijken op een compu- terspelletje (‘game’). Ook worden computers gebruikt voor de con- structie en het onderhoud van itembanken (dit zijn grote verzamelin- gen van items, waaruit vele testversies kunnen worden samengesteld; hoofdstuk 7) en adaptief testen (dit is het aanbieden van testversies die zo veel mogelijk op het niveau van de onderzochte zijn afgestemd; hoofdstukken 5 en 7). 1.4.2 ontwikkelingen in europa, vooral in nederland De ontwikkeling van de testtheorie en de testconstructie in Europa heeft lange tijd in de schaduw gestaan van de ontwikkeling in de Verenigde Staten en, in mindere mate, Engeland. Nog steeds is de testtheorie alsmede het gebruik van tests in grote delen van Europa nauwelijks tot ontwikkeling gekomen. Vooral sinds de jaren zestig en zeventig van de vorige eeuw is daarin in landen als Duitsland, Oos- tenrijk, Nederland en België en de Scandinavische landen verandering gekomen. Momenteel is er in West-Europa zelfs sprake van een bloeiende testtheorie en -praktijk. Van groot belang voor de ontwik- keling van de testtheorie in West-Europa zijn de boeken van Rasch (1960) en Fischer (1974) geweest, en daarna in het Duitstalige gebied die van Spada (1976), Rudinger, Chaselon, Zimmermann en Henning (1985), Kubinger (1988), Rost (1988, 1996) en Steyer en Eid (2001). Van wat oudere datum, maar in hun tijd invloedrijk, zijn de boeken van Meili (1951) en Lienert (1961). Van de Europese tijdschriften die re- gelmatig publiceren over testtheorie, testconstructie en testgebruik, noemen we British Journal of Mathematical and Statistical Psychology, Diagnostica, European Journal of Psychological Assessment, Psychologische Bei- träge, Zeitschrift für experimentelle und angewandte Psychologie en Quality & Quantity. 1 Historische ontwikkeling van het testen 33 De ontwikkeling van de testtheorie en het testgebruik in Nederland werd in de jaren veertig en vijftig van de twintigste eeuw nog in sterke mate gekenmerkt – geremd zelfs – door de oriëntatie van de psycho- logie op de intuı̈tie van de psycholoog, het ‘verstehen’ en de ontmoe- ting met de cliënt (zie bijv. Dehue, 1990). Binnen deze oriëntatie was nauwelijks ruimte voor een objectieve, kwantitatieve benadering, die op dat moment in de Verenigde Staten gemeengoed was. Als er tests werden gebruikt, dan waren dit vaak observatietests of projectieve tests. Psychologen die in de jaren vijftig een belangrijke invloed had- den op de stimulering van het testgebruik en, meer algemeen, de ontwikkeling van de Nederlandse psychologie als wetenschap naar min of meer Amerikaans model, waren Kouwer (1957), De Groot (1961) en Van de Geer (1961); zie Van der Heijden en Sijtsma (1996) voor een uitvoeriger behandeling van deze periode. Een eveneens belangrijke impuls in de richting van wetenschappelijk verantwoord testgebruik ging uit van Van der Giessen (1957), die een dissertatie schreef over voorspellingen in de psychologie. Deze studie werd later door vele anderen gevolgd. In Kouwers (1963) Het spel van de persoonlijkheid, en nog veel pregnanter in Linschotens (1964) Idolen van de psycholoog werd afgerekend met de vele vooroordelen en schijnar- gumenten die op het terrein van de persoonlijkheidsdiagnostiek de ronde deden. In 1961 publiceerde Van de Geer een monografie waarin de gevaren van het intuı̈tieve interpreteren van testprestaties uit de doeken werd gedaan. In 1965 verscheen de eerste druk van Drenths De Psychologische Test (Drenth, 1965a), de voorloper van het voorliggende boek, waarin een krachtig pleidooi werd gevoerd voor een systema- tisch empirisch-wetenschappelijk testgebruik. Ten behoeve van een betere communicatie en ter bevordering van het testonderzoek stelde het Nederlands Instituut van Psychologen in 1959 een Test Research Commissie (tegenwoordig Commissie Test- aangelegenheden Nederland, cotan) in, met als belangrijkste taak de publicatie van een overzicht van in Nederland bestaande en in gebruik zijnde tests alsmede documentatie van het onderzoek hiermee ver- richt. De eerste publicatie verscheen in 1961, gevolgd door diverse bijgewerkte publicaties. De meest recente Documentatie van Tests en Testresearch in Nederland is die van Evers, Van Vliet-Mulder en Groot (2000a, b). Het zou te ver voeren om een overzicht van in Nederland ontwikkelde of bewerkte tests te geven. In de Documentatie van Tests en Testresearch in Nederland worden 457 psychologische tests en vragen- lijsten besproken. Het aantal dat in omloop is en daadwerkelijk wordt gebruikt is nog veel groter, maar uit het feit dat zij niet door de cotan worden besproken, kan vaak worden afgeleid dat hun psychometri- 34 Testtheorie sche kwaliteiten tekortschieten of dat zij nog in ontwikkeling zijn (zie ook hoofdstuk 10). Tot slot noemen we de ontwikkeling in Nederland van de schoolvor- deringentests. Deze tests worden in Engeland en nog veel meer in de Verenigde Staten zeer veel gebruikt. Tot in de jaren zestig van de vorige eeuw was dat in ons land nauwelijks het geval. De beoordeling van schoolprestaties, veelal door middel van proefwerken, werd over- gelaten aan het onderwijzend personeel. Van de toelatingsexamens en de landelijke eindexamens kon zeker niet gezegd worden dat ze het karakter hadden van een goede schoolvorderingentest: daarbij dient van tevoren een kwalitatieve, maar zeker ook een kwantitatieve analyse van de bruikbaarheid van de opgaven te zijn gemaakt. Het ‘essay- examen’ was en is eigenlijk nog steeds sterk in zwang. In de jaren zeventig deed de testtheorie haar intrede bij de beoordeling van school- en opleidingsprestaties. We refereren aan Mellenbergh (1971) en Sandbergen (1973) en verder aan een groot aantal publicaties op het terrein van de constructie van studietoetsen en daarmee ver- wante problematiek dat in de jaren zeventig en tachtig verscheen in het Nederlands Tijdschrift voor de Psychologie en het Tijdschrift voor Onder- wijsresearch. Een van de belangrijkste stimulansen was het werk van De Groot en zijn medewerkers (1967) in samenwerking met het Nuts- seminarium voor Pedagogiek ter constructie van de ‘Amsterdamse schooltoetsen’. Ook hebben de vaak prikkelende opinies van De Groot, bijvoorbeeld in zijn boek Vijven en zessen (1966) deze vorm van evaluatie van schoolprestaties bevorderd. Realisatie van een van zijn voorstellen, de oprichting van een landelijk centraal instituut voor toetsontwikkeling naar model van de Amerikaanse ets, vond plaats in de vorm van de oprichting van het cito, het Centraal Instituut voor ToetsOntwikkeling, te Arnhem. Dit instituut verzorgt in Nederland op grote schaal de toetsconstructie, niet alleen voor het basisonderwijs, maar ook voor allerlei vormen van voortgezet algemeen en beroeps- onderwijs; niet voor het academisch onderwijs. Handboeken als Algemene Psychodiagnostiek I van De Zeeuw (1971, en de recente versie van De Zeeuw, Dekker & Resing, 2004), Studietoetsen van De Groot en Van Naerssen (1977), Testleer en testconstructie van Van den Brink en Mellenbergh (1998) en de voorgaande edities van het onder- havige boek sinds 1965, hebben algemeen ingang gevonden. Verder verdienen vermelding het boek Statistical models in psychological and educational testing (De Gruijter & Van der Kamp, 1984) en Psychometrie in de praktijk (Eggen & Sanders, 1993). 1 Historische ontwikkeling van het testen 35 Aanvankelijk werden de meeste wetenschappelijke bevindingen op het gebied van testtheorie en testconstructie gepubliceerd in de Neder- landse vaktijdschriften en in hoofdstukken van bundels en boeken. We noemden reeds het Nederlands Tijdschrift voor de Psychologie en het Tijdschrift voor Onderwijsresearch. De aanvankelijk belangrijke rol van deze tijdschriften op deze terreinen is heden ten dage echter uitge- speeld, als gevolg van het universitaire beleid om onderzoekers vrijwel alleen nog te beoordelen op publicaties in internationale tijdschriften, in de praktijk vooral de Amerikaanse. Overigens is dit beleid uitste- kend gebleken om de goede kwaliteit van de Nederlandse psycho- metrie internationaal zichtbaarder te maken dan voorheen. Dit heeft ertoe geleid dat de Nederlandse psychometrie zoals die aan de uni- versiteiten en het cito wordt beoefend, internationaal een promi- nente plaats inneemt (Van der Heijden & Sijtsma, 1996). Hierbij speelde een rol dat, na een aanvankelijke versnippering van het onderzoek, de universitaire onderzoeksactiviteiten sedert 1987 ge- bundeld zijn in het Interuniversitair Onderzoeksinstituut voor Psy- chometrie en Sociometrie (iops). Het iops is een samenwerkings- verband van zeven Nederlandse universiteiten en een Belgische. De taken van het iops zijn vooral het bundelen van het promotieonder- zoek in de psychometrie en de sociometrie via de aanbieding van gespecialiseerde cursussen en het verzorgen van congressen, en te- vens het aan een breder publiek van onderzoekers aanbieden van postdoctorale cursussen over vernieuwende onderwerpen in de sta- tistiek en de psychometrie. We sluiten dit hoofdstuk af met de constatering dat de testtheorie, de testconstructie en het testgebruik in Nederland vanaf de jaren zestig van de twintigste eeuw een hoge vlucht hebben genomen. Daarmee heeft de psychologische test definitief een wetenschappelijk verde- digbare plaats veroverd in de Nederlandse psychologie. Opdrachten 1 Aan het begin van dit hoofdstuk worden enkele voorbeelden ge- noemd van beoordeling in de Chinese en bijbelse oudheid. Waarin ligt volgens u de overeenkomst met het psychologisch testen? 2 Welke drie hoofdinvloeden op de ontwikkeling van de psycho- logische test zijn te onderscheiden? 36 Testtheorie 3 Hoe was de Duitse experimentele psychologie op positieve wijze van invloed op de ontwikkeling van het testen? En wat waren twee negatieve invloeden? 4 Hoe denkt u dat het komt dat de eerste Amerikaanse tests (einde negentiende eeuw) een geringe samenhang vertoonden met praktische criteria, zoals school- en opleidingsresultaten? 5 Op welke drie wijzen had Galton invloed op de testpsychologie? 6 Waarin was de intelligentietest van Binet anders dan alle voor- gaande tests? 7 Was Binet een belangrijk theoreticus? Motiveer uw antwoord. 8 Welk type intelligentie, in termen van intelligentietheorieën, mat de Binet-Simon-test? 9 Welke twee testtechnische vernieuwingen werden door Terman met de Stanford-Binet-test geı̈ntroduceerd? Legt u eens uit waar- om deze twee vernieuwingen belangrijk waren. 10 Geef een schets van de toestand van de testpsychologie in de periode voorafgaand aan de Eerste Wereldoorlog. 11 Op welke filosofische traditie was het testen in Europa in de periode tussen de twee wereldoorlogen gebaseerd? En op welke traditie de Amerikaanse? 12 Waarom waren groepstests zo populair in de Verenigde Staten? 13 Het testen van grote aantallen immigranten werkte de ontwikke- ling van een nieuw soort test in de hand. Wat was het kenmerk van deze soort? 14 Wat was tussen beide wereldoorlogen de rol van Engeland in de ontwikkeling van tests? 15 Welk doel diende de belangstelling voor de statistiek ten behoeve van de testevaluatie? 16 Waaruit kwam de persoonlijkheidsvragenlijst voort? 1 Historische ontwikkeling van het testen 37 17 Wat is een projectietest? 18 Noem een kenmerkende ontwikkeling van de testpsychologie in de Verenigde Staten sinds de Tweede Wereldoorlog. 19 Waardoor werd aanvankelijk de ontwikkeling van testgebruik en testtheorie in Nederland geremd? 20 Hoe komt het dat Nederlandse psychometrici tegenwoordig niet veel meer publiceren in Nederlandse tijdschriften? Wat is hiervan het gevolg geweest voor de internationale positie van de Neder- landse psychometrie? Definitie, kenmerken en 2 toepassingen van de test In dit hoofdstuk wordt de definitie gegeven van de psychologische test. Door de test tegenover de voorwetenschappelijke oordeelsvor- ming te plaatsen, kunnen enkele kenmerken van een goede test wor- den geformuleerd. Ook wordt de relatie tussen testen en meten be- handeld, komen de belangrijkste meetniveaus aan de orde en worden opvattingen over het meten van psychologische eigenschappen be- handeld. Dit resulteert in een stellingname over meten in de psycho- logie en, hieruit voortvloeiend, eisen aan de constructie van tests. Dit hoofdstuk wordt besloten met een kort overzicht van de toepassings- mogelijkheden van de test. 2.1 Wat is een test? 2.1.1 onderdelen van een test In het algemeen komt men in een verantwoorde en gepubliceerde test de volgende onderdelen tegen. Testmateriaal. Het testmateriaal varieert sterk met de soort van de test. Voor een schriftelijke intelligentietest bestaat het testmateriaal bij- voorbeeld uit een testboekje met opgaven die ter oplossing worden voorgelegd. Bij een individuele prestatietest kan dit materiaal bestaan uit bouwstenen, legpuzzels of tekenpapier. Soms ook kan het bestaan uit platen, foto’s of onvolledige zinnen, waar de onderzochte respec- tievelijk over moet vertellen, uit moet kiezen, of een zinvol einde voor moet bedenken. In een enkel geval is er geen materiaal in strikte zin, bijvoorbeeld wanneer de test bestaat uit een vrije discussie, die een groepje personen moet voeren over een onderwerp dat relevant is voor het te beoordelen gedrag. De presentatie van de test per computer komt in hoofdstuk 5 aan de orde. 2 Definitie, kenmerken en toepassingen van de test 39 Testformulieren. Op de testformulieren worden de antwoorden, reacties of gedragsgegevens verzameld, die vervolgens het materiaal vormen waaruit de psychologische interpretatie of conclusies worden afgeleid. Bij de schriftelijke vaardigheidstests zijn het vaak aparte antwoord- formulieren, terwijl soms ook de opgave- en de antwoordbladen zijn samengevoegd tot één formulier. Bij persoonlijkheidsvragenlijsten zijn de vragen en antwoordmogelijkheden meestal op één formulier opgenomen. Bij observatietests en projectieve technieken dienen deze formulieren voornamelijk voor de registratie van observatiegegevens en duidingen, of soms ook voor het aangeven van duidingscatego- rieën. Hierbij wordt het ‘antwoordformulier’ niet door de respondent ingevuld, maar door de proefleider die zijn gegevens uit het geobser- veerde gedrag of uit de mondelinge communicatie van de onderzochte afleidt. Testhandleiding. De testhandleiding varieert van een uitvoerig boekwerk tot beknopte richtlijnen. Van een goede handleiding mag men ver- wachten dat daarin de volgende vier onderwerpen aan de orde komen. 1 Een exacte testinstructie. Deze instructie bevat een bespreking van de testprocedure, de condities voor een goede testsituatie, de woorde- lijke aanwijzingen en de uitleg, de proefopgaven die aan de eigen- lijke test voorafgaan, de volgorde van de opgaven, de toegestane responstijden, waarschuwingen op bepaalde momenten tijdens de testsessie, wat de proefleider mag antwoorden op vragen, kortom al datgene wat betrekking heeft op de gang van zaken tijdens het testonderzoek. 2 De verwerkingsprocedure. De verwerkingsprocedure bestaat voorna- melijk uit de richtlijnen voor de toekenning van numerieke scores aan de antwoorden of de reacties op de opgaven. Men dient daar- voor te beschikken over de sleutels van de opgaven. Dit zijn de aanwijzingen voor de vraag welke antwoorden juist of onjuist zijn of indicatief of contra-indicatief zijn voor een bepaald verschijnsel, en hoe deze antwoorden van scores te voorzien. Aan een goed ant- woord zou bijvoorbeeld de score 1 en aan een fout antwoord de score 0 kunnen worden toegekend. Ook moet men weten hoe de niet beantwoorde opgaven moeten worden beoordeeld. 3 De normtabellen. Vrijwel altijd wordt de testprestatie, uitgedrukt in een numerieke testscore (bijv. vergelijkbaar met een tentamencij- fer), gewaardeerd en geı̈nterpreteerd tegen de achtergrond van de prestaties van anderen. In voor dit doel geconstrueerde normtabel- len kan de score worden vergeleken met de prestaties van meer of minder representatieve normgroepen. Deze mogelijkheid tot ver- 40 Testtheorie gelijking vormt een voorwaarde voor een nadere interpretatie en evaluatie van de testprestatie of het testgedrag. 4 De handleiding dient een bespreking te bevatten van de wetenschappelijke kwaliteiten van de test. Het gaat hierbij om gegevens die een indicatie geven van de betrouwbaarheid van de test (de vraag in hoeverre de testprestatie herhaalbaar is), een bespreking van de testbetekenis (de vraag welke psychologische eigenschap de test meet) en de vraag voor welke voorspellingen de test gebruikt kan worden. In de hoofdstukken 6 (Betrouwbaarheid) en 8 (Validiteit) gaan we uitvoeriger op deze begrippen in. Hier volstaan we met de opmerking dat veel van het empirisch onderzoek dat aan de publicatie van een test voorafgaat, betrekking heeft op de bepa- ling van de betrouwbaarheid en de betekenis, en dat een goede handleiding een neerslag bevat van dit onderzoek. 2.1.2 eerste omschrijving De bedoeling van het testonderzoek is het doen van een uitspraak die een voorspelling, classificatie of beschrijving met betrekking tot het onderzochte individu behelst. Ook al wordt dat niet altijd expliciet in de conclusie geformuleerd, impliciet gaat het daarbij vrijwel altijd om een vergelijking met andere mensen. Een uitspraak over iemands intelligentie, agressiviteit of neuroticisme heeft alleen zin als de on- derzochte ten aanzien van die eigenschap wordt vergeleken met an- deren. Hierbij kan gedacht worden aan een kleine, selecte groep, die in dezelfde omstandigheden verkeert als de onderzochte of – het andere uiterste – aan een totale, landelijke populatie. De aard en de grootte van de vergelijkingsgroep hebben belangrijke gevolgen voor de draagwijdte van de conclusie over de geteste persoon. Wel geldt in alle genoemde gevallen dat de uitspraak impliciet betrokken is op de referentiegroep. Lang niet alle middelen die ons in staat stellen een uitspraak te doen over iemand in vergelijking met anderen, kunnen tests worden ge- noemd. Bij een test denken we aan een systematisch onderzoek van apart voor het testdoel geselecteerde gedragingen. Deze gedragingen zijn gekozen omdat zij een typerende steekproef vormen uit een ge- heel van gedragingen, die men niet allemaal in één enkele testsessie kan onderzoeken. Hiermee zijn we gekomen tot een omschrijving van de psychologische test als ‘een systematisch onderzoek van gedrag met behulp van spe- ciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelij- king met anderen’. 2 Definitie, kenmerken en toepassingen van de test 41 De vraag die wij vervolgens beantwoorden is, of het wel nodig is een test te gebruiken terwijl er in de dagelijkse praktijk zoveel andere methoden bestaan die een bijdrage leveren tot het inzicht in de eigenschappen van een persoon. In de volgende paragraaf gaan we nader in op deze vraag en laten we tevens zien in welke opzichten de psychologische test zich onderscheidt van het voorwetenschappelijk oordeel. 2.1.3 kenmerken van een test Iedereen kent uit zijn of haar omgeving en ervaring tal van juiste oordelen en rake typeringen, zonder dat deze op een test, of zelfs op enig psychologisch onderzoek zijn gebaseerd. Bij de beschikbaarheid van voldoende juiste informatie is het dan ook niet altijd nodig een test te gebruiken bij de oordeelsvorming over het menselijk gedrag. Indien de psychologische test wel een juister beeld oplevert dan het voor- wetenschappelijk oordeel, of een verbetering en aanvulling hierop kan betekenen en de kosten of ethische bezwaren niet onoverkomelijk zijn, is het gebruik ervan gerechtvaardigd. Dat de psychologische test hiertoe vaak in staat is, kan blijken uit zes kenmerken waarop een goede test in de meeste gevallen in het voordeel is ten opzichte van het voorwetenschappelijk oordeel. Efficiëntie In het dagelijks leven doen zich talrijke situaties voor die aanwijzingen verschaffen voor het schatten van bijvoorbeeld de intelligentie. Voor- beelden zijn indrukken uit antwoorden en reacties op ingewikkelde praktische problemen, zowel van technische als sociale aard, gedra- gingen en prestaties op school, de mate van belezenheid en de han- digheid in het oplossen van bijvoorbeeld kruiswoordpuzzels of cryp- togrammen. Wil men informatie uit dergelijke situaties gebruiken om iemands intelligentie te beoordelen, dan is het probleem echter dat men moet wachten tot deze situaties zich voordoen. Voor de beoor- deling van intelligentie komt daar nog de moeilijkheid bij dat deze situaties typerend zijn voor het alledaagse contact tussen mensen waarin meestal juist niet de schatting van de intelligentie vooropstaat. Intelligentie is in dit contact eerder een soort ‘bijproduct’ en komt daardoor meestal niet volledig tot haar recht. De schatting van de intelligentie is dan ook steeds inexact en vooral arbitrair. Hiertegenover staat de intelligentietest, die speciaal is samengesteld om een schatting van de intelligentie te verkrijgen. Men is niet af- hankelijk van het min of meer toevallig beschikbaar zijn van gelegen- heden waarin intelligent gedrag zich voordoet. De testconstructeur 42 Testtheorie heeft een verzameling van opgaven geselecteerd of geconstrueerd, die alle optimaal een appèl doen op het intelligente reageren. Vervolgens creëert de testpsycholoog een testsituatie, waarin bijkomstigheden en storende invloeden zo veel mogelijk worden geweerd. Standaardisatie Standaardisatie is één van de noodzakelijke voorwaarden voor de vergelijkbaarheid van testprestaties. Om iets verstandigs over een testprestatie te kunnen zeggen, dient deze vergelijkbaar te zijn met de prestaties van anderen. Ook het voorwetenschappelijk oordeel draagt deze notie van het vergelijken expliciet of impliciet in zich. Een con- clusie dat iemand een behoorlijke intelligentie heeft, impliceert altijd een vergelijking met andere normale Nederlanders, met andere gym- nasiumleerlingen, met de andere verpleegden in een inrichting voor zwakzinnigen of met de andere sollicitanten naar een functie. Wil men de onderzochte ter vergelijking naast anderen plaatsen, dan moet men de betrokkenen in gelijke omstandigheden hebben zien opereren. De situatie waarin we de onderzochte bezig zien, en waarin deze een prestatie levert op basis waarvan bijvoorbeeld een conclusie over het intelligentieniveau wordt getrokken, moet vergelijkbaar zijn met de situatie waarin de referentiegroep heeft verkeerd. Het beste bereikt men dit door die situatie te standaardiseren. Van een dergelijke standaardsituatie is in het voorwetenschappelijk oordeel nauwelijks sprake. De ene persoon wordt intelligent bevonden omdat hij be- paalde, overigens niet moeilijke, opdrachten snel kan oplossen, een andere minder intelligent omdat hij veel moeilijkere opdrachten niet zo snel oplost. De een presteert ‘goed’ in een klas met matig begaafde kinderen, de ander ‘minder goed’ in een intellectueel hoogstaande klas. Bij een goede test wordt de vergelijkbaarheid van prestaties bereikt door de condities en invloeden die op de testprestatie kunnen inwer- ken zo veel mogelijk te standaardiseren. De gelijkschakeling van de procedure van afneming, van testmateriaal, instructie en oefenvoor- beelden, van tijdlimieten en verwerkingsregels staat borg voor een zo goed mogelijke vergelijkbaarheid van testprestaties. Dit is ook een belangrijke reden voor de wenselijkheid van een uitvoerige handlei- ding waarin al deze aspecten gedetailleerd ter sprake komen. De standaardisatie-eis is een norm waaraan een test meer of minder kan beantwoorden. Bij volledige afwezigheid van enige standaardisa- tie in de testsituatie is niet meer sprake van een ‘test’, maar voor het 2 Definitie, kenmerken en toepassingen van de test 43 overige houdt deze eis een ideaal in waarnaar men bij testconstructie en testafneming zo veel mogelijk dient te streven. Normering De eis van vergelijkbaarheid van testprestaties houdt nog een tweede consequentie in. Wil men de intelligentie van persoon A vergelijken met die van persoon B met behulp van welke indicatie dan ook (bijv. belezenheid, schoolprestatie, testprestatie), dan moet men in elk geval de afstand tussen A en B zo exact mogelijk schatten. Exactheid stelt de beoordelaar in staat ook kleinere verschillen vast te stellen. Natuurlijk bestaat er in de voorwetenschappelijke beoordeling wel degelijk een notie van ‘meer of minder’. Een paar maal doubleren is ‘duidelijk’ bedenkelijker dan het diploma in het vereiste aantal jaren behalen, de ene gezichtsuitdrukking vindt men ‘veel’ intelligenter dan de andere en alleen al het noemen van de eigenschap ‘belezenheid’ impliceert een onuitgesproken kwalificatie ‘grotere belezenheid dan de gemiddelde burger’. Van een exacte vergelijking is in deze voorbeelden echter geen sprake en daar ligt nu juist de moeilijkheid. Het gaat nu niet over de vraag of bijvoorbeeld belezenheid een correcte indicatie voor intelligentie is, maar over de onzuiverheid van de voorwetenschappelijke vergelijking en de onnauwkeurigheid van de voorwetenschappelijke schatting van ‘hoe veel bedenkelijker’, ‘hoe veel intelligenter’ en ‘hoe veel grotere belezenheid’. Bij grote verschillen zijn er niet zo veel problemen, maar voor de vaststelling van kleinere verschillen is een gevoeliger instru- ment nodig dat niet uitgaat van de grove maatstaven die in het leken- oordeel worden gebruikt. Dit geldt ook voor een zo exact mogelijke weergave van de verschillen. Indien er veel van afhangt, bijvoorbeeld de toelating tot een school, de promotie tot chef, de selectie voor een functie of het toekennen van prijzen, schiet de praktijkbeoordeling meestal te kort. De genormeerde psychologische test is veel beter in staat aan deze eisen te beantwoorden dan de praktijkbeoordeling. In het norme- ringsonderzoek is op zijn minst een rangorde vastgesteld van zeer goede tot zeer slechte prestaties, zodat iemands prestatie door middel van een plaatsbepaling in deze rangorde kan worden beoordeeld. Hierbij is men gebonden aan de groep proefpersonen waarop deze nor