Ipsatieve tests (gedwongen keuze)

Met toestemming van de auteur Danny Rouckhout, psycholoog en ex docent psychometrie. Beschermd door copyright.

 

Wat is ipsatief

Een systeem waarbij de respondent in feite een vast aantal punten (=de constante waarde) verdeelt over een aantal schalen die in de test zijn opgenomen. Voor elke respondent zal de som over de verschillende item-scores dus gelijk zijn.

 De schaal die het vaakst wordt gekozen zal de meeste punten opslokken, de andere schalen zullen, omwille van de constante som, onvermijdelijk minder punten toebedeeld krijgen. Het resultaat is een ordening van de schalen volgens hun belang voor de respondent zelf (=intrapersoonlijk). Dat verklaart ook de term ipsatief. De term ‘ipsatief’ komt immers van ‘ipse’=zelf.

 De term ipsatieve scores of ipsatieve scoring wordt dus gebruikt wanneer de som over een aantal item-antwoorden steeds een constante oplevert.

 

Hoe worden ipsatieve scores gebruikt?

Er zijn verschillende manieren om tot ipsatieve scores of ipsatieve schalen te komen:

  • geven van voorkeurscores;
  • paarsgewijze vergelijking van items;
  • sorteren van items in vooraf opgelegde categorieën (vb. Q-sort methode);
  • de meest gebruikte vorm is zeker die waarbij een gedwongen keuze (Forced Choice) antwoordvorm wordt gebruikt.

 

 Bij de gedwongen keuze antwoordvorm worden de vragen aan de respondent voorgelegd in setjes van twee of drie items. De respondent moet steeds dat item aanduiden dat het meest typerend is, of de grootste voorkeur wegdraagt. De alternatieven die binnen een set voorkomen behoren doorgaans tot een andere schaal. Het item dat wordt gekozen zorgt als gevolg voor een score van +1 voor de desbetreffende schaal en 0 (soms ook -1) voor de niet gekozen schalen. Op die manier krijg je een systeem waarbij de respondent in feite een vast aantal punten (=de constante waarde) verdeelt over een aantal schalen. De schaal die het vaakst wordt gekozen zal de meeste punten opslokken, de andere schalen zullen, omwille van de constante som, onvermijdelijk minder punten toebedeeld krijgen. Het resultaat is een ordening van de schalen volgens hun belang voor de respondent zelf (=intrapersoonlijk).

Wanneer een volledige paarsgewijze vergelijking wordt gebruikt of een gedwongen keuze systeem met voor elke schaal evenveel items, spreekt men vaak van ‘zuivere’ ipsatieve scores. Er zijn immers andere meetmethodes die aanleiding geven tot scores met een lagere graad van ipsativiteit. De gedwongen keuze antwoordvorm zal bijvoorbeeld niet zuiver ipsatief zijn wanneer de schalen niet allemaal hetzelfde aantal items hebben of wanneer de items verschillende gewichten dragen of wanneer een combinatie van gedwongen keuze en de klassieke Likert antwoordvorm (zie verder) wordt gebruikt. In al deze gevallen spreekt men van gedeeltelijke ipsativiteit.

 Een apart geval is de wijze waarop binnen de Myers-Briggs Type Indicator® (MBTI®) met gedwongen keuze wordt omgegaan. Kenmerkend aan het item formaat van de MBTI® is dat items uit één bipolaire schaal nooit samen worden aangeboden met items uit een andere bipolaire schaal. De set van twee items in de MBTI® is steeds opgebouwd uit twee items die de polen van één bipolaire schaal vertegenwoordigen. Hicks (1970) gebruikt hiervoor de term ‘normatief gedwongen keuze’ formaat.

 

Wat zijn normatieve scores?

Ipsatieve scores staan ten opzichte van normatieve scores. Bij normatieve scoring, de meest gebruikte vorm van scoring, worden de items één voor één aan de respondent aangeboden en wordt de itemscore verkregen door middel van een ja/nee, akkoord/niet akkoord of Likert[1] schaal antwoordvorm (zie tabel 1 – bijvoorbeeld: 0 = nooit; 1 = zelden; 2 = gemiddeld; 3 = meestal; 4 = altijd)). De ruwe optelsom over alle items heen is in dit geval geen vast getal en de som kan over de verschillende respondenten uiteenlopen. De benaming normatief komt van het feit dat de ruwe schaalscore (optelling van alle items uit dezelfde schaal) vergeleken wordt met een norm. De norm is meestal de score verdeling van een relevante steekproef[2] (= de normtabel).

 

Wat zijn geïpsatiseerde scores?

Normatieve scores kunnen ipsatief gemaakt worden door van elke ruwe score (bvb. de itemscore) het persoonlijk gemiddelde over alle items van de respondent af te trekken en te delen door de persoonlijke standaarddeviatie. Dit is een vrij technische aangelegenheid die hier verder niet wordt uitgelegd, maar kort gezegd bekom je op die manier een score die men geïpsatiseerd noemt. Bij geïpsatiseerde scores worden de initiële itemscores dus verkregen op een normatieve wijze en niet via een gedwongen keuze antwoordvorm.

Problemen bij ipsatieve scores.

De problemen van ipsatieve scoring zijn op verschillende manieren te illustreren. Een vergelijking tussen de gedwongen keuze antwoordvorm en de klassieke normatieve werkwijze volgt hieronder.

Tabel 1:

Vragen

Schaal

Ipsatief

Normatief (Likert schaal)

a) ik ben empatisch

S

x

1    2     3     4     5

b) ik win meestal

D

 

1    2     3     4     5

 

 

 

 

a) ik heb veel vrienden

S

x

1    2     3     4     5

b) ik heb veel ideeën

D

 

1    2     3     4     5

 

 

 

 

 Totaal schaal  S

 

 10/10

 7/10

 Totaal schaal  D

 

 0/10

 5/10

 In Tabel 1 worden 4 vragen afkomstig uit twee schalen (S en D) aangeboden door middel van een gedwongen keuze antwoordvorm en door middel van een normatieve Likert schaal. De kleine voorkeurvoor de schaal S die bij de respondent aanwezig is wordt bij de normatieve werkwijze duidelijk gemaakt door een score van 7/10 voor schaal S en een score van 5/10 voor schaal D. Men ziet dat bij gebruik van gedwongen keuzes, het kleine verschil in voorkeur enorm overdreven wordt:

Bij de ipsatieve werkwijze worden alle 10 te verdelen punten toegekend aan de schaal S en krijgt de schaal D geen enkel punt.

Bovendien betekent het toekennen van punten aan schaal S tezelfdertijd een vermindering van het aantal punten voor schaal D.

In dit voorbeeld merkt men reeds hoe sterk ipsatieve scoring de werkelijkheid kan vertekenen.

 Er zijn echter nog andere indicaties voor problemen.

 Bij het aanbieden van een reeks items aan respondenten gaat men er stilzwijgend van uit dat het antwoord of de score op een item een directe weerspiegeling is van de aanwezigheid van het kenmerk bij die respondent. Bij het gebruik van normatieve scores in combinatie met een 5-punten Likert type antwoordvorm wordt aangenomen dat een score van 5 een hogere aanwezigheid weerspiegelt dan een score van 3. Bij het gebruik van normatieve scores is dit, tot op zekere hoogte, gemakkelijk aan te nemen. Bij het gebruik van gedwongen keuze antwoordvormen is dit niet zo evident. Laat ons een voorbeeld nemen. We leggen de volgende set van twee items voor aan een respondent:

 

Item set 1:

Item 1 (meet Extraversie)—Ik voel me op mijn gemak bij mensen.

Item 2 (meet Consciëntieusheid)—Ik ga door tot alles perfect is.

Welke factoren beïnvloeden de keuze van één van deze items? Wanneer de respondent uiteindelijk zou kiezen voor alternatief 1, dan wordt aan de schaal extraversie +1 punt toegekend. De schaal consciëntieusheid ontvangt geen punten. De score van +1 op extraversie is hier echter geen directe weerspiegeling van de mate van extraversie bij de respondent. Het is eerder een weergave van het verschil tussen extraversie en consciëntieusheid. Vanzelfsprekend zal de mate van aanwezigheid van extraversie en consciëntieusheid in de respondent bij de keuze een rol spelen, maar dat is niet de enige beïnvloedende factor. Hoe sterk het niveau (de mate, intensiteit…) van extraversie en consciëntieusheid is dat vervat ligt in de beide items speelt hierbij eveneens een rol. Dit niveau noemt men de item-drempel. Laat ons ter verduidelijking van dit begrip het volgende voorbeeld geven. We bieden tweemaal een set van twee items aan, waarbij telkens de schaal extraversie wordt uitgezet tegenover consciëntieusheid.

 

Itemset 1:

Item 1 (meet Extraversie)—Ik ben steeds het centrum van de fuif.

Item 2 (meet Consciëntieusheid)—Ik gebruik een planning.

 

Itemset 2:

Item 1 (meet Extraversie)— Ik voel me op mijn gemak bij mensen.

Item 2 (meet Consciëntieusheid)— Ik ga door tot alles perfect is.

Bij itemset 1 is het niveau van extraversie duidelijk hoger dan dat van consciëntieusheid. Voor iemand alternatief 1 zal kiezen moet er al sprake zijn van een zeer extraverte persoon (=hoge item-drempel). Bij item set 2 ligt de zaak net andersom: perfectie is een veel sterkere mate van consciëntieusheid dan “een planning gebruiken”.

Samenvattend moet men vaststellen dat het gebruik van de gedwongen keuze antwoordvorm of het hanteren van ipsatieve scores aanleiding geeft tot

1) onderlinge afhankelijkheid van schaalscores en

2) dat de schaalscore geen directe weerspiegeling is van de aanwezigheid van het te meten kenmerk.

Immers, op grond van het feit dat de som over alle items gelijk is aan een constante, is het duidelijk dat veel punten toekennen aan één of een paar schalen onvermijdelijk aanleiding geeft tot lage scores op de resterende schalen en dat de item-drempel van de betrokken items de keuze (= de score) danig kunnen beïnvloeden. Het is in deze context belangrijk te benadrukken dat een lage score bij ipsatieve metingen in werkelijkheid wel eens een hoge (absolute) score kan vertegenwoordigen.

In het geval van geïpsatiseerde scores is de onderlinge afhankelijkheid minder omdat de item-scores op een normatieve wijze worden verkregen. Van zuivere item-afhankelijkheid is hier immers geen sprake. De vertekening van de scores is bij geïpsatiseerde scorevormen dan ook minder.

Vooral die onderlinge afhankelijkheid levert ernstige problemen op voor de berekening van betrouwbaarheid en validiteit en tevens voor de toepassing van technieken zoals factor-analyse. Bovendien is deze manier van werken in strijd met de basisassumpties van de klassieke testtheorie waarop de berekening van betrouwbaarheid, in al zijn vormen, steunt. In de volgende alinea’s volgt de uitleg hierover.

 

De klassieke testtheorie en de problemen bij ipsatieve scoring

Het uitgangspunt van de klassieke testtheorie is dat de ruwe score op een test samengesteld is uit twee delen. Enerzijds uit de zogenaamde “ware score” (Engels: “true score”) en anderzijds uit een deel “fout” (engels “error”). Formeel geschreven:

Xi = Ti + ei

 Waarbij Xi staat voor de ruwe score op de schaal i, Ti voor de ware score (True score) van de respondent op de schaal i en ei voor de proportie error.

Bij dit uitgangspunt komen nog een aantal assumpties die van belang zijn om de problemen van ipsatieve scoring te begrijpen. De proportie error (ei) wordt als random of puur toevallig beschouwd. De klassieke testtheorie houdt dus geen rekening met systematische fouten. Met systematische fouten bedoelt men foutenbronnen waar elke respondent onderhevig aan is, zoals een hevig achtergrondgeluid bij de afname van een aandachtstest. De ware score is een vast gegeven en wordt enkel beïnvloed door de mate waarin het kenmerk aanwezig is in de respondent. De ware score is dus onafhankelijk van de error component of van eender welk ander kenmerk. Het is onmiddellijk duidelijk dat ipsatieve scores als gevolg van gedwongen keuze, zich onttrekken aan deze basisassumpties. Bij ipsatieve scores is de ware score (True score) medeafhankelijk van de score van één of meerdere andere kenmerken en van de item-drempel van de betrokken items (zie de uitleg in de vorige paragrafen).

 

Probleem 1: Afhankelijkheid van de schaalscores.

De onderlinge afhankelijkheid van de schaalscores door het gebruik van gedwongen keuze antwoordvorm is niet altijd even sterk. Drie aspecten spelen hierbij een rol:

1) het aantal schalen dat in de vragenlijst of test wordt gemeten,

2) het aantal schalen dat in een bepaalde analyse (vb. betrouwbaarheidsonderzoek) wordt opgenomen en

3) de groepering van de items ten opzichte van elkaar.

Algemeen is het zo dat naarmate het aantal schalen in een test toeneemt, de afhankelijkheid wel degelijk aanwezig blijft, maar aanleiding zal geven tot lagere intercorrelaties…wat op het eerste zicht een uiting is van onafhankelijkheid. Deze verminderde afhankelijkheid wordt vaak als argument naar voor geschoven om toch ipsatieve scores te gebruiken. Men ziet dan wel over het hoofd dat de afhankelijkheid daarmee niet volledig weg is en dat men al snel 30 of meer (sub)schalen nodig heeft om dit effect te bereiken. Bovendien blijft de intercorrelatiematrix van de (sub)schalen een artefact (zie verder).

 

Probleem 2: De item-drempel.

Het probleem van de item-drempel zou theoretisch verholpen kunnen worden wanneer elke schaal vertegenwoordigd zou worden door evenveel items met een vergelijkbare item-drempel en wanneer men elk item in combinatie met elke ander item zou aanbieden (paarsgewijs vergelijken). Dit is praktisch een onmogelijke zaak. Los van het feit dat een paarsgewijze aanbieding een enorme ergernis en zelfs weerstand zou uitlokken bij de respondenten, is de samenstelling van een vast aantal items per schaal met vergelijkbare item-drempels een vrijwel ondoenbaar iets. Bij de instrumenten die op basis van gedwongen keuze werken zit men als gevolg in een situatie waarbij tussen sommige schalen een hogere afhankelijkheid zal voorkomen omdat hun items meer gekoppeld voorkomen en tussen andere schalen een lagere afhankelijkheid zal voorkomen omdat hun items minder in gekoppelde vorm voorkomen.

 

Probleem 3: De “kunstmatige” betrouwbaarheid van ipsatieve scores

De impact van ipsatieve scores op de berekening van de betrouwbaarheid is door meerdere auteurs besproken. Vooral Bartram (1966) heeft dit grondig onderzocht. Hij moest vaststellen dat de betrouwbaarheden van ipsatieve schalen daalden naarmate de normatieve correlaties tussen de schalen toenamen en ook daalden naarmate er minder schalen in de test aanwezig waren. Daarbij moet worden opgemerkt dat Bartram werkte met geïpsatiseerde scores en niet met ipsatieve scores. Echte ipsatieve scores (via gedwongen keuze) geven aanleiding tot nog lagere waarden.

Voor wat betreft het specifieke geval van de test-hertest betrouwbaarheid lijkt er op het eerste gezicht geen probleem te zijn. Een test-hertest correlatie toont eenvoudig de stabiliteit over de tijd van de gedwongen keuze antwoordvorm. Maar, hierbij wordt over het hoofd gezien dat de berekening van de test-hertest, net zoals de andere betrouwbaarheidsvormen, onlosmakelijk verbonden is met de uitgangspunten van de klassieke testtheorie, waarvan we reeds zagen dat die niet opgaan bij gebruik van gedwongen keuze. In termen van de klassieke testtheorie is betrouwbaarheid niets anders dan dat deel van de variantie dat toe te schrijven is aan de ware score. Meer concreet is betrouwbaarheid de ratio (de verhouding) tussen de ware score en de ruwe score (=hoeveel ware score zit er in mijn ruwe meting). Of, anders uitgedrukt, de proportie “waarheid” in je metingen. In statistische termen zegt men dat betrouwbaarheid wordt gedefinieerd als de verhouding van de ware variantie ten opzichte van de testscore variantie. Formeel geschreven:

        rxx’ = S²(T) / S² (T)

We gaan hier niet in op het bewijs hiervan, maar die ratio is gelijk aan de correlatie (rxx’) van een test met zichzelf. Om toch tot een zeker begrip hiervan te komen gebruiken we de hierna afgebeelde tekening.

X1                            X2

T+ E1                  T + e2

In de tekening hierboven staat X1 voor de ruwe score van de “test” afname en X2 voor de ruwe score van de “hertest” afname. Omdat de ware score (T) op beide momenten gelijk is (een vast gegeven) kan enkel de error component (e1 en e2), die random is, over de twee momenten verschillen. Een hoge correlatie kan dus enkel worden vastgesteld wanneer de proportie ware score groot is. Dus weerspiegelt de correlatie de proportie ware variantie/ware score. In het geval van ipsatieve scores is de ruwe score echter ook afhankelijk van de scores van andere schalen zodat dit model van test-hertest betrouwbaarheid niet gebruikt mag worden. In feite is de berekening van de betrouwbaarheid volgens de klassieke testtheorie totaal ongepast voor ipsatieve scores. Dat is ook geldig voor de MBTI, maar omwille van de mindere (maar nog wal bestaande) afhankelijkheid, uit zich dit minder. Zoiets als….je kan ernstig ziek zijn of minder ernstig ziek zijn, maar niettemin nog steeds ziek.

 

Probleem 4: De kunstmatige “onafhankelijkheid” van ipsatieve scores.

Factoranalyse is een zeer populaire techniek voor het aantonen van o.a. constructvaliditeit[3] bij vragenlijsten en tests. In vrijwel elke handleiding zullen dan ook een of meerdere factoranalyses worden besproken. De techniek zelf vertrekt vanuit een intercorrelatiematrix. Typisch is een intercorrelatiematrix van de verschillende schalen die samen de test uitmaken. Intercorrelatiematrices gebouwd op ipsatieve scores hebben echter een zeer eigenaardig kenmerk, nl. dat de gemiddelde intercorrelatie over alle correlaties uit de matrix steeds gelijk is aan -1/(k-1), waarbij k = het aantal schalen in de test. We illustreren dit met een studie van Mead (2004). Mead verzamelde de testgegevens van 2895 kandidaten voor de job van verkoopbediende binnen een grote supermarktgroep in de VS. De scores op de 8 verschillende schalen werden zowel op ipsatieve als normatieve wijze verzameld. In het voorbeeld in Tabel 2 staat in de rechteronderhoek de ipsatieve intercorrelatiematrix van de vragenlijst met 8 schalen. De voorspelde gemiddelde intercorrelatie is hier gelijk aan -1/(7-1) of  -0.16. De werkelijke gemiddelde intercorrelatie is in deze matrix -0.14. Het verschil is een gevolg van afronding naar twee decimalen. Op grond van deze regel is het ook duidelijk dat naarmate het aantal schalen zal toenemen de gemiddelde intercorrelatie zal dalen. Bij 15 schalen wordt de gemiddelde intercorrelatie gelijk aan -1/(15-1) of  -0.07. Met het toenemen van het aantal schalen zullen de individuele correlaties geleidelijk aan ook lager komen te liggen en zal men nog zelden een hoge correlatie aantreffen in de matrix. Dergelijke matrices worden dan vaak, foutief, geïnterpreteerd als bewijs voor een set van onafhankelijke variabelen, zeker wanneer de lezer niet op de hoogte is van het ipsatieve karakter van de schalen. In feite is de intercorrelatiematrix van een reeks ipsatieve schalen een artefact waarop geen enkele zinvolle interpretatie kan volgen.

Tabel 2: multitrait multimethod matrix voor ipsatieve en normatieve scores van dezelfde items. (N=normatief, I=ipsatief).

 

 

Nota: data overgenomen uit Mead (2004)

Wanneer men op dergelijke kunstmatige matrices een factoranalyse uitvoert, ziet men eveneens eigenaardige zaken. De gevolgen hiervan zijn goed beschreven door meerdere auteurs(Hicks, 1970; Johnson, Wood & Blinkhorn, 1988; Dunlap & Cornwell, 1994) maar zijn van statistisch technische aard (o.a. productie van kunstmatige bi-polaire factoren, soms communaliteiten gelijk aan 1 en afwezigheid van specifieke variantie, en andere). Laat ons volstaan met het besluit van Dunlap & Cornwell (1994) te vermelden:

“We are left with the recommending against the use of principal component, principal factoring, or maximum likelihood factor analysis with ipsative measures. The separation of artifactual bipolar factors induced by ipsativity from any true underlying relationship will be difficult at best, and not worth the danger of a largely incorrect interpretation.”

 

Probleem 5: onmogelijk validiteit te berekenen

Een zeer vaak gebruikte manier om de validiteit[4] van een test aan te tonen is deze test te correleren met een test die min of meer hetzelfde meet (convergente validiteit) of met een test die iets meet wat helemaal geen verband heeft met de te onderzoeken test (divergente validiteit). Omdat dergelijke convergente/divergente validiteitsonderzoeken steunen op correlaties zijn ze sterk onderhevig aan de vertekeningen van ipsatieve scores. We illustreren dit met de Edwards Personal Preference Schedule (EPPS). In Tabel 5 staat de intercorrelatiematrix van de 15 EPPS schalen met vier andere tests. Een zeer belangrijk en eigenaardig gevolg van ipsatieve scores is, dat de correlaties tussen ipsatieve scores en een criteriummaat naar 0 neigen. Dit is zeer duidelijk merkbaar bij de intercorrelaties tussen de EPPS en de NAT (Numerieke aanleg test), VAT (Verbale Aanleg test), Ruimtelijk inzicht (RI), Verbale analogieën (VA) en TNVA (Test voor Niet Verbale Aanleg) uit de testreeks van Drenth. In dit geval werden deze lage correlaties geïnterpreteerd als indicaties voor een goede divergente validiteit omdat van een persoonlijkheidsvragenlijst niet wordt verwacht dat de schalen hoog correleren met cognitieve maten. Helaas staan in de handleiding geen matrices waarmee de convergente validiteit kan worden berekend. Want, omwille van de ipsatieve scores van de EPPS, zal elke matrix aanleiding geven tot lage waarden, zelfs wanneer dezelfde constructen zouden zijn gemeten.

Tabel 3: correlaties en som van de correlaties voor de EPPS versus testreeks van Drenth. (gemid.=gemiddelde intercorrelatie)

 

 

AMB

RES

ORD

ZEV

AUT

VRI

IML

STE

DOM

ZEG

LIE

VAR

VOL

HET

AGG

Gemid

VAT

-.06

-.16

-.24

.11

.17

-.01

.03

.06

.02

.03

-.01

.17

-.12

.12

-.06

.05

NAT

-.08

-.21

-.33

.17

.21

.03

-.05

.01

-.01

.07

-.18

.2

-.07

.21

.08

.05

RI

-.1

-.22

-.17

.07

.15

.09

-.00

.06

.01

.08

-.06

.11

-.09

.17

-.01

-.01

VA

-.03

-.22

-.14

.27

-.22

.04

.2

.14

.01

.01

.16

-.08

-.23

.17

-.07

.01

 

Wanneer we te maken hebben met minder zuivere ipsativiteit wordt het verschijnsel waarbij de correlaties naar 0 neiging minder sterk. We geven hieronder (Tabel 4) een overzicht overgenomen uit Hicks (1970).

 

Tabel 4:Verwachte en berekende gemiddelde intercorrelaties voor tests variërend in ipsativiteitsgraad.

Test

Aantal schalen

Verwachte
gemiddelde intercorrelatie
(bij ipsativiteit)

Berekende
gemiddelde intercorrelatie

Ipsatieve

 

 

 

– Allport-Vernon-Lindzey Study of values

6

-0.20

-0.19

– Edwards Personal Preference Schedule

15

-0.07

-0.07

Gedeeltelijk Ipsatief

 

 

 

– Kuder Preference Record-Vocational

10

-0.11

-0.10

-Strong Vocational Interest Blank

39

-0.03

0.03

 

12

-0.09

-0.05

Normatieve gedwogen keuze

 

 

 

-Myers-Briggs Type Indicator

4

-0.33

-0.12; -0.10[5]

Normatief

 

 

 

-California Personality Inventory

17

-0.06

0.25 ; 0.31

 

 

Het is duidelijk dat met zuivere of gedeeltelijke ipsatieve scores de berekening van de werkelijke validiteit on­mogelijk wordt, aangezien de berekende correlaties ook hier artefacten zijn.

 

Probleem 6: de kunstmatig lage correlatiecoëfficienten van ipsatieve tests

Om de impact van ipsatieve scores en vooral het verschil met normatieve scores aan te tonen gebruiken we nogmaals Tabel 2. Op de diagonaal van de rechthoek linksonder, aangegeven in vet, staat de zogenaamde validiteits-as. Dit zijn correlaties tussen dezelfde schalen, maar gemeten met twee verschillende methodes, ipsatief versus normatief. In ideale omstandigheden verwacht men hier hoge correlaties, omdat de gebruikte meetmethode weinig of niets mag veranderen aan de meting van het construct. Dit is hier duidelijk niet het geval. Het gemiddelde over deze validiteits-as is 0.37, wat aantoont dat de methode (=ipsatieve) wel degelijk een zware impact heeft.

Wanneer men naar het patroon van de individuele correlaties kijkt ziet men eveneens sterke verschillen. Een voorbeeld: binnen de normatieve matrix linksboven is de correlatie tussen Participation and Empathy = 0.44. In de ipsatieve matrix rechtsonder bedraagt deze correlatie -0.02. Over het algemeen zie je binnen de ipsatieve matrix het typerende kenmerk van vrij lage en negatieve waarden (lage correlaties), terwijl er binnen de normatieve matrix meerdere hoge en positieve waarden voorkomen. De normatieve correlaties geven de werkelijkheid veel beter weer (er bestaan wel degelijk correlaties tussen “participatie” en “empathie”).

Het gebruik van ipsatieve scores als basis voor beslissingen (aanwerven/niet aanwerven) is eveneens problematisch. Ook hier gebruiken we als illustratie de data uit de studie van Mead (2004). Na het inzamelen van de verschillende scores van de 2895 kandidaten werd een hypothetische cut-off score gekozen voor elke schaal. Daarbij werden drie niveaus gebruikt: een cut-off op het 25ste , het 50ste en het 75ste percentiel. Concreet betekent dit dat iedereen boven deze cut-off wordt aangenomen en iedereen beneden deze cut-off niet wordt aangenomen. In Tabel 5 is de mate van overeenkomst tussen de beslissing met ipsatieve scores en die met normatieve scores uitgezet voor elk van de drie cut-off scores. Het is duidelijk dat wanneer gemiddelde (50ste percentiel) of hoge (75ste percentiel) cut-off scores worden gebruikt de beslissing over aanwerven of niet sterk beïnvloed wordt door de gebruikte meetmethode. Enkel bij lagere cut-off scores is er een overeenkomst van iets meer dan 70 procent te zien. Al mag 70 procent dan hoog klinken, dit wil nog steeds zeggen dat voor 30 procent van de kandidaten de jobbeslissing (werkloos/niet werkloos) afhankelijk was van de vorm waaronder de vragenlijsten werden aangeboden. Niet bepaald een troostende gedachte.

Tabel 5: percentage overeenkomst tussen normatieve en ipsatieve beslissing tot aanwerving voor drie verschillende cut-off scores.

 

 

Conclusie

Op basis van de verschillende punten die hierboven zijn besproken moet het duidelijk zijn dat de keuze voor een gedwongen antwoordvorm en/of ipsatieve scoring gevolgen heeft voor zowel de scoring, de  betrouwbaarheid, de validiteit en uiteindelijk de interpretatie van de test en eventuele beslissingen die op basis van de test zouden worden genomen. Al kan de graad van ipsatieve verstoring verschillen afhankelijk van de concrete antwoordvorm, ipsatieve verstoring blijft bestaan in meer of mindere mate. Het meest populaire argument pro ipsativiteit is de ‘overtuiging’ dat gedwongen keuze beter bestand zou zijn tegen sociaal wenselijk antwoorden. Dat was zeker een van de centrale uitgangspunten bij de constructie van de EPPS en omdat sociaal wenselijk antwoorden doorgaans een bekommernis is in selectiemiddens is ipsatieve scoring dan ook vaak in deze context populair. Helaas is dit tot nog toe een ‘overtuiging’ gebleven en geen vaststaand feit. Weinig onderzoekers hebben dit gegeven grondig onderzocht en de zeldzame rapporteringen hierover zijn niet zonder kritiek gebleven (Mead, 2004). In het licht van al deze bevindingen kan men zich de vraag stellen wat de meerwaarde is van het gebruiken van ipsatieve scoring of gedwongen keuze antwoordvormen. Het niet gebruiken sluit alvast de vaak sterke verstoringen omwille van schaal/item afhankelijkheid uit.

 

Referenties

Baron, H. (1996). Strengths and limitations of ipsative measurement. Journal of Occupational and Organizational Psychology, 69, 49–56.

Bartram, D. (1996). The relationship between ipsatized and normative measures of personality. Journal of Occupational and Organizational Psychology, 69, 25–39.

Clemans, W. V. (1966). An analytical and empirical examination of some properties of ipsative measures. Psychometric Monographs, 14.

Dunlap, W. P., & Cornwell, J. M. (1994). Factor analysis of ipsative measures. Multivariate Behavioral Research, 29, 115–126.

Hicks, L. E. (1970). Some properties of ipsative, normative, and forced-choice normative measures. Psychological Bulletin, 74, 167–184.

Johnson, C. E., Wood, R., & Blinkhorn, S. F. (1988). Spuriouser and spuriouser: The use of ipsative personality tests. Journal of Occupational Psychology, 61, 153–162.

Mead, A.W. (2004) Psychometric problems and issues involved with creating and using ipsative measures for selection. Journal of Occupational and Organizational Psychology 77, 531–552

 

[1] Naar de man die dit heeft ingevoerd.

[2] Bij een relevante steekproef of normgroep moet niet noodzakelijk gedacht worden aan een representatieve steekproef voor de algemene “bevolking”. Testscores van een individu moeten vergeleken worden met scores van een referentiegroep. Die referentiegroep kan zeer specifiek zijn (vb. sollicitanten voor een technische baan) of zeer breed (vb. alle mannen tussen 15 en 65 jaar, psychiatrische patiënten opgenomen in residentiële setting). Belangrijk is dat de referentiegroep correct is in zijn samenstelling. Zo zal bij de samenstelling van een residentiële patiënten referentiegroep moeten worden toegezien op het feit of de spreiding van o.a. leeftijd en geslacht binnen de referentiegroep dezelfde is als die in de totale populatie van residentiële patiënten.

[3] Constructvaliditeit of begripsvaliditeit is de mate waarin de verschillende vragen of items tezamen het theoretische concept, dat de onderzoeker wou meten, dekken. Er bestaat hiervoor geen vaste methode en het wordt doorgaans door middel van meerdere onderzoeken en verschillende methodes aangetoond.

[4] Populair uitgelegd: meet de test werkelijk wat hij beweert of verondersteld wordt te meten?

[5] Deze waarde toont een lagere intercorrelatie dan een zuiver ipsatieve maar de berekende waarde is nog steeds onderhevig aan de (mindere) vertekening van de ipsativiteit