Wetenschap
Skeptici moeten we wellicht niet overtuigen: wetenschap is de beste manier om tot betrouwbare kennis te komen. Bovendien is die wetenschappelijke kennis verantwoordelijk voor een enorm deel van de levenskwaliteit die we vandaag genieten. Ook bij het aanpakken van huidige en toekomstige crisissen – denk maar aan het klimaatprobleem of de recente pandemie – rekenen we voor een groot deel op wetenschappelijke informatie. Het is dus niet meer dan logisch dat we ook die wetenschap goed in de gaten houden om haar potentieel ten volle te benutten. Science Fictions is niet de zoveelste postmoderne jammerklacht over kennis als “een sociaal construct”, een “nieuwe religie” of een middel voor politieke onderdrukking. De auteur neemt met klem afstand van deze zelfondergravende zeurpieten. Hij richt zich niet op abstracte filosofische problemen maar op een aantal zeer concrete problemen en hun gevolgen. Zelf lijst hij een vijftal overkoepelende categorieën op. Dat zijn fraude, bias, nalatigheid, hype en perverse prikkels.
Theorie versus praktijk
Na een korte inleiding over wat wetenschap nu precies is, duikt Ritchie meteen in een concrete aangelegenheid die sommige SKEPPers misschien al ter ore kwam: de replicatiecrisis. Om de graad van betrouwbaarheid van een wetenschappelijke bevinding te verhogen, is het de bedoeling dat het experiment dat tot die resultaten leidde nog eens wordt overgedaan. Idealiter gebeurt dat door een totaal ander team wetenschappers die verder geen band hebben met de oorspronkelijke onderzoekers. Dat helpt om al dan niet bewuste vooroordelen zo veel mogelijk uit te schakelen. Wanneer een bevinding wel erg verrassend of opvallend is, wordt het onderzoek in kwestie het best door meerdere verschillende onderzoeksgroepen nagedaan om de bevindingen te bevestigen of te ontkrachten. Althans, in theorie. In de praktijk wordt een grote meerderheid van de studies helemaal niet gerepliceerd. Een studie uitvoeren kost immers veel tijd en geld. Punt voor punt het werk van iemand anders opnieuw doen is ook niet erg sexy. Ook geldschieters – waarnaar wetenschappers een groot deel van de werkweek smeken om middelen – zijn meestal niet erg geïnteresseerd in replicatieprojecten. Toonaangevende wetenschappelijke tijdschriften publiceren maar zelden replicaties van bestaand onderzoek. Jammer genoeg vormt het ontbreken van replicatie niet alleen een theoretisch risico: het werd ook experimenteel bevestigd. Sinds de jaren 2000 blijkt dat een enorm deel van het gepubliceerde wetenschappelijk onderzoek de replicatietest niet doorstond. Vooral de psychologie en sociale wetenschappen bleken zwaar getroffen: een groot deel van de bekendste studies die in alle handboeken vermeld werden bleken bij herhaling helemaal geen bijzondere resultaten aan te tonen. Ritchie lijst een aantal typische voorbeelden op van ‘wetenschappelijke bevindingen’ en beroemde experimenten die niet repliceerbaar bleken. Die blijven zeker niet beperkt tot de sociale wetenschappen. Ook allerlei medische onderzoeken, bijvoorbeeld over medicijnen of de bekende fMRI-onderzoeken (die van de kleurrijke hersenscans die je in elke presentatie ziet), blijken lang niet altijd repliceerbaar. Een ander voorbeeld van spanning tussen theorie en praktijk is die van de peer review of collegiale toetsing. Idealiter zou dat proces een krachtige filter moeten zijn waarbij toponderzoekers uit hetzelfde veld het onderste uit de kast halen om elke mogelijke fout, hoe minuscuul ook, uit een ingezonden artikel te halen voor het gepubliceerd wordt. Ikzelf zag de woorden ‘peer reviewed’ in discussies (meestal door niet-wetenschappers) al meermaals gebruikt worden als synoniem voor heel erg betrouwbare wetenschap. In werkelijkheid zijn reviewers vaak drukbezet en gaan ze wel eens diagonaal door het artikel. Niet elke reviewer is een doortastende topwetenschapper die zich grondig over het artikel buigt. Opmerkingen zijn vaak niet relevant en gaan bijvoorbeeld over taalgebruik of lay-out. Geregeld is een opmerking duidelijk een vraag om naar hun eigen werk te verwijzen in het ingezonden artikel (“de auteurs zouden paper X eens moeten lezen…”). Statistische proeven of de aard van de data zelf worden zelden gecontroleerd. Reviewers zijn natuurlijk ook mensen, en dus vatbaar voor dezelfde tekortkomingen als de auteurs van een publicatie. Wanneer ze uit hetzelfde onderzoeksterrein komen, delen ze vaak veel (eventueel verkeerde) opvattingen over een bepaald onderwerp. Enzovoorts. Een grondige peer review duurt maanden en vraagt serieuze inspanningen van alle betrokkenen. Hoewel peer review dus wel degelijk een hoeksteen van de wetenschappelijke methode blijft, is het zeker geen magische filter. We mogen dus geen blind vertrouwen schenken aan het keurmerk peer-reviewed op zichzelf.
Fraude
Wetenschap wordt, intelligente aliens even buiten beschouwing gelaten, enkel door de mens bedreven. Daardoor spelen ook typisch menselijke tekortkomingen een rol. Jammer genoeg bestaan er in elk domein bedriegers, zo ook in de wetenschap. Uiteraard bepleit niemand het instellen van een cultuur van paranoia waarbij men op voorhand overal kwaad opzet moet vermoeden. Toch zou bij uitstek de wetenschap niet naïef mogen zijn, en bedrog moeten kunnen herkennen en streng bestraffen. Maar dat valt in de praktijk vaak behoorlijk tegen. Zelfs bij vernietigend bewijsmateriaal duurt het vaak erg lang voor iemand onraad ruikt. Een schokkend voorbeeld is het onderzoek van de Nederlandse wetenschapper Elisabeth Bik, die ontdekte dat vele duizenden afbeeldingen in wetenschappelijke papers overduidelijk gefotoshopt zijn. Het gaat daarbij dan bijvoorbeeld om microscopische foto’s van cellen, of het resultaat van bepaalde chemische technieken. Zelfs de allergrootste vakbladen publiceerden al afbeeldingen in een artikel die gewoonweg het spiegelbeeld van elkaar zijn, of plaatjes waarin exact dezelfde cel meer dan drie keer voorkomt. Bekende onderzoekers met dit soort afbeeldingen in hun werk blijven vaak lang buiten schot, bijvoorbeeld omdat ze de fraude (of het niet herkennen daarvan) afschuiven op de eerste auteur van het artikel. Dat is vaak een doctoraatsstudent of postdoc. Bovendien werd Bik al meermaals aangevallen door de wetenschappers en instellingen wiens werk ze onder haar kritische loep hield – recent nog door de Franse microbioloog Didier Raoult, bekend van de achterhaalde COVID-19 hydroxychloroquine hype. Een bekend voorbeeld van jarenlang bedrog is dat van de Italiaanse chirurg Macchiarini, die jarenlang als een geniaal onderzoeker doorging. Hij meende via stamcellen een nieuwe luchtpijp te kunnen bouwen en inbrengen bij patiënten wiens luchtpijp beschadigd was, bijvoorbeeld door kanker of een ongeval. Hoewel steeds duidelijker werd dat er een luchtje zat aan de resultaten van Macchiarini en dat zowat al (!) zijn patiënten stierven, bleven zijn werkgevers (waaronder leden van het Nobelcomité) hem jarenlang steunen. Een heel aantal van de meest toonaangevende papers uit het stamcelwereldje bleken na replicatie of diepgaande analyse ernstig te haperen. Zelfs onderzoekers over wie bekend is dat ze al meerdere papers moesten terugtrekken (zie inzetkader Retraction Watch) blijven vaak lustig verder publiceren. Een ander voorbeeld dat de lezers van Wonder misschien bekend in de oren klinkt is het geval Andrew Wakefield. Dat is de Britse ex-arts die eind jaren ’90 een frauduleuze paper over autisme en vaccinatie publiceerde. Weinigen beseffen echter dat het maar liefst 12 jaar en talloze open brieven en rechtszaken duurde voor het artikel officieel werd ingetrokken!
Bias
De vertekening van resultaten door een systematische fout in het opzet van een studie, analyse of denkproces noemen we bias (in het Nederlands neiging, tendens, vooringenomenheid, maar vaak onvertaald gelaten). Er zijn inmiddels vele tientallen biases beschreven in de cognitieve psychologie, de statistiek en het wetenschapsbedrijf. Een bekend voorbeeld is de sampling error. Hierbij onderzoek je een groep mensen (of muizen, of cellen,..) die eigenlijk niet erg representatief zijn voor de algemene bevolking of de groep waarover je een uitspraak wil doen. Zo is een gigantische hoeveelheid onderzoek gebeurd op Westerse studenten psychologie en geneeskunde - nu niet meteen een perfecte afspiegeling van de menselijke soort. In de vorige Wonder vermeldde ik een onderzoek naar het voorkomen van chronische vermoeidheid na COVID-19 in de reeds bestaande facebookgroep “COVID-patiënten met chronische vermoeidheid”. Toch doen onderzoekers al te vaak grote en veralgemenende uitspraken op basis van onderzoek bij een kleine en geselecteerde groep. Het is voor sommige onderwerpen vrijwel onmogelijk om een volledig bias-vrije studie uit te voeren. Toch lijkt het erop dat heel wat onderzoekers zelfs de moeite niet doen om met de meest evidente vormen van bias rekening te houden, of tenminste in hun tekst te vermelden welke hun resultaat beïnvloed zouden kunnen hebben. Van fundamenteel belang in het ontstaan van systematisch verkeerde resultaten is het statistische aspect van wetenschap. Eenvoudig te begrijpen is bijvoorbeeld: hoe kleiner de onderzochte groep, hoe meer kans op toeval bij de resultaten. Toch gebeurt een groot deel van de wetenschappelijke studies, vaak om logistieke en financiële redenen, op een veel te kleine groep deelnemers. Omdat het erg moeilijk is om studies te doen met heel grote groepen mensen, worden veel van die studies nooit overgedaan met een grotere groep deelnemers. Een groot deel van de wetenschappelijke literatuur draait rond de fameuze p-waarde. Alleen al over de precieze definitie van de term en zijn waarde zijn al boeken geschreven. Men spreekt zelfs over de p value wars. Heel simplistisch geformuleerd (excuses aan de statistisch geletterden) wil die p-waarde zeggen hoe groot de kans is dat een verschil berust op toeval. Over het algemeen noemt men een p waarde van kleiner dan 5% ‘statistisch significant’. Dat wel zeggen, men aanvaardt 5% als een aanvaardbaar risico dat men een bevinding ten onrechte aanneemt. Let wel: die waarde zegt helemaal niet hoe groot een verschil is, en of dat ook in de echte wereld relevant is. De term statistisch significant heeft dus een heel andere lading dan het woord ‘significant’ in de omgangstaal. Omdat geen enkele statistische test perfect is (het gaat immers om waarschijnlijkheidsberekeningen en niet om ‘bewijs’), kan ook zo’n p-waarde zonder veel betekenis zijn. Omdat die niettemin hét symbool geworden is van een interessante bevinding, doen veel onderzoekers aan wat men p-hacking noemt. In plaats van één welbepaalde en op voorhand duidelijk geformuleerde hypothese te onderzoeken, vergelijkt men van alles en nog wat, om dan uit een lijst met talloze p-waardes de laagste te zoeken. Rond die resultaten schrijft men dan een artikel. De kans dat zo’n bevinding op toeval berust, is veel groter. Wanneer de symbolische p-waarde van <0,05 niet bereikt wordt, kan men nog taalkundige foefjes als “een trend naar significantie” of “randsignificant” inzetten. In 2010 verscheen een bekende paper met de veelzeggende titel Why most published research findings are false door John Ioannidis. Die betoogt behoorlijk overtuigend dat, vooral om statistische redenen, een groot deel van de besluiten uit papers in wetenschappelijke tijdschriften niet overeenstemmen met de werkelijkheid. Een aantal andere vormen van slechte statistiek en hun invloed op de wetenschap worden door Ritchie op een begrijpelijke wijze uiteengezet. Hij wijst er voorts op dat heel wat wetenschappers best wel op de hoogte zijn van die problemen, maar nalatig zijn door er niet genoeg actie rond te ondernemen. Statistiek is nu eenmaal behoorlijk moeilijk, en niet de hoofdactiviteit van de meeste onderzoekers.
Hype
Verder bespreekt Ritchie het probleem van hype, waarbij resultaten buitensporig veel aandacht krijgen, veel te lang ‘in de mode’ zijn, of worden opgeblazen. Vaak komt dat doordat sommige verhalen nu eenmaal leuk zijn om te horen. Een bewering als “van koffie word je slimmer” pleziert nu eenmaal heel wat mensen, waaronder ook uw dienaar. Daardoor kunnen slechte of achterhaalde resultaten vaak erg lang blijven rondvliegen. Ook de media spelen hierbij een grote rol. De titels van wetenschappelijke artikels – om van de inhoud nog maar te zwijgen – zijn vaak erg technisch en voor leken amper te begrijpen. Omdat je hiermee natuurlijk weinig clicks oogst en geen kranten verkoopt, wordt veel eenvoudigere en meer kleurrijke taal gebruikt. Een grote meerderheid van de keren gaat hierbij informatie verloren of worden beweringen gedaan die helemaal niet door het eigenlijke onderzoek gestaafd worden. Zelfs in bijvoorbeeld de Vlaamse kwaliteitskranten is het meestal zo dat de sexy titel van een artikel over een wetenschappelijke ‘doorbraak’ helemaal niet blijkt uit het eigenlijke artikel, of al lang geen doorbraak meer is. Omdat wetenschappers en hun universiteiten grotendeels afhankelijk zijn van subsidies en giften, spelen ze vaak handig in op deze tendens door op zélf veel te optimistische en gekleurde persberichten uit te sturen.
Perverse prikkels
Dat leidt ons naar de mogelijke oorzaken van deze problemen. We bespraken al dat individueel menselijke tekortkomingen zoals bedrog niet snel zullen verdwijnen. Toch vermoedt Ritchie dat een aantal structurele aspecten van het wetenschapsproces zelf een rol spelen. Die kunnen het produceren van grote hoeveelheden slechte wetenschap in de hand werken. De tijd van de gegoede gentleman scientist die op eigen houtje en met persoonlijke middelen aan wetenschap doet ligt al even achter ons. Onderzoek doen kost veel geld, zelfs wanneer er geen spitstechnologie aan te pas komt. Vorsers zijn daarom vrijwel volledig afhankelijk van publieke middelen of financiering door private fondsen en stichtingen. Ze brengen dan ook een groot deel van hun tijd door met het opstellen van allerlei aanvragen om aan geld te komen.
Het is natuurlijk niet onlogisch dat een geldschieter – zij het de overheid of een filantroop – ook verwacht dat er met zijn of haar euro’s ook iets echt iets gebeurt. Dat men deze bevindingen bij voorkeur formeel publiceert in een wetenschappelijk tijdschrift om ze zo te delen met onderzoekers van over de hele wereld, lijkt dus maar normaal. Omdat publiceren zo’n centrale activiteit is wordt het niveau of minstens het aanzien van een wetenschapper vaak gemeten aan de hand van de hoeveelheid publicaties, en hoe vaak die door anderen geciteerd worden. Dat speelt op zijn beurt weer een rol bij het toekennen van fondsen: iemand met hoog aangeschreven publicaties, maakt een grotere kans om opnieuw geld te krijgen. Wie promotie wil maken aan de universiteit moet een constante stroom aan artikelen blijven produceren. Het behalen van een doctoraat, wat steeds meer studenten uit verschillende domeinen doen, is gebaseerd op publicaties. Enzovoorts. Hierdoor is publiceren deels een doel op zich geworden. Zo zal men bijvoorbeeld vaak één onderzoek opsplitsen in meerdere papers om zo meer publicaties en meer citaties op te leveren. Resultaten die eigenlijk niet interessant zijn, of onderzoek waarvan men eigenlijk wel beseft dat het van lage kwaliteit is, wordt toch gepubliceerd omdat elke publicatie meetelt. Wanneer ik van een aantal bekende medische wetenschappers het aantal artikelen op de zoekmachine Pubmed deel door het aantal jaren dat ze actief zijn, kom ik geregeld een getal boven de 12 en zelfs 24 uit. Dat wil zeggen: de hele carrière lang één of zelfs twee wetenschappelijke artikelen per maand (weliswaar niet altijd als eerste of laatste auteur, die het meeste verantwoordelijkheid dragen). Gelet op de talloze andere activiteiten die veel academici moeten uitvoeren kan men zich daar vragen bij stellen. Tot voor kort werd de publicatie-industrie voor een groot deel gecontroleerd door een handvol grote uitgevers. Om een artikel te lezen moest je een stevige som betalen, of via een universiteit die een abonnement had een kopie bekomen. Omdat dat model steeds meer onder druk staat ontstond, mee geholpen door een lovenswaardige trend naar het openbaar maken van wetenschappelijke informatie, de opgang van de ‘open access’ tijdschriften. Daar zijn papers voor iedereen gratis en openbaar te lezen. In ruil voor dit verlies van inkomsten aan de uitgever betalen de auteurs een bepaalde som. Dat gaat van 250 tot wel 5000 euro per artikel. Daar is niets verkeerd mee: het kost nu eenmaal geld om een tijdschrift uit te geven, een website te onderhouden, kwaliteitsvolle reviewers en redacteurs te trekken, enzovoorts. Ik vermeldde al dat een grondige peer review meerdere maanden duurt en gepaard gaat met heel wat inspanning en frustratie. Er worden vaak meermaals geamendeerde versies van het manuscript heen en weer gekaatst. Het feit dat reviewers ook mensen zijn en zich dus kunnen vergissen leidde op het internet tot een grote hoeveelheid ‘reviewer 2’-memes van geërgerde academici. Een aantal pientere ondernemers ontdekte hierdoor een erg lucratieve business: dat van de fake publicaties in zogenaamde rooftijdschriften (Engels: predatory journals). Door op grote schaal hippe websites op te zetten voor nieuwe open access tijdschriften, vaak over vele tientallen of zelfs honderden onderwerpen tegelijk, lokken deze valsspelers talloze wetenschappers in de val. Beloftes over ultrasnelle review en publicatie, vaak in een overdreven flatterende mail aan de onderzoeker, doen veel vorsers plooien. Omdat zo’n tijdschrift helemaal niet de intentie heeft kwaliteitsvolle wetenschap naar buiten te brengen is de peer review vaak erg beperkt of zelfs gewoon afwezig. Dat leidde tot een heuse tsunami aan erbarmelijke publicaties. Snel geld voor de uitgever, snelle publicatie zonder gezeur voor de onderzoeker: iedereen tevreden. Hoewel je de allergekste rooftijdschriften er snel uithaalt door hun bizarre Engels en dito lay-out, zijn heel wat open access tijdschriften (waaronder enkele van grote en bekende uitgevers) in een grijze zone beland. Ze doen wel degelijk aan peer review en stellen bepaalde kwaliteitseisen, maar zetten toch maximaal in op het publiceren van zo veel mogelijk materiaal met een korte doorstroomtijd. Omdat dat nu eenmaal veel geld oplevert.
En nu?
Het lijkt er dus op dat misschien wel een meerderheid van alle wetenschappelijke publicaties dermate veel systeemfouten bevatten dat de resultaten waarschijnlijk onbetrouwbaar of onjuist zijn. Nu niet meteen een vaststelling om vrolijk van te worden! Toch slaagt de auteur erin om deze zaken met een kwinkslag te behandelen, en een positieve ingesteldheid te behouden. In de laatste hoofdstukken reikt hij een aantal zeer concrete handvatten aan om de wetenschappelijke wereld op orde te zetten. In feite komen die allemaal neer op hetzelfde: méér wetenschappelijk en kritisch denken! Wat dat dan concreet inhoudt, laat ik de lezer zelf ontdekken.
Op het einde van het boek balt Ritchie heel wat informatie samen in een eenvoudige checklist: “Hoe lees je een artikel?”. Die kan elke geïnteresseerde leek gebruiken om een wetenschappelijke studie tegen het licht te houden, zelfs zonder uitgebreide vakkennis of een noodzaak om elke komma na te lezen en alle berekeningen overnieuw te doen. Hoe lager de score op die checklist, hoe groter de kans dat de resultaten weinig betrouwbaar zijn en dus met de grootste voorzichtigheid benaderd moeten worden. Een handig hulpmiddel in dit tijdperk van informatie-overdoses.
Besluit
Begrijpen waar een astrologisch of homeopathisch artikel de mist ingaat, is doorgaans niet erg moeilijk. Skeptici doen er goed aan om ook ‘mainstream’ wetenschappelijke bevindingen aan hun kritische blik te onderwerpen. Dat kan hun kritische geest alleen maar aanscherpen, en zowel wetenschappers als burgers op hun hoede houden. Gelet op de enorme hoeveelheid tijd, geld en vertrouwen die we de wetenschap schenken, is het ieders taak haar resultaten zo betrouwbaar mogelijk te houden. De overvloed aan onbetrouwbaar onderzoek moet dringend teruggedrongen worden. Indien alle liefhebbers van de wetenschap Science Fictions van Stuart Ritchie lezen, komen we al een heel eind.
Wietse Wiels is arts en bestuurslid van SKEPP