Wat is empirisch bewijs?

author
7 minutes, 11 seconds Read

Empirisch bewijs is informatie die onderzoekers genereren om antwoorden te vinden op vragen die belangrijke implicaties kunnen hebben voor onze samenleving.

Neem autogordels. Voordat ze werden uitgevonden, werden mensen gedood of verminkt bij wat we vandaag de dag zouden beschouwen als kleine verkeersongevallen. Dus staken slimme ingenieurs de koppen bij elkaar om te proberen daar iets aan te doen.

Laten we proberen mensen vast te binden! Laten we veranderen waarvan het stuur is gemaakt! Laten we een exploderende zak met lucht in het stuurwiel stoppen! (Stel je voor hoe gek dat klonk in een pitchmeeting.) Dit lijken allemaal redelijke ideeën (nou ja, behalve die exploderende airbag), dus hoe weten we welke we moeten doen?

Het antwoord is het genereren en wegen van empirisch bewijs.

Theorie versus empirisch bewijs

Men kan een theorie hebben over hoe iets zal uitpakken, maar wat men waarneemt of ervaart kan verschillen van wat een theorie zou kunnen voorspellen. Mensen willen de effectiviteit van allerlei dingen weten, wat betekent dat ze ze moeten testen.

Sociale wetenschappers produceren empirisch bewijs op een verscheidenheid van manieren om theorieën te testen en het vermogen van A te meten om een verwacht resultaat te produceren: B.

Ongewoonlijk verzamelen onderzoekers gegevens door directe of indirecte observatie, en zij analyseren deze gegevens om empirische vragen te beantwoorden (vragen die door observatie kunnen worden beantwoord).

Laten we eens kijken naar ons voorbeeld van de veiligheid van auto’s. Ingenieurs en wetenschappers rustten auto’s uit met verschillende veiligheidsvoorzieningen in verschillende configuraties, ramden ze vervolgens tegen muren, palen en andere auto’s en registreerden wat er gebeurde. Na verloop van tijd konden zij erachter komen welke veiligheidsvoorzieningen werkten en welke niet. Blijkbaar was dat hele airbaggedoe toch zo gek nog niet.

Ze hadden niet alles meteen goed. Bijvoorbeeld, vroege veiligheidsgordels waren niet oprolbaar. Sommige airbags schoten stukken metaal in passagiers. Maar, in vlagen en in het begin, auto veiligheid werd beter, en hoewel mensen rijden meer en meer kilometers, minder en minder zijn sterven op de weg.

Hoe het verzamelen van empirisch bewijs in de sociale wetenschap is anders

Het testen van de effecten van, laten we zeggen, een overheidsbeleid op een groep mensen brengt ons op het grondgebied van de sociale wetenschap.

Bijvoorbeeld, onderwijs onderzoek is niet hetzelfde als auto-onderzoek, omdat kinderen (mensen) zijn geen auto’s (objecten). Onderwijs kan echter beter worden gemaakt door nieuwe dingen te proberen, gegevens over die pogingen te verzamelen, die gegevens rigoureus te analyseren en vervolgens alle beschikbare empirische bewijzen te wegen om te zien of die nieuwe dingen bereiken wat we hopen dat ze doen.

Helaas ontbreekt het stukje “rigoureus analyseren” vaak in het onderwijsonderzoek. In de laboratoria van auto-ingenieurs, wordt grote zorg genomen om slechts één stuk van ontwerp (een variabele) tegelijkertijd te veranderen zodat elke test de individuele factor isoleert die een auto meer of minder veilig maakt. OK, laten we voor deze test alleen het materiaal van het stuurwiel veranderen en al het andere hetzelfde houden, zodat we weten of het het stuurwiel is dat mensen pijn doet.

Vergelijking van appels met appels

In de sociale wetenschap en vooral in het onderwijs, is het proberen om variabelen te isoleren een uitdaging, maar mogelijk, als onderzoekers “appels met appels” kunnen vergelijken.

De beste manier om een appels met appels te vergelijken is om iets uit te voeren dat een gerandomiseerde controletrial (RCT) wordt genoemd. Je hebt hier misschien wel eens van gehoord in verband met het testen van medicijnen. Bij het testen van geneesmiddelen worden voortdurend RCT’s gebruikt.

In een educatieve RCT worden leerlingen door een gerandomiseerde loting in twee groepen verdeeld en krijgt de helft van de leerlingen wat de educatieve “behandeling” ook is (een nieuw leesprogramma, een andere aanpak van discipline, een schoolvoucher, enzovoort) en de andere helft niet. Onderzoekers vergelijken de resultaten van die twee groepen en schatten het “behandelingseffect”. Deze aanpak geeft ons het vertrouwen dat het waargenomen effect wordt veroorzaakt door de interventie en niet door andere factoren.

RCT’s zijn niet altijd mogelijk. Soms kunnen onderzoekers in de buurt komen door gebruik te maken van toevallige gebeurtenissen die kinderen in twee groepen verdelen, zoals de grenzen van schooldistricten die worden gevormd door rivieren of kreken die een gemeenschap min of meer toevallig opsplitsen, of geboortedrempels voor de kleuterschool die een kind dat op 31 augustus is geboren in de ene klas plaatsen en een kind dat op 1 september is geboren in een andere klas, ook al is er in wezen geen verschil tussen hen. Afhankelijk van de precieze aard van de gebeurtenis staan deze bekend als “regressie discontinuïteit” of “instrumentele variabele” analyses, en zij kunnen nuttige instrumenten zijn om de effecten van een programma te schatten.

Onderzoekers kunnen ook individuele kinderen volgen die een behandeling krijgen als zij gegevens hebben van voor en na de behandeling om te zien hoe het onderwijstraject van dat kind in de loop van de tijd verandert. Dit staat bekend als “fixed effects”-analyses.

Alledrie van deze methoden – gerandomiseerde controletests, regressie discontinuïteitsanalyses en analyses met vaste effecten – hebben hun nadelen.

Er zijn maar weinig externe gebeurtenissen echt willekeurig. Als onderzoekers, zoals bij regressie discontinuïteitsanalyses vaak het geval is, alleen kijken naar kinderen net boven of net onder de cutoff, of, zoals bij fixed effects analyses vaak het geval is, alleen kijken naar de kinderen die van de ene school naar de andere gaan, zijn die kinderen misschien niet representatief voor de populatie. Welk effect zou een interventie hebben op kinderen die niet in de buurt van een drempel of grens zitten? Of kinderen die niet van school veranderen?

In de SlideShare hieronder presenteren we empirisch bewijs op basis van rigoureus onderzoek naar particuliere schoolkeuzeprogramma’s als een voorbeeld van hoe wij, als academici en onderzoekers zelf, het hoogwaardige empirische bewijs op een bepaald studiegebied identificeren en karakteriseren.

Een paar overwegingen

Het is veel om door te waden, dus voordat u dat doet, willen we twee opmerkingen maken.

Ten eerste is het altijd belangrijk om de afwegingen tussen interne en externe validiteit te begrijpen.

Interne validiteit verwijst naar hoe goed een studie is uitgevoerd – het geeft ons vertrouwen dat de effecten die we waarnemen, kunnen worden toegeschreven aan de interventie of het programma, en niet aan andere factoren.

Toen de federale overheid bijvoorbeeld wilde weten of het voucher-programma voor scholen in Washington, D.C. de lees- en wiskundetestscores van studenten verhoogde, namen onderzoekers de 2.308 studenten die zich aanmeldden voor het programma en wezen willekeurig 1.387 toe om vouchers te krijgen en 921 niet. Vervolgens volgden zij de twee groepen na verloop van tijd, en toen zij de resultaten analyseerden, konden zij redelijkerwijs concluderen dat eventuele verschillen te wijten waren aan het aanbod van een voucher, omdat dat het enige was dat verschilde tussen de twee groepen en zij alleen verschilden door willekeurig toeval. Deze studie had een hoge interne validiteit.

Externe validiteit verwijst naar de mate waarin we de bevindingen van een studie kunnen generaliseren naar andere settings.

Laten we eens nadenken over datzelfde onderzoek. Het D.C. programma was uniek. De hoeveelheid geld die de studenten ontvangen, de voorschriften waarmee de deelnemende scholen moesten instemmen, de omvang van het programma, de politiek precaire situatie en tal van andere factoren waren in dat programma anders dan in andere, om nog maar te zwijgen van het feit dat Washington, D.C. niet representatief is voor de Verenigde Staten als geheel in demografisch, politiek of eigenlijk op elke manier die we ons maar kunnen voorstellen. Als gevolg daarvan moeten we voorzichtig zijn wanneer we de bevindingen proberen te veralgemenen. De studie heeft een lagere externe validiteit.

Om problemen rond een lagere externe validiteit te bestrijden, kunnen onderzoekers empirisch bewijsmateriaal over de opzet van programma’s verzamelen en analyseren om de impact ervan te begrijpen. We kunnen ook kijken naar meerdere studies om te zien hoe soortgelijke interventies studenten in verschillende settings beïnvloeden.

Ten tweede, het respecteren en gebruiken van onderzoek onderschrijft geen technocratie. Onderzoek en expertise zijn ongelooflijk nuttig. Wanneer je in een vliegtuig stapt of een operatie ondergaat, wil je dat de persoon die het werk doet een expert is. Empirisch bewijs kan ons helpen meer over de wereld te weten te komen en beter te zijn in wat we doen. Maar we moeten ons ook terughoudend en nederig opstellen door de beperkingen van de sociale wetenschap te erkennen.

Overheidsbeleid gaat het om het afwegen van afwegingen die de sociale wetenschap niet voor ons kan maken. De sociale wetenschap kan ons vertellen dat een programma de leesscores verhoogt, maar ook angst en depressie bij kinderen doet toenemen. Moet dat programma worden voortgezet? Uiteindelijk komt dat neer op menselijk oordeel en waarden. Dat mogen we nooit vergeten.

Similar Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.