Uw gids voor P-waarden en betrouwbaarheidsintervallen – Schoenmaat, penislengte, voetbal en hartaanvallen!

author
5 minutes, 51 seconds Read
SCHOENMETING EN PENIELENGTE

Voorspelt schoenmaat de penislengte? Ik maak geen grapje, dit is een echte studie.

Stap 1: Stel de nulhypothese: Er is geen verband tussen schoenmaat en penislengte OF Schoenmaat voorspelt geen penislengte. Het doel van de studie zou zijn deze hypothese te verwerpen, wat dan de alternatieve hypothese zou bevorderen; d.w.z. er is een verband tussen schoenmaat en penislengte OF schoenmaat voorspelt penislengte (er zijn drie mogelijkheden; geen verband, positief of een negatief verband)

Stap 2: Twee urologen maten de gestrekte penislengte van 104 mannen in een prospectief onderzoek en relateerden dit aan hun schoenmaat.

Stap 3: De resultaten werden statistisch beoordeeld met behulp van een kleinste-kwadraten regressiemodel, waarbij het significantieniveau werd gekozen als P<0,05.

P-waarde

Nu stel dat je een positief resultaat kreeg, dat wil zeggen dat de penislengte toeneemt met de schoenmaat. Hoe kunt u er zeker van zijn dat deze correlatie statistisch significant was of, met andere woorden, hoe goed ondersteunen de steekproefgegevens de stelling dat de nulhypothese waar is? Dit is waar de p-waarde om de hoek komt kijken. De p-waarde corrigeert voor onzekerheid, door u te vertellen hoe waarschijnlijk het in uw gegevens waargenomen effect is als de nulhypothese waar zou zijn.

Hier volgt de definitie van de Americal Statistical Association (ASA):

p-waarde is de waarschijnlijkheid onder een gespecificeerd statistisch model dat een statistische samenvatting van de gegevens (bijvoorbeeld het steekproefgemiddelde verschil tussen twee vergeleken groepen) gelijk zou zijn aan of extremer zou zijn dan de waargenomen waarde

Als u de statistische significantie hebt vastgesteld op 0.05, dan zegt een p-waarde van <0,05 u dat, ervan uitgaande dat de nulhypothese waar is, er een zeer kleine kans is op een resultaat dat gelijk is aan of extremer is dan het waargenomen resultaat. ( 1 op 20 of 5% waarschijnlijkheid). Er is dus bewijs om de nulhypothese te verwerpen.

Aan de andere kant, als de p-waarde <0,65 was, dan zou je, ervan uitgaande dat de nulhypothese waar is, verwachten 65% van de tijd het waargenomen resultaat of extremer te krijgen. Dat is toch niet zo flitsend? De nulhypothese zou dan waar blijven. Ik hoop dat dit u helpt de P-waarde te begrijpen.

Wel, voor wie nieuwsgierig is, de echte resultaten waren de volgende:

De lineaire regressiestatistiek tussen de uitgerekte penislengte en de schoenmaat gaf een r2 van 0,012 (P=0,28), wat suggereert dat er geen statistisch significant verband is tussen de uitgerekte penislengte en de schoenmaat.

De interpretatie van de p-waarde is:

Aannemende dat de nulhypothese waar is (schoenmaat voorspelt penislengte niet), zou het waargenomen effect of meer 28% van de tijd optreden.

VERTROUWENSINTERVALS

Het andere begrip in precisie zijn de betrouwbaarheidsintervallen (CI). In het bovenstaande onderzoek is het onmogelijk een steekproef te nemen van alle mannen ter wereld en hun schoenmaat of penislengte te meten.

Zou men dat kunnen, dan zou men de exacte correlatiecoëfficiënt of gemiddelde maten voor de schoenmaat en ook voor de penislengte krijgen. Daarom is er behoefte aan een zekere marge waartussen de ware maat ligt. Dit is het betrouwbaarheidsinterval.

Gewoonlijk wordt het betrouwbaarheidsinterval op 95% gesteld, hetgeen u vertelt dat als u dit onderzoek 100 keer zou doen, 95 van de 100 keer de ware maat tussen de twee betrouwbaarheidsintervallen zou liggen.

Laten we eens kijken naar een ander interessant onderzoek.

VOETBAL EN HARTAARDAARDAARDS

Laten we eens kijken naar een ander voorbeeld en proberen de volgende vragen te beantwoorden. Lees het volgende studieresultaat in de studie van Wilbert-Lampen e.a. De studie onderzoekt het verband tussen cardiovasculaire voorvallen en WK-voetbal.

Cardiovasculaire voorvallen ( lees = hartproblemen) die zich voordeden bij patiënten in het grotere gebied rond München, werden tijdens de WK-competitie prospectief beoordeeld door spoedartsen. Wij hebben deze voorvallen vergeleken met voorvallen die zich tijdens de controleperiode hebben voorgedaan: 1 mei tot 8 juni en 10 juli tot 31 juli 2006, en 1 mei tot 31 juli in 2003 en 2005.
Acute cardiovasculaire voorvallen werden beoordeeld bij 4279 patiënten. Op wedstrijddagen van het Duitse team was de incidentie van cardiale noodgevallen 2,66 maal zo hoog als tijdens de controleperiode (95% betrouwbaarheidsinterval , 2,33 tot 3,04; P<0,001); voor mannen was de incidentie 3,66 maal zo hoog als tijdens de controleperiode (95% betrouwbaarheidsinterval , 2,33 tot 3,04; P<0,001).26 maal zo hoog als tijdens de controleperiode (95% CI, 2,78 tot 3,84; P<0,001), en voor vrouwen was het 1,82 maal zo hoog als tijdens de controleperiode (95% CI, 1,44 tot 2,31; P<0,001).

1. Was de incidentie van cardiale noodgevallen statistisch significant en waarom?
2. Hebben mannen een verhoogd risico op cardiovasculaire voorvallen tijdens wereldbekerwedstrijden? Is dit risico groter dan dat voor vrouwen? Is het resultaat statistisch significant?
3. Moeten er op basis van dit resultaat strengere noodprocedures komen tijdens wereldbekerwedstrijden? (Hint: dit vereist subjectief en analytisch denken en hangt af van veel variabelen). Antwoorden aan het eind.

KEY TAKEAWAY POINTS

De p-waarde op zich betekent niets. Zij moet worden geplaatst in de context van de methodologie van de studie en de maatstaf voor het effect. P-waarden kunnen significant worden gemaakt door de robuustheid van de maatstaf te verminderen (bv. als de benchmarkverbetering 8 punten is en u een niet-significant resultaat krijgt, kunt u door de benchmark te verlagen tot 4 punten een statistisch significant resultaat krijgen).

Maar een verbetering van 4 punten is niet zo goed als een verbetering van 8 punten. De interpretatie is altijd subjectief, en dit is waar analytische vaardigheden belangrijk zijn. Het zorgt ervoor dat je dingen niet klakkeloos aanneemt.

Volgens het treffende artikel van Ioannidis, Why Most Published Research Findings Are False:

Onderzoek wordt niet het best weergegeven en samengevat door p-waarden, maar helaas heerst de wijdverbreide opvatting dat medische onderzoeksartikelen alleen op basis van p-waarden moeten worden geïnterpreteerd.

Volgens de onlangs uitgebrachte verklaring van de ASA-

De p-waarde is nooit bedoeld geweest als substituut voor wetenschappelijk redeneren.

In de loop der tijd lijkt de p-waarde een poortwachter te zijn geworden voor de vraag of werk publiceerbaar is, althans op sommige gebieden,….. Deze schijnbare redactionele vooringenomenheid leidt tot het “archieflade-effect”, waarbij onderzoek met statistisch significante uitkomsten veel meer kans heeft om gepubliceerd te worden, terwijl ander werk dat wetenschappelijk gezien net zo belangrijk zou kunnen zijn, nooit in druk wordt gezien. Het leidt ook tot praktijken met namen als ‘p-hacking’ en ‘data dredging’, waarbij de nadruk ligt op het zoeken naar kleine p-waarden boven andere statistische en wetenschappelijke redeneringen.

Een p-waarde, of statistische significantie, meet niet de grootte van een effect of het belang van een resultaat.

P-waarden meten niet de waarschijnlijkheid dat de bestudeerde hypothese waar is, of de waarschijnlijkheid dat de gegevens door willekeurig toeval alleen zijn voortgebracht.

Wetenschappelijke conclusies en zakelijke of beleidsbeslissingen mogen niet alleen worden gebaseerd op de vraag of een p-waarde een specifieke drempelwaarde passeert.

CI is het bereik van waarden waartussen de ware populatiemaat ligt voor een bepaald betrouwbaarheidsniveau.

Betrouwbaarheidsintervallen kunnen worden verkleind door de steekproefgrootte te vergroten, omdat je dichter bij de ware populatiemaat begint te komen door meer mensen uit de populatie op te nemen.

ANTWOORDEN

1. Ja, de incidentie was statistisch significant, zoals blijkt uit de p-waarde.
2. Mannen hebben een groter risico op cardiovasculaire gebeurtenissen dan vrouwen, en het risico is statistisch significant. Kijk naar de CI- en P-waarden.
3. Er zijn geen vaststaande antwoorden, en andere studies zijn nodig. Verschillende mensen kunnen verschillende manieren hebben om deze gegevens te analyseren.

Similar Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.