KENGÄNKOKO JA PENIKSEN PITUUS
Ennustaako kengänkoko peniksen pituutta? En pelleile, tämä on oikea tutkimus.
Vaihe 1: Esitä nollahypoteesi: Kengänkoon ja peniksen pituuden välillä ei ole yhteyttä TAI Kengänkoko ei ennusta peniksen pituutta. Tutkimuksen tavoitteena olisi hylätä tämä hypoteesi, mikä sitten suosisi vaihtoehtoista hypoteesia; eli kengänkoon ja peniksen pituuden välillä on yhteys TAI kengänkoko ennustaa peniksen pituutta (on kolme vaihtoehtoa ; ei korrelaatiota, positiivinen tai negatiivinen korrelaatio)
Vaihe 2: Kaksi urologia mittasi prospektiivisessa tutkimuksessa 104:n miehen venytetyn peniksen pituuden ja suhteutti sen heidän kengänkokoonsa.
Vaihe 3: Tuloksia arvioitiin tilastollisesti käyttäen pienimmän neliösumman regressiomallia, ja merkitsevyystasoksi valittiin P<0.05.
P-arvo
Ystäkää nyt, että saitte positiivisen tuloksen eli peniksen pituus kasvaa kengänkoon myötä. Miten voit olla varma, että tämä korrelaatio oli tilastollisesti merkitsevä tai toisin sanoen kuinka hyvin otoksen tiedot tukevat väitettä, että nollahypoteesi on tosi ? Tässä kohtaa p-arvo astuu kuvaan. P-arvo korjaa epävarmuutta kertomalla, kuinka todennäköinen on aineistossasi havaittu vaikutus, jos nollahypoteesi olisi tosi.
Tässä on Americal Statistical Associationin (ASA) määritelmä:
p-arvo on todennäköisyys määritellyn tilastollisen mallin mukaisesti, että aineiston tilastollinen yhteenveto (esimerkiksi otoskeskiarvoero kahden vertaillun ryhmän välillä) olisi yhtä suuri tai äärimmäisempi kuin havaittu arvonsa
Jos olet todennut tilastollisen merkitsevyyden 0.05, niin p-arvo <0,05 kertoo, että olettaen, että nollahypoteesi on tosi, on hyvin pieni todennäköisyys saada tulos, joka on yhtä suuri tai äärimmäisempi kuin havaittu tulos. ( 1 20:stä tai 5 prosentin todennäköisyys). Näin ollen on näyttöä nollahypoteesin hylkäämiselle.
Toisaalta jos p-arvo olisi <0.65, niin olettaen, että nollahypoteesi on tosi, odottaisit saavasi havaitun tuloksen tai äärimmäisemmän 65 % ajasta. Eihän se ole kovin välähdysherkkää? Nollahypoteesi pysyisi silloin totena. Toivottavasti tämä auttaa teitä ymmärtämään P-arvon.
Nyt niille, jotka ovat uteliaita, todelliset tulokset olivat seuraavat:
Venyneen peniksen pituuden ja kengänkoon välinen lineaarinen regressiotilasto antoi r2-arvoksi 0,012 (P=0,28), mikä viittaa siihen, että venytetyn peniksen pituuden ja kengänkoon välillä ei ole tilastollisesti merkitsevää yhteyttä.
P-arvon tulkinta on:
Jos nollahypoteesi on tosi (kengänkoko ei ennusta peniksen pituutta), havaittu vaikutus tai enemmän esiintyisi 28 %:lla tapauksista.
LUOTETTAVUUSVÄLI
Tarkkuuden toinen käsite on luottamusväli (CI). Edellä mainitussa tutkimuksessa ei voida mitenkään ottaa otosta kaikista maailman miehistä ja mitata heidän kengänkokojaan tai peniksen pituuttaan.
Jos voitaisiin, saataisiin tarkat korrelaatiokertoimet tai keskiarvot kengänkoon ja myös peniksen pituuden osalta. Siksi on tarpeen antaa jokin vaihteluväli, jonka välissä todellinen mitta on. Tämä on luottamusväli.
Vakiintuneesti luottamusväli asetetaan 95 %:iin, mikä kertoo, että jos tämä tutkimus tehtäisiin 100 kertaa, 95 kertaa sadasta todellinen mitta sijoittuisi kahden luottamusvälin väliin.
Katsotaanpa toista mielenkiintoista tutkimusta.
JALKAPALLO JA SYDÄNTAPAUKSET
Katsotaanpa toista esimerkkiä ja yritetään vastata seuraaviin kysymyksiin. Lue seuraava tutkimustulos Wilbert-Lampen ym. tutkimuksesta. Tutkimuksessa tarkastellaan sydän- ja verisuonitapahtumien ja jalkapallon MM-kisojen välistä yhteyttä.
Sydän- ja verisuonitapahtumia ( lue = sydänvaivoja), joita esiintyi potilailla Münchenin suuralueella, arvioitiin prospektiivisesti päivystyslääkäreiden toimesta jalkapallon MM-kisojen aikana. Vertailimme näitä tapahtumia tapahtumiin, jotka tapahtuivat valvontajakson aikana: 1.5.-8.6. ja 10.7.-31.7.2006 sekä 1.5.-31.7. vuosina 2003 ja 2005.
Akuutit sydän- ja verisuonitapahtumat arvioitiin 4279 potilaalla. Saksan joukkueen ottelupäivinä sydänsairauksien ilmaantuvuus oli 2,66-kertainen kontrollijaksoon verrattuna (95 %:n luottamusväli , 2,33-3,04; P<0,001); miehillä ilmaantuvuus oli 3.26-kertainen verrattuna kontrollijaksoon (95 %:n CI, 2,78-3,84; P<0,001) ja naisilla 1,82-kertainen verrattuna kontrollijaksoon (95 %:n CI, 1,44-2,31; P<0,001).
1. Oliko sydämen hätätilanteiden esiintyvyys tilastollisesti merkitsevä ja miksi?
2. Onko miehillä lisääntynyt sydän- ja verisuonitapahtumien riski MM-otteluiden aikana? Onko tämä suurempi kuin naisten riski? Onko tulos tilastollisesti merkitsevä?
3. Pitäisikö tämän tuloksen perusteella ottaa käyttöön suurempia hätätilannemenettelyjä MM-kisojen aikana? (Vihje: Tämä edellyttää subjektiivista ja analyyttistä ajattelua ja riippuu monista muuttujista). Vastaukset lopussa.
AVAINTIEDOT
P-arvo ei yksinään merkitse mitään. Se on asetettava tutkimuksen metodologian ja vaikutuksen mittarin yhteyteen. P-arvoista voidaan tehdä merkitseviä pienentämällä mittarin robustisuutta ( esim. jos vertailuarvon parannus on 8 pistettä ja saat ei-merkitsevän tuloksen, pienentämällä vertailuarvoa 4 pisteeseen voit saada tilastollisesti merkitsevän tuloksen).
Mutta 4 pisteen parannus ei ole yhtä hyvä kuin 8 pisteen parannus. Tulkinta on aina subjektiivista, ja tässä analyyttiset taidot ovat tärkeitä. Sen avulla varmistetaan, ettei asioita oteta nimellisarvona.
Iso Ioannidisin silmiinpistävän artikkelin Why Most Published Research Findings Are False (Miksi useimmat julkaistut tutkimustulokset ovat vääriä) mukaan:
Tutkimusta ei ole tarkoituksenmukaisinta esittää ja tiivistää p-arvojen avulla, mutta valitettavasti on laajalle levinnyt käsitys, että lääketieteellisiä tutkimusartikkeleita pitäisi tulkita vain p-arvojen perusteella.
ASA:n hiljattain julkaiseman lausunnon mukaan
P-arvoa ei ole koskaan tarkoitettu korvaamaan tieteellistä päättelyä.
Aikojen saatossa näyttää siltä, että p-arvosta on tullut portinvartija, joka ratkaisee ainakin joillakin tieteenaloilla, onko työ julkaisukelpoinen. ….. Tämä ilmeinen toimituksellinen puolueellisuus johtaa ”arkistolaatikkovaikutukseen”, jossa tutkimukset, joiden tulokset ovat tilastollisesti merkitseviä, julkaistaan paljon todennäköisemmin, kun taas muita töitä, jotka saattaisivat hyvinkin olla tieteellisesti yhtä tärkeitä, ei koskaan nähdä painettuna. Se johtaa myös käytäntöihin, joita kutsutaan sellaisilla nimillä kuin ”p-hacking” ja ”data dredging” ja joissa korostetaan pienten p-arvojen etsimistä muun tilastollisen ja tieteellisen järkeilyn sijasta.
P-arvo eli tilastollinen merkitsevyys ei mittaa vaikutuksen suuruutta tai tuloksen merkitystä.
P-arvot eivät mittaa todennäköisyyttä, että tutkittu hypoteesi on tosi, tai todennäköisyyttä, että aineisto on syntynyt pelkän sattuman seurauksena.
Tieteellisiä johtopäätöksiä ja liiketaloudellisia tai poliittisia päätöksiä ei pitäisi perustaa vain siihen, ylittääkö p-arvo tietyn raja-arvon.
CI on arvoalue, jonka välissä todellinen populaatiomitta on tietyllä luottamustasolla.
Varmuusväliä voidaan kaventaa kasvattamalla otoskokoa, kun aletaan lähestyä todellista populaatiomittaa ottamalla mukaan yhä enemmän henkilöitä populaatiosta.
VASTAUKSET
1. Kyllä, ilmaantuvuus oli tilastollisesti merkitsevä, kuten p-arvo osoittaa.
2. Miehillä on suurempi riski sairastua sydän- ja verisuonitapahtumiin kuin naisilla, ja riski on tilastollisesti merkitsevä. Katso CI ja P-arvot.
3. Ei ole olemassa kiinteitä vastauksia, ja tarvitaan muita tutkimuksia. Eri ihmisillä voi olla erilaisia tapoja analysoida näitä tietoja.