Monta yhtaikaista vertailua

Mikäli tehdään monta t-testiä yhtaikaa, on hyvin todennäköistä, että jokin niistä todetaan ``merkitseväksi'' sattumalta. Käyttäessämme kriittistä rajaa p = 0.05 otamme tietoisesti 5 % riskin että saamme erheellisesti merkitsevän tuloksen vaikkeivät keskiarvot eroakaan toisistaan. Jos teemme monta testiä, erheellisen päättelyn todennäköisyys jossain testissä kasvaa. Jos vertaamme kuutta keskiarvoa kaikkia keskenään, teemme 6 x 5/2 = 15 vertailua ja tällöin todennäköisyys saada sattumalta ainakin yksi merkitsevä tulos on 1 - (1 - 0.05)15 = 0.54 eli yli puolet.

Monta keskiarvoa yhtaikaa verrattaessa meidän on sopeutettava vertailukriteerimme testien määrään. Kaikkein yksinkertaisin on Bonferronin menetelmä, missä p-arvot jaetaan testien määrällä. Tämä yksinkertainen korjaus toimii yllättävän hyvin: esimerkissämme 1 - (1 - 0.05/15)15 = 0.049.

Monen keskiarvon parittaisen vertailun voi tehdä komennolla pairwise.t.test. Paketissa rekola on pieni aineisto taimet, jossa tutkitaan eri istutustapojen (luokkamuuttuja istutus) vaikutusta männyntaimien pituuteen (muuttuja pituus; aineiston tarkempi kuvaus §7.4). Keskiarvot ovat:

> data(taimet)
> attach(taimet)
> tapply(pituus,istutus,mean)
 kenno ruukku  rulla
    49     56     51
Kaikkien keskiarvojen yhtaikainen vertailu Bonferronin korjauksella antaa merkitsevyydet:
> pairwise.t.test(pituus,istutus, p.adjust.method="bonf")

        Pairwise comparisons using t tests with pooled SD

data:  pituus and istutus

       kenno  ruukku
ruukku 0.0057 -     
rulla  0.8418 0.0460

P value adjustment method: bonferroni
Toisin sanoen kenno- ja ruukkutaimet erosivat toisistaan, samaten ruukku- ja rullataimet, mutta rullataimet eivät eronneet kennotaimista. Ilman Bonferronin korjausta viimeinen ero olisi:
> t.test(pituus[istutus=="kenno"], pituus[istutus=="rulla"], var.equal=T)

          Two Sample t-test

data:  pituus[istutus == "kenno"] and pituus[istutus == "rulla"]
t = -1.3484, df = 8, p-value = 0.2145
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -5.420357  1.420357
sample estimates:
mean of x mean of y
       49        51
Tämä ei myöskään ole merkitsevä, mutta p-arvo on toki paljon alempi. Meillä oli vain kolme yhtaikaista vertailua, joten korjauksen vaikutus ei ollut kovin voimakas. Jos tällaisten korjausten tielle lähtee, on tietysti hyvin vaikea sanoa, milloin lopettaa: pitäisikö jakajana olla yhden vertailun, koko tutkimusprojektin vai uran aikaisten testien määrä? Usein korjaus tehdään liiankin herkästi. Identifioitaessa merkitsevän, moniluokkaisen varianssianalyysin (§7.4) toisistaan poikkeavia luokkakeskiarvoja, korjauksen käyttö saattaa olla oikeutettu ja ainakin se on ekologiassa tavanmukainen.

Tekemämme testi perustui yhdistettyyn keskihajontaan ja oli oikeutettu mikäli variansseja saattoi pitää yhtäsuurina. Varianssien yhtäsuuruuden samanaikaiseen vertaamiseen voi käyttää Bartlettin testiä, mutta on muistettava että jälleen testaamme pikemminkin aineiston kokoa. Varianssien suora ja epämuodollinen tarkastelu saattaa olla informatiivisempi kuin testi:

> bartlett.test(pituus,istutus)

         Bartlett test for homogeneity of variances

data:  pituus and istutus
Bartlett's K-square = 1.3744, df = 2, p-value = 0.503


Jari Oksanen 2003-01-21