Parittainen vertailu

t-testillä voi verrata myös samoista yksiköistä tehtyjä toistuvia havaintoja. Tällainen testi on kuitenkin vain erikoistapaus yhden otoksen t-testistä (§6.1.1): tutkittava muuttuja on parittaisten havaintojen erotus, jonka keskiarvoa verrataan nollahypoteesiin ero = 0.

Biometrian oppikirjassa (Ranta et al., 1989, Esimerkki 7.10) tutkitaan sekundaariyhdisteiden määrää tunturikoivun lehdissä ennen ja jälkeen tunturimittarihyökkäyksen. Pieni aineisto on jälleen helppo kirjoittaa suoraan istunnossa:

> dagen <- c(51.7,54.2,53.3,57,56.4,61.5,57.2,56.2,58.4,55.8)
> efter <- c(62.5,65.2,67.6,69.9,69.4,70.1,67.8,67,68.5,62.4)
Näiden salaperäisten lukujen yksikköä tai sekundaariyhdisteiden laatua ei ole erikseen mainittu. Käsitelkäämme niitä siis vain lukuina.

Parittainen t-testi tehdään niin ikään komennolla t.test:

> t.test(efter,dagen, paired=T)  ## Vertailu pareittain

         Paired t-test

data:  efter and dagen
t = 15.4584, df = 9, p-value = 8.683e-08
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  9.279307 12.460693
sample estimates:
mean of the differences
                  10.87
Testattava ero on sekundaariyhdisteiden määrän muutos 10.9. Muutoksen luottamusväli on suppea ( 9.3...12.5), mikä ei sisällä arvoa 0 eli muutos on merkitsevä. Meillä on vain yksi arvo (muutos), jonka keskiarvo on laskettu kymmenestä havainnosta, joten vapausasteita on 9.

Koska havaintomme olivat pareittain, parittainen t-testi kuului tehdä. Tämän pakon lisäksi parittainen testi on usein tehokkaampi: alkuperäisten lukujen varianssi on usein suuri, joten pieni ero jää huomaamatta. Eron varianssi voi silloinkin olla pieni ja tämän parittainen t-testi huomaa. Tässä tapauksessa merkitsevyyksien ero tavalliseen t-testiin ei ole järisyttävä, mutta parittaisessa testissä saatiin huomattavasti suppeammat luottamusvälit erolle. Koska var.test ei pidä mittauskertojen variansseja erisuurina, käytämme yhtäsuurten varianssien oletusta:

> t.test(efter,dagen, var.equal=T)  ## 2 keskiarvon vertaus

          Two Sample t-test

data:  efter and dagen
t = 8.744, df = 18, p-value = 6.753e-08
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  8.258267 13.481733
sample estimates:
mean of x mean of y
    67.04     56.17

Esimerkki ei tietenkään osoita, että tunturimittarien hyökkäys olisi indusoinut sekundaariyhdisteiden tuotoksen. Se osoittaa vain, että todennäköisesti kolme päivää myöhemmin sekundaariyhdisteitä on enemmän kuin mittaushetkellä, mutta tämä muutos olisi saattanut tapahtua ilman tunturimittariakin.


Jari Oksanen 2003-01-21