Kiinteät ja satunnaiset vaikutukset

Varianssianalyysi on nimenomaan suunnitellun kokeen analyysin tarkoitettu menetelmä. Suunnitellulla kokeella tarkoitetaan, että tutkija on tietoisesti päättänyt käsittelyt ja niiden tasot. Päätettyjä tasoja sanotaan kiinteiksi vaikutuksiksi (``fixed effects''). Analyysissä on kuitenkin joskus mukana myös tekijöitä, joihin tutkijalla ei ole täyttä vaikutusvaltaa. Esimerkiksi kenttäkoe joudutaan ehkä tekemään niin, että valitaan joukko näytealoja, joiden sisällä käsittelyt tehdään. Nämä näytealat ovat vain umpimähkäinen (tai ihanteellisesti satunnainen) otos kaikista mahdollisista paikoista, joissa koe olisi voitu tehdä. Tutkija tietää vain, että paikat ovat luonnostaankin erilaisia, mutta hän ei pysty säätelemään tuota erilaisuutta. Tällaisia tekijöitä sanotaan satunnaisiksi vaikutuksiksi (``random effects'').

Havainnoivassa tutkimuksessa kerätään joskus suuriakin aineistoja ilman ainokaistakaan kontrolloitua (eli kiinteää) tekijää, vaan kaikki tekijät ovat havaittuja. Tällaisiakin aineistoja analysoidaan ANOVA lla. Biometrian kirjan esimerkki satunnaisvaikutuksista (Ranta et al., 1989, Esimerkki 8.5) on juuri tuollainen havainnoiva tutkimus, jossa on vain yksi satunnaisvaikutus (kaupunginosa). Tällaisen mallin analysointi ei ole erityisen kiinnostavaa, sillä siinä voi käyttää aivan tavallista lineaarista mallia (lm tai aov). Ainoa ero perus-ANOVAan on tulkinnassa, sillä tekijät eivät ole tutkijan hallitsemia. -PLUS.-ohjelmassa lienee erillinen komento (raov) tasapainoisille malleille, joissa on vain satunnaisia tekijöitä, mutta ainakin tätä kirjoitettaessa sellaista ei näkynyt olevan R:ssä, missä mallit on analysoitava samoilla menetelmillä kuin kiinteiden vaikutusten mallit.

Sangen usein tutkijalla on malli, jossa on sekä kiinteitä että satunnaisia vaikutuksia. Pääesimerkkimme (aineisto taimet) edustaa juuri tällaista tapausta: istutus on tutkijan päättämä kiinteä vaikutus, mutta käytetyt viisi emopuuta ovat vain umpimähkäinen otos kaikista mahdollisista emopuista. Muuttuja emo on siis satunnainen tekijä. Meidän pitäisi itse asiassa sovittaa kiinteiden ja satunnaisten vaikutusten sekamalli (``mixed effects model'').

Yksinkertaisia sekamalleja pystyy sovittamaan funktiolla aov, jonka mallilauseeseen voi sisällyttää termin Error, joka kertoo minkä tason (``stratum'') sisällä virhevaihtelu arvioidaan:

> taimet.mixed <- aov(pituus ~ istutus + Error(emo), data=taimet)
> summary(taimet.mixed)

Error: emo
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals  4   54.0    13.5               

Error: Within
          Df Sum Sq Mean Sq F value   Pr(>F)
istutus    2    130      65      13 0.003065
Residuals  8     40       5                 
> model.tables(taimet.mixed)
Tables of effects

 istutus
 kenno ruukku  rulla
    -3      4     -1

Kiinteän vaikutuksen istutus tunnusluvut ovat samat kuin kaksisuuntaisessa ANOVAssa aiemmin (sivu [*]), kiitos yksinkertaisen ja tasapainoisen koeasetelman. Sen sijaan satunnaisvaikutus emo on tässä taulukossa vain kuvattu, ei lainkaan testattu. Mallitaulukko antaa niin ikään vain kiinteiden tekijöiden vaikutukset. Tämä on tyypillinen käytäntö sekamalleissa: satunnaistekijät ovat satunnaisia, joten emme ole lainkaan kiinnostuneet satunnaistekijän yksittäisen tason vaikutuksesta, ainoastaan niiden vaikutuksesta virheen suuruuteen. Toinen huomattava seikka on, että satunnaisvaikutuksilla ei oleteta olevan interaktioita (§7.8) kiinteiden vaikutusten kanssa. Ekologiselta kannalta tämä on tietystikin kestämätön oletus, mutta tehdään huomaamatta useimmiten kun sekamalleja sovitetaan.

Jos komennon aov mallilauseessa on Error-termi, tulos ei enää olekaan luokkien lm ja aov olio, joten sille ei esimerkiksi ole plot-komentoa.

Komennolla aov pystyy analysoimaan vain yksinkertaisia kiinteiden ja satunnaisten vaikutusten sekamalleja. Tutkijoilla on joskus huomattavan monimutkaisia ja hankalia malleja, joskus jopa tietoisen harkinnan tuloksena. SAS-ohjelmiston MIXED-proseduuri on suosittu tällaisten hankalien mallien analysointiin. Ainakin hyvin monet samanlaiset mallit pystyy analysoimaan myös R-paketilla nlme (Pinheiro & Bates, 2000). R:n verkkoarkistossa (http://cran.r-project.org/) on myös paketti SASmixed, jossa kerrotaan kuinka R:ssä pystyy analysoimaan monet SASsin Mixed Models -oppaan esimerkit. Katsokaamme siis, miltä äärettömän yksinkertainen, fiktiivinen esimerkkimme näyttää nlme-paketin ohjelmalla lme analysoituna (tulostus on jälleen hieman lyhennetty):

> library(nlme)
Loading required package: nls
> taimet.lme <- lme(pituus ~ istutus, data=taimet, random = ~ 1|emo)
> summary(taimet.lme)
Linear mixed-effects model fit by REML
 Data: taimet
      AIC      BIC    logLik
  72.1691 74.59363 -31.08455

Random effects:
 Formula: ~1 | emo
        (Intercept) Residual
StdDev:    1.683951 2.235821

Fixed effects: pituus ~ istutus
              Value Std.Error DF  t-value p-value
(Intercept)      49  1.251766  8 39.14471  <.0001
istutusruukku     7  1.414057  8  4.95029  0.0011
istutusrulla      2  1.414057  8  1.41437  0.1950

Number of Observations: 15
Number of Groups: 5

Komennolle lme annetaan mallilausekkeessa vain kiinteät vaikutukset (istutus). Satunnaiset tekijät annetaan erikseen määritteellä random. Satunnaistekijät määritellään yksipuolisella mallilausekkeella, jossa on vain riippuvuusoperaattori (~) ja oikea puoli. Tällä kertaa oikea puoli kertoo, että keskiarvo (1) on ehdollinen (|) satunnaistekijälle emo.

Myös tulostus on pitkällinen. Sovitus tehdään rajoitetulla suurimman uskottavuuden menetelmällä (REML), joten neliösumman sijaan päätunnusluku on log-uskottavuus (logLik). Log-uskottavuuden lisäksi annetaan kaksi muuta tunnuslukua: Akaiken informaatiokriteeri (AIC) sekä bayesilainen informaatiokriteeri (BIC). Sekä AIC että BIC ovat hierarkisten mallien vertailuun tarkoitettuja kriteerejä, jotka pohjautuvat log-uskottavuuten ( logLik) ja estimoitujen kertoimien (parametrien) määrään p sekä BIC myös havaintojen lukumäärään n:

AIC = -2logLik + 2p (7)
BIC = -2logLik + p log(n) (8)

Aina kun parametrien p määrää lisätään, -2logLik pienee, joten informaatiokriteerit rankaisevat (``penalisoivat'') tästä lisäyksestä. Hierarkisessa mallin rakentamisessa valitaan usein se malli, jonka penalisoitu informaatiokriteeri (AIC tai BIC) on pienin.

Samoin kuin aov, myös lme antaa satunnaistekijästä vain kuvauksen ilman testejä. Tällä kertaa tulostetaan myös ``varianssin komponentit'' eli satunnaistekijästä johtuva vaihtelu (Intercept) sekä satunnaistekijän poistamisen jälkeen jäävä sisävaihtelu (Residual). Mallikertoimet tulostetaan samalla tavoin kuin funktiossa lm.

Funktio lme palauttaa luokan lme olion, joka ei ole perinyt ominaisuuksia luokalta lm. Näin ollen useimmat luokan lm menetelmät eivät sovi, mutta luokalla lme on joitain omia menetelmiä (katso help(lme)). Menetelmää anova voi kuitenkin käyttää hierarkisten lme-mallien vertailuun.

Funktio lme sekä muut paketin nlme funktiot ovat erittäin voimakkaita ja monipuolisia. Niitä voi käyttää myös esim. toistuvien mittausten, aikasarjojen ja spatiaalisten transektien analyysiin. Tämä kuitenkin ylittää tälle oppaalle asetetut puitteet. Ohjelmien mukana tuleva dokumentaatio (esim. SASmixed -tekstit) sekä Venables & Ripley (1999) ovat hyvä lähtökohta opiskeluun. Pinheiro & Bates (2000) johdattavat syvemmälle.


Jari Oksanen 2003-01-21