Kun malli ei sovi: aineiston muunnokset

Ekologeissa tapaa usein merkillistä antautumismielialaa: menetelmän oletuksia rikotaan kuitenkin, joten on sama kuinka analyysit tehdään. Tähän ei pidä alistua, sillä oletusten pätevyyttä pystyy kyllä tarkastelemaan ja mallia parantamaan niin, että tilastollinen päättely varmistuu.

Lineaarisia malleja käytettäessä joudutaan usein tekemään aineiston muunnoksia, joko residuaalien jakauman tai ennusteen muodon korjaamiseksi. Muunnokset ovat sikäli ilkeitä, että ne vaikuttavat sekä virhejakaumaan että regression muotoon, vaikka vain toista haluttaisiin. Esimerkiksi log-muunnos tekee käyrästä eksponentiaalisen ja virheestä log-normaalisen, haluttiin kumpaakin tahi ei. Usein muuttujat muunnetaan takaisin alkuperäiselle asteikolle tuloksia esitettäessä. Tämä voi olla harhaanjohtavaa, sillä mallit on sovitettu muunnetuille arvoille eikä alkuperäisille: ne eivät ole alkuperäisten muuttujien pienimmän neliösumman estimaatteja. Sangen usein näkee kuvia, missä raportoidut korkeat ``selitysasteet'' (R2) eivät mitenkään tunnu vastaavan huomattavan suurta hajontaa käyrän suhteen: ``selitysaste'' on näet arvioitu log-muunnetulle aineistolle, mutta takaisin muuntamisen jälkeen vaihtelu on huomattavasti suurempaa (kuva 11). Takaisinmuunnetut regressiokertoimet ovat myös jossain määrin harhaisia eivätkä vastaisi alkuperäisellä asteikolla arvioituja epälineaarisen mallin kertoimia.

Kuva 11: Vasemman puoleisessa kuvassa on takaisinmuunnettu lineaarinen regressio, jolle erheellisesti esitetään log-muunnetun lineaarisen regression (oikea puoli) tunnusluvut

\includegraphics[width=0.7\textwidth]{logmuunnos.eps}

Tutkija pystyy melko usein jo etukäteen arvioimaan, mikä on kohdemuuttujalle sopiva virhejakauma ja mikä voisi olla sopiva varianssin tasoittava transformaatio ``ensimmäisenä aproksimaationa'':

Mallin sovituksen jälkeen on syytä tarkastella jakauman ja mallin sopivuutta. Sangen usein tilastollinen analyysi aloitetaan tarkastelemalla muuttujien jakaumaa ja tekemällä tarpeelliseksi katsottavia muunnoksia. Tämä toimii usein oikein hyvin, mutta mallit olettavat mallivirheiden (residuaalien) jakautuvan oletustensa mukaan, joten jakaumaoletuksia voi todella tarkastella vain suhteessa malliin. Jakauman normaalisuuden tutkiminen on kenties saanut liian suuren painon ekologien parissa. Hyvin usein tutkimme kuitenkin keskiarvoja (joita parametrikertoimetkin ovat), joiden jakauma on aina normaalinen suurilla aineistoilla riippumatta havaintojen jakaumasta. Pienillä aineistoilla taas emme voi sanoa jakaumista juuri mitään. Jakaumien sijaan on syytä tarkastella muita patologisia piirteitä:

Pyrkimys jakaumien normalisointiin saattaa vahingossa korjata nämäkin ongelmat, mutta usein parempaan tulokseen päästään syöksymällä suoraan ongelman eikä sen oireiden kimppuun.

Lineaaristen mallien oletuskuva (plot.lm, esim. kuva 6) on mainio keino tutkia mallin sopivuutta. Huomattakoon, että useimmat jakauman sopivuutta tutkivat testit ovat ``asymptoottisesti merkitseviä'' eli aineiston koon kasvaessa ne pystyvät löytämään yhä pienempiä eroja havaitun ja odotetun jakauman välillä. Regressiodiagnostisen kuvien epämuodollinen tarkastelu saattaa olla valaisevampaa kuin muodollinen testaaminen.

Malli voi olla huono kahdella päätavalla (kuva 12):

Kuva 12: Ylemmässä kuvaparissa regression muoto on väärä (mutta virhejakauma oikea), alemmassa kuvassa virhejakauma on väärä (mutta muoto on oikea).

\includegraphics[width=\textwidth]{muunnos.eps}

Näitä kahta tapausta voi olla vaikea erottaa. Usein hyödyllisintä on tarkastella Residuals vs. Fitted osakuvaa plot.lm-kuvassa. Jos sekä muoto että jakauma ovat oikeat, residuaalit muodostavat tasaisen vyön oikean arvon (y = 0) ympärille. Jos residuaaleissa näkyy jokin selkeä kuvio kuten kaari, regression muoto on todennäköisesti väärä. Jos taas residuaalit ovat keskimäärin melko oikeita, mutta ne laajenevat viuhkamaisesti (tai salmiakkimaisesti keskeltä), virhejakauma on todennäköisesti väärä. Kumpikin voi näkyä Q-Q-plotissa epälineaarisena, mutta luonnollisestikin väärän virhejakauman pitäisi näkyä selkeämmin. Vaikka ensimmäiseksi mieleen tuleekin muuntaa y-muuttujaa virheen korjaamiseksi, on toki muistettava, että malli voi korjaantua myös regressiomallia muuttamalla (kuten meille kävi luvun 7.3 esimerkissä) muuntamalla selittäviä tekijöitä.

On myös mahdollista kysyä aineistolta itseltään, mikä on mallin sopivuuden parhaiten takaava muunnos käyttämällä Box-Cox -muunnosta y$\scriptstyle \lambda$. Parametria $ \lambda$ varioimalla pystymme tekemään monta suosittua muunnosta:

$ \lambda$ = - 1 käänteismuunnos
$ \lambda$ = 0 logaritmimuunnos
$ \lambda$ = $ {\frac{{1}}{{2}}}$ neliöjuurimuunnos
$ \lambda$ = 1 ei muunnosta
$ \lambda$ = 2 neliömuunnos

Box-Cox -muunnoksessa tarkastellaan mallin hyvyyden riippuvuutta parametrista $ \lambda$, ja näin saada selville mikä olisi paras muunnos kyseisesssä mallissa. Lisäksi saadaan selville, mitkä muunnokset ovat likipitäen (``ei-merkitsevästi'') yhtä hyviä. Jos $ \lambda$ = 1 sisältyy muunnoksen luottamusväliin, meillä ei ole syytä muuntaa aineistoa. Vaikka tuloksena onkin desimaaliluku $ \lambda$, muunnokseksi valitaan yleensä jokin sopiva tasainen luku, esim. yllä olevasta asetelmasta. Box-Cox -muunnos ei välttämättä pyri korjaamaan virhejakaumaa, vaan se pyrkii korjaamaan myös regression muodon siten että uskottavuus maksimoituu.

Paketissa MASS (Venables & Ripley, 1999) on komento boxcox joka piirtää $ \lambda$-profiilin ja merkitsee siihen 95 % luottamusvälit (kuva 13):

> library(MASS)
> par(mfrow=c(1,2))
> boxcox(formula(plut.lm),data=plutakko, lambda=seq(-1,1,len=20))
> boxcox(formula(plut.new),data=plutakko, lambda=seq(-1,1,len=20))
Kuva 13: Box-Cox -profiilit kalliolammikoiden fotosynteesiaineiston alkuperäiselle (Ranta et al., 1989) ja lopulliselle analyysille (§7.3).

\includegraphics[width=0.7\textwidth]{boxcox.eps}

Jos meillä on vielä jäljellä mallitulokset olioissa plut.lm ja plut.new7.3), voimme eristää niiden mallilausekkeet komennolla formula -- muutoin mallilausekkeet on kirjoitettava uudestaan.

Kumpikin malli näyttäisi vaativan muunnosta (kuva 13), vaikka alkuperäisessä analyysissämme (§7.3) olimmekin tyytyväisiä lopullisen mallin diagnostisiin kuviin. Koska $ \lambda$ = 0 sisältyy luottamusväleihin, log-muunnos voisi olla sopiva. Tämä tietysti sopisi myös apriorisesti, sillä fotosynteesin intensiteetti on eräänlainen pitoisuus, jonka voi kuvitella olevan gamma-jakautunut. Toinen mahdollinen muunnos voisi olla kuutiojuuri ( $ \lambda$ = $ {\frac{{1}}{{3}}}$), jolle myös on fysikaalinen tulkinta: klorofyllipatjan paksuus.

Tässä kappaleessa lähtökohtanamme on ollut, että jos tilastollinen malli ja havainnot ovat ristiriidassa, muutetaan havaintoja malliin sopiviksi. Vaihtoehtona on muuttaa mallia havaintoihin sopivaksi. Tässä johdattelevessa oppaassa emme ehdi käsitellä paremmin aineistoihin sopivia tilastollisia malleja, mutta tässä eräitä vaihtoehtoja (R-intro, 2000; Venables & Ripley, 1999):


Jari Oksanen 2003-01-21