Mallilause: yksinkertaisin tapaus

Lineaarisen regressiomallin systemaattinen merkitään tilastokirjoissa tyyliin

E(y) = b0 + b1x (4)

Toisin sanoen jatkuvan vastemuuttujan y odotusarvo (E(y)) määräytyy selittävän muuttujan x (välimatka-asteikollinen tai kaksiarvoinen) lineaarisena funktiona: odotusarvo saadaan laskemalla yhteen perustasokerroin (intercept) b0 ja muuttujan x arvo kerrottuna kulmakertoimella (slope) b1. Mallin satunnainen osa kuvaa sitä, mikä on vastemuuttujan arvojen vaihtelu odotusarvonsa ympärillä kullakin x:n tasolla erikseen. Usein oletetaan, että tämä vaihtelu noudattaa normaalijakaumaa odotusarvolla 0 ja tuntemattomalla vakiovarianssilla $ \sigma^{2}_{}$.

Voimme esittää yhtälön 4 mallin odotusarvo-osan kahdella vaihtoehtoisella tavalla R:ssä:

lm(y ~ x + 1)
lm(y ~ x)

Suluissa oleva lause voidaan lukea ``y riippuu (~) x:stä''. Sulkuja edeltävä lm taas kertoo että tämä riippuvuus on lineaarista eli sellaista kuin yhtälö 4 määrittää -- myös muunlaisia riippuvuuksia voi määritellä, vaikka tällaisiin kehittyneempiin malleihin ei tässä oppaassa päästäkään. Ensimmäisen lauseen termi ``1'' esittää vakiokertoimen b0 eksplisiittisesti, jälkimmäinen vain implisiittisesti eli oikealla puolella on yksinäinen x. Koska useimmiten ei ole mitään järkevää syytä jättää vakiotermiä b0 pois, molemmat muotoilut määrittelevät saman mallin. Jos haluaisimme todellakin jättää vakiotermin pois eli pakottaa regressiosuoran origon kautta, meidän pitäisi kirjoittaa y ~ x - 1.

Malliyhtälöissä käytetyn ``madon'' eli tilden (~) kirjoittaminen voi tuottaa vaikeuksia joillain koneilla. Se on näet usein määritelty kuuroksi merkiksi eli se ei näy välittömästi ruudulla vaan odottaa, seuraako jokin kirjain, jonka päälle se voisi asettua (kuten vironkielen ``õ''). Välilyöntinäppäimen painallus riittää usein tilden tulostumiseen. Joissain tapauksissa saattaa olla välttämätöntä konfiguroida kone uudelleen, jotta ``~'' saadaan toimimaan.

Mallilause on lineaaristen mallien sydän. Sen avulla pystyy yllättävän helposti määrittelemään hankalankin tuntuisia malleja, itse asiassa paljon helpommin kuin graafisten kilkkeiden avulla.


Jari Oksanen 2003-01-21