t-testi

Perinteisistä testeistä keskiarvojen vertailuun käytetty t-testi on kaikkein suosituimpia. t-tunnusluvun testaaminen perustuu sinänsä normaalijakaumaan ja t-testillä on sijansa myös lineaaristen mallien kertoimien merkitsevyyden arvioimisessa (§7). Vaikka perinteinen t-testi onkin paketissa ctest, t-tunnusluvun arviointi on toki perus-R:ssä (funktiot pt ja qt). Sen sijaan testisuureiden johtaminen on perinteisen testin arvoinen.

Jotta turha mystiikka karisisi t-testin ympäriltä, esitän sen periaatteen yksinkertaistetussa muodossa:

tdf = $\displaystyle {\frac{{\mathrm{ero}}}{{\mathrm{keskivirhe}}}}$

t-testissä verrataan keskiarvon ja jonkin vakioarvon tai kahden keskiarvon eroa. Tämän eron suuruutta arvioidaan keskivirhettä vasten. Jos keskiarvon jakauma on normaalinen, kuten keskiarvon jakauma aina asymptoottisesti on, satunnaisvirheen keskimääräisen suuruuden voi arvioida keskiarvon keskivirheenä ja tällöin t-jakauma vapausasteilla df antaa todennäköisyyden saada sattumalta havaitun suuruinen tai suurempi ero. Mikäli tämä todennäköisyys on pieni, hylkäämme nollahypoteesin `todellinen ero = 0' eli sanomme eron olevan ``merkitsevän''. ``Merkitsevyyden'' testaaminen on ekologiassa liiankin suosittua. Usein on paljon hyödyllisempää tarkastella estimaattien luottamusvälejä, jotka antavat paremman kuvan otoskeskiarvon luotettavuudesta.

t-testin lukuisat variantit eroavat toisistaan siinä kuinka keskivirhe on arvioitu:

Kaikki nämä (ja eräät muutkin) tapaukset voidaan käsitellä komennolla t.test.



Aliluvut
Jari Oksanen 2003-01-21