Jakaumien tarkastelu

R:ssä on suuri joukko graafisia komentoja jakaumien tarkastelemiseksi (§4.1): erityisen hyödyllisiä ovat komennot boxplot, pairs, hist, truehist, qqnorm ja qqplot. Näitä komentoja kannattaa käyttää saamaan jonkinlainen kuva muuttujien jakaumista. Jakaumaoletukset koskevat kuitenkin jäännösvaihtelua mallin suhteen, joten lopulliset jakaumakorjaukset on tehtävä mallinsovituksen jälkeen (§7.13). Alustava tarkastelu antaa kuitenkin aavistuksen myös sovituksenjälkeisistä jakaumista.

R:ssä jakaumien tarkastelu pohjatuu ennen kaikkea graafisiin arviointeihin. Joitain testejä voi toki käyttää (§6.2), mutta nämä ovat epäherkkiä pienillä aineistoilla ja turhankin herkkiä suurilla aineistolla: kaikki havaitut jakaumat poikkeavat odotetusta jos vain aineisto on kyllin iso. R:ssä ei käytetä vinouden ja huipukkuuden tunnuslukuja kuten monessa muussa ohjelmassa. Keskiarvoa voidaan pitää aineiston ensimmäisenä momenttina (perustuu x-termeihin), varianssia ja keskihajontaa toisena momenttina (perustana x2-termit), vinoutta taas kolmantena ja huipukkuutta (``kurtositeetti'') neljäntenä momenttina. Graafiset tarkastelut ovat selkeämpiä kuin nämä kolmannet ja neljännet momentit.5

Jakaumien tarkastelemiseen voi graafisten komentojen sijaan tai lisäksi käyttää myös tekstipohjaista komentoa stem, joka tulostaa ns. runko-lehtikuvion (``stem and leaves plot''):

> attach(taimet)
> stem(pituus) # Tainten pituus aineistossa taimet

  The decimal point is 1 digit(s) to the right of the |

  4 | 6799
  5 | 00112344
  5 | 58
  6 | 1
Tästä voimme lukea, että tainten pituudet olivat 46, 47, 49, 49, 50,..., 61 cm eli näemme sekä (melko) tarkat luvut että karkean ``histogrammin'' jakaumasta.


Jari Oksanen 2003-01-21