KT Moduuli 6; Kvantitatiivinen metodologia; harjoitukset 2000
Esa Pikkarainen, epikkara@ktk.oulu.fi

Pelisäännöt

·        Yksi kerta voi(?) olla pois

·        Poissaolot korvattava vastaavalla (vastaavaa asiaa käsittelevällä) istunnolla toisessa ryhmässä tai omatoimisesti (sovittava erikseen)

 

Harjoitusten tavoite:

Sellaisen ymmärryksen hankkiminen kvantitatiivisen tutkimuksen tilastollisesta perustasta, joka mahdollistaisi kvantitatiivisten tutkimusten lukutaidon (+ arviointitaidon).

Hands on –menetelmällä -> lähtökohta myös omalle tekemiselle. (Käyttöä muuallakin kuin varsinaisessa tutkimuksessa!!!)

TVT (tieto- ja viestintätekniikan opetus): Tilasto-ohjelmaan tutustuminen (SPSS)

 

Keskeisimmät sisältöalueet (kysymykset / ongelmat):

1.     Tilastollinen tieto

2.     Tilastollinen kuvailu (Karma, K. 1980. Tilastollisen kuvauksen perusteet käyttäytymistieteissä. H:ki: Otava)

3.     Tilastollinen testaaminen

 

Tilastollinen tieto

·        Tilastojen ja tilastoinnin merkitys nyky-yhteiskunnassa: kaikki hallinto perustuu tilastoihin – meitä hallitaan tilastoilla.

·        Tiedon tehokkuus ja taloudellisuus: tiiviissä, helppokäyttöisessä muodossa paljon tietoa suurista joukoista ”asioita” (esim. ihmisiä).

·        Tilastoyksikkö, tapaus, case ( / populaatio / otos, sample )

·        Muuttuja, variable ( / arvo, value; / mittari; / asteikko

·        Matriisi (havaintomatriisi, datamatriisi), data = kooste tapauksista  ja muuttujista; muuttujien arvot eri tapauksilla

·        Laaditaan harjoitusmatriisi tavallisena taulukkona esim. ryhmän jäsenten iät, sukupuoli, työmatka ja kuluväline

SPSS:n käyttö

·        Normaali Windows -ohjelma, paljon toimintoja, valikkoviidakko. samoihin toimintoihin pääsee eri kautta, aika hyvä HELP, erikoiset lomakkeet

·        Matriisi luodaan määrittelemällä muuttujat (Data > Define variable; type, labels; Templates)

·        Tietojen syöttäminen (ks harjoitus1b alla)

·        Tiedostojen käsittely (Talletus!, tapausten lajittelu, tapausten ja muuttujien lisääminen, tiedostojen jakaminen ja yhdistäminen)

·        Muuttujamuunnokset (Transform > Recode tai Compute)

Tilastollinen kuvailu

·        Tehdään informaatiota selvemmin näkyväksi (Muokataan, tiivistetään)

·        Frekvessit (l. jakaumat) (Analyze > Descriptive statictics > Frequencies); absoluuttiset ja suhteelliset

·        Graafiset kuvaajat (Graphs >); saa myös tilastollisten analyysien yhteydessä. mm. piirakat (Pie), pylväsdiagrammit (Bar) ja histogrammit

·        Tunnusluvut: (Analyze > Descriptive statictics > Descriptives; mutta paremmin esim.: Analyze > Descriptive statictics > Frequencies ja Statistics) Riippuvat asteikosta: luokitteluasteikolla: moodi (Mode); järjestysasteikolla lisäksi mediaani ja persentiilit, erityisesti kvartiilit, vaihteluväli, minimi, maximi (Median, Percentiles, Quartiles, Range); Scale asteikoilla lisäksi mm. keskiarvo, keskihajonta

Muuttujien yhteydet

·        yhteys, riippuvuus (ei välttämättä silti kausaali- l. vaikutusyhteyttä mitattujen asioiden välillä)

·        Aineistossa näyttää aina tietynlaisia (esim. pieniä) x-muuttujan arvoja vastaavan tietynlaiset (esim. suuret) y-muuttujan arvot samoilla tapauksilla.

·        Yhteyden graafinen kuvaus: scatter plot (sirontakuvio t. korrelaatiodiagrammi): toinen muuttuja x-akselille ja toinen y-akselille; jokainen tapaus saamiensa arvojen mukaiseen koordinaattipisteeseen. Arvioidaan pistepilven muotoa. (kaksoinapauttamalla tulostusta päästään muokkaamaan kuviota lisää - huom: "sun flower" ja "regression line".)

·        yhteys voi olla suoraviivainen tai käyräviivainen. Suoraviivainen voi olla positiivinen (kun x-arvot kasvavat, niin myös y-arvot kasvavat) tai negatiivinen (toiset arvot pienenevät kun toiset kasvavat).

·        Yhteyttä voidaan (erityisesti luokittelu- ja järjestysasteikolla) tarkastella ristiintaulukoimalla (grosstabs) eli/tai kaksi- (ja myös useampi-) suuntaisilla frekvenssitaulukoilla. Taulukkoa voidaan tulkita kuten sirontakuviota. Lisäksi taulukosta voidaan laskea esim. ns kontigenssikerroin (yhteyttä kuvaava tunnusluku).

·        Scale-asteikkoisilla muuttujilla voidaan laskea paljon käytetty (Pearsonin) korrelaatiokerroin. Analyze > Correlate > Bivariate. Osoittaa vain kahden muuttujan välistä suoraviivaista riippuvuutta. Tulostuu korrelaatiomatriisiin.

·        Lisäksi voidaan tarkastella, onko tietyllä muuttujalla (voi olla luokittelumuuttuja) muodostettujen ryhmien välillä eroa niiden saamissa keskiarvoissa toisella muuttujalla (Scale-muuttuja)

Tilastollinen testaus

·        Kun otoksesta tehtyjen mittausten perusteella halutaan tehdä yleistyksiä (perusjoukkoon), tarvitaan tilastollista testausta eli tilastollista päätöksentekoa. Otoksen perusteella tehdyt yleistykset ovat aina epävarmoja - epävarmuutta yritetään pienentää ja luotettavuutta lisätä testimenetelmin. (Kaukainen yhteys "testiin" mittarina tai kokeena.)

·        Todennäköisyys: yksinkertaistetusti määritellään: Todennäköisyys, että jollakin yhdellä tapauksella tietyssä perusjoukossa on tietty muuttujan arvo X, on sama kuin kaikkien niiden tapausten osuus ko. joukossa, joilla on ko. arvo; siis X-tapausten määrä jaettuna kaikilla tapauksilla. Jos kaikilla tapauksilla on arvo X, niin minkä hyvänsä yhden tapauksen todennäköisyys olla X on 1. Jos X:iä ei ole joukossa yhtään, niin todennäköisyys on 0. Jos X:iä on puolet, niin todennäköisyys on 0,5.

·        Satunnaisotanta (YSO, yksinkertainen sat. ot.): kaikilla perusjoukon tapauksilla yhtä suuri todennäköisyys tulla otokseen mukaan. (Mikäli YSO ei tunnu toimivalta vaihtoehdolta, voidaan käyttää muita menetelmiä - otettava huomioon analyyseissä)

·        Kuinka hyvin otos kuvaa perusjoukkoa? Riippuu ensisijaisesti otoksen koosta (mikäli se on satunnainen) mutta myös muista tekijöistä. (Otoskoko vaikuttaa aina tilastollisen kuvauksen luotettavuuteen ja testin tulokseen.)

·        Testillä yritetään määritellä kuvauksen erehtymisen todennäköisyys ja asettaa raja sille, hyväksytäänkö kuvaus (tai siihen perustuva väite) vai ei. Tätä luotettavuutta mitataan "tilastollisella merkitsevyydellä" (p-arvo). Tavallisesti asetetaan tietty riskirja:

o       Melkein merkitsevä: * erehtymisen todennäköisyys 0,05 (5%)

o       Merkitsevä: ** erehtymisen todennäköisyys 0,01 (1%)

o       Erittäin merkitsevä: *** erehtymisen todennäköisyys 0,001 (0,1%)

·        Testiä voidaan käyttää kuvailevasti osoittamaan tietyn otoksesta saadun mittaustuloksen luotettavuutta, mutta erityisesti tieteellinen käyttö edellyttää hypoteeseja:

o       Nollahypoteesi H0: Vakiintunut käsitys tms.

o       Tutkimushypoteesi H1: Tutkijan oletus, jonka totuutta hän testaa: esim: "Oppilaan koulumenestys on riippuvainen vanhempien koulutustaustasta." (vastaava nollahypoteesi: "muuttujien välillä ei ole yhteyttä")

·        Mikäli tutkimuksessa saadaan tilastollisesti riittävän(?) merkitsevä riippuvuus, niin nollahypoteesi voidaan hylätä ja uskoa tutkimushypoteesiin (ko. erehtymisriskillä). Mikäli merkitsevyys jää vähäiseksi, nollahypoteesi jää voimaan. (Huom. tällaisessa tapauksessa merkitsevyyteen vaikuttaa sekä otoksen koko että mittauksessa saadun riippuvuuden voimakkuus, esim. korrelaatiokertoimen suuruus.)

·        Todennäköisyys ja jakauma:

·        Mikä on todennäköisyys saada kuutonen yhtä noppaa heittämällä? (Tai klaava yhtä kolikkoa heittämällä?)

·        Tasainen jakauma: mikäli kaikilla muuttujan arvoilla on sama esiintymistodennäköisyys, saadaan tasainen jakauma. Esim heitettäessä virheetöntä noppaa hyvin (äärettömän) monta kertaa ovat kaikkien numeroiden frekvenssit samat. (ks histogrammi alla)

Siis kuutosen todennäköisyys on 1/6 = (noin) 0,16667.
Mutta, jos heität noppaa kuuden heiton sarjoina, niin saatko joka sarjassa yhden kuutosen? (ja yhden kaikkia muita numeroita eli onko jakauma joka kerta tasainen?) Otokset vaihtelevat satunnaisesti ja mitä pienempi otos sitä pienempi todennäköisyys, että se olisi samanlainen kuin perusjoukon jakauma.

·        Luokitellun asteikon muuttujiin voidaan käyttää ns. khin neliö-testiä (chi square, c2, x2), jolla testataan mahdollisuutta saada sattumalta tietty jakauma. Esim. nopan virheettömyyttä voidaan testata heittämällä sillä jonkin  kokoinen otos, katsomalla jakauma ja, jos jakauma poikkeaa satunnaisesta, tarkistamalla khin neliö-testillä, onko poikkeama tilastollisesti merkitsevä.
H0 = jakauma on (oikeasti) tasainen (poikkeama johtuu vain sattumasta).
H1 = noppa on virheellinen, eli jakauma poikkeaa niin paljon, ettei se voi johtua pelkästä sattumasta.

·        Erittäin tärkeä sovellus khin neliö-testistä on kahden luokitellun muuttujan yhteyden testaaminen, tapahtuu ristiintaulukoinnin kautta ja vertaamalla saatuja solufrekvenssejä ns. odotusarvoihin, eli arvoihin, jotka olisivat todennäköiset, jos yhteyttä ei olisi. (Odotusarvo = rivisumma * sarakesumma / N)
[HUOM: Otoksen koko oltava niin suuri ja jakaumien niin tasaiset, että kaikkiin ruutuihin saadaan tarpeeksi tapauksia - tai on yhdistettävä luokkia. ~5]

·        Normaalijakauma: Satunnaisesti vaihtelevan (jatkuvan) muuttujan jakauma (äärettömän suuressa) perusjoukossa on muodoltaan ns. normaalijakauma, jossa on suuret frekvenssit keskiarvon ympärillä. (Kokemukseen perustuva teoreettinen oletus.) Noin 68 % tapauksista sijaitsee yhden keskihajonnan etäisyydellä keskiarvosta ja käytännössä kaikki tapaukset kolme hajonnan etäisyydellä. Ks. alla oleva kuvio.

·        Kun halutaan vertailla esim. kahden eri kokeen tuloksia, voidaan niiden pisteet standardisoida, eli muuttaa asteikko sellaiseksi, jossa keskiarvo on nollapiste ja keskihajonta on yksikkö.

·        Millä todennäköisyydellä otoksenkeskiarvo on sama kuin perusjoukon keskiarvo (ja sama päinvastoin)?

·        Keskiarvoja (ja muita scale -tasoisia tunnuslukuja) voidaan testata ns. T-testillä. Lasketaan kuinka todennäköistä olisi saada käytetyn kokoisessa otoksessa tietty tunnusluku aivan sattumalta. Erittäin tärkeä sovellus on kahden ryhmä keskiarvojen eron testaus. [Perusjoukon oletetaan olevan normaalisti jakaunut ja sen hajonnan oletetaan olevan suunnilleen sama kuin otoksen hajonta.]

 

 

<HR>

Seuraavat ovat Olavi Karjalaisen laatimia ohjelmia, joita soveltaen noudatamme.

 

Kyselylomake

(Tiedostojen polku ATK-luokassa: Apps-01 at Edtech2 (G:)/SPSSOpetus/kvant00/epkansio
Omat talletukset tehdään joko hakemistoon Apps-01 at Edtech2 (G:)/SPSSOpetus/kvant00 tai Apps-01 at Edtech2 (G:)/SPSSOpetus/kvant00/ryhma4