Statistical analysis means studying trends, patterns, and relations using quantitative data. Se on tärkeä tutkimusväline, jota tutkijat, hallitukset, yritykset ja muut organisaatiot käyttävät.
pätevien johtopäätösten tekemiseksi tilastollinen analyysi vaatii huolellista suunnittelua heti tutkimusprosessin alusta alkaen. Sinun täytyy määrittää hypoteeseja ja tehdä päätöksiä tutkimuksen suunnittelu, otoskoko, ja näytteenotto menettely.
kun olet kerännyt aineistoa otoksestasi, voit järjestää ja tiivistää tiedot kuvailevien tilastojen avulla. Sitten, voit käyttää johdettuja tilastoja virallisesti testata hypoteeseja ja tehdä arvioita väestöstä. Lopuksi voit tulkita ja yleistää havaintojasi.
tämä artikkeli on käytännön johdatus tilastolliseen analyysiin opiskelijoille ja tutkijoille. Opastamme sinua kahden tutkimusesimerkin avulla. Ensimmäinen tutkii mahdollista syy-seuraus-suhdetta, kun taas toinen tutkii mahdollista korrelaatiota muuttujien välillä.
Vaihe 1: Kirjoita hypoteesisi ja suunnittele tutkimussuunnittelusi
kerätäksesi päteviä tietoja tilastollista analyysia varten sinun täytyy ensin määritellä hypoteesisi ja suunnitella tutkimussuunnittelusi.
tilastollisten hypoteesien kirjoittaminen
tutkimuksen tavoitteena on usein selvittää muuttujien suhdetta populaation sisällä. Aloitat ennustuksella ja testaat ennustusta tilastollisella analyysillä.
tilastollinen hypoteesi on formaali tapa kirjoittaa ennustus populaatiosta. Jokainen tutkimusennuste muotoillaan uudelleen nolliksi ja vaihtoehtoisiksi hypoteeseiksi, joita voidaan testata otosdatan avulla.
vaikka nollahypoteesi ennustaa aina, ettei muuttujien välillä ole vaikutusta tai ei ole suhdetta, vaihtoehtoinen hypoteesi kertoo tutkimuksesi ennustuksen vaikutuksesta tai suhteesta.
Tutkimusrakenteen suunnittelu
tutkimusrakenne on yleinen tiedon keruun ja analysoinnin strategia. Se määrittää tilastolliset testit, joilla voit testata hypoteesi myöhemmin.
päätä ensin, käytetäänkö tutkimuksessasi Deskriptiivistä, korrelatiivista vai kokeellista suunnittelua. Kokeet vaikuttavat suoraan muuttujiin, kun taas kuvailevat ja korreloivat tutkimukset mittaavat vain muuttujia.
- koesuunnittelussa voidaan arvioida syy-seuraussuhdetta (esim.meditaation vaikutusta testipisteisiin) tilastollisten vertailu-tai regressiotestien avulla.
- korrelaatiomallissa voidaan tutkia muuttujien välisiä suhteita (esim., vanhempien tulot ja GPA) ilman oletusta kausaliteetista korrelaatiokertoimien ja merkitsevyystestien avulla.
- deskriptiivisessä kaavassa voidaan tutkia väestön tai ilmiön ominaisuuksia (esim.ahdistuneisuuden yleisyyttä yhdysvaltalaisilla korkeakouluopiskelijoilla) käyttämällä tilastollisia testejä johtopäätösten tekemiseksi otosaineistosta.
tutkimussuunnitelma koskee myös sitä, vertaatko osallistujia ryhmätasolla tai yksilötasolla vai molempia.
- koehenkilöiden välisessä mallissa vertaillaan eri hoidoille altistuneiden osallistujien ryhmätason tuloksia (esimerkiksi meditaatioharjoituksen suorittaneet verrattuna niihin, jotka eivät altistuneet).
- koehenkilöiden sisäisessä mallissa verrataan kaikkiin tutkimuksen hoitoihin osallistuneiden osallistujien toistuvia toimenpiteitä (esim.pistemäärät ennen meditaatioharjoitusta ja sen jälkeen).
- Kokeellinen
- Korrelaatio
muuttujien mittaaminen
tutkimussuunnittelua suunniteltaessa tulisi operationalisoida muuttujansa ja päättää tarkasti, miten ne mitataan.
tilastoanalyysissä on tärkeää ottaa huomioon muuttujien mittaustaso, joka kertoo, millaista dataa ne sisältävät:
- Kategoriatiedot edustavat ryhmittelyjä. Nämä voivat olla nimellisiä (esim., sukupuoli) tai ordinaalinen (esimerkiksi kielitaidon taso).
- määrälliset tiedot edustavat määriä. Nämä voivat olla intervalliasteikolla (esim.testipisteet) tai suhdeasteikolla (esim. Ikä).
monia muuttujia voidaan mitata eri tarkkuustasoilla. Ikätiedot voivat olla esimerkiksi määrällisiä (8-vuotiaat) tai kategorisia (nuoret). Jos muuttuja koodataan numeerisesti (esim.sopimustaso 1-5), se ei automaattisesti tarkoita, että se olisi kategorisen sijaan kvantitatiivinen.
mittaustason tunnistaminen on tärkeää sopivien tilastojen ja hypoteesitestien valinnassa. Esimerkiksi pistekeskiarvon voi laskea kvantitatiivisella datalla, mutta ei kategorisella datalla.
tutkimuksessa kerätään usein tietoja osallistujan oleellisista ominaisuuksista yhdessä kiinnostavien muuttujien mittojen kanssa.
- Kokeellinen
- Korrelaatio
muuttuja | tietotyyppi |
---|---|
Ikä | kvantitatiivinen (suhde) |
sukupuoli | kategorinen (nimellinen) |
rotu tai etnisyys | kategorinen (nimellinen) |
Lähtötestin pisteet | kvantitatiivinen (intervalli) |
lopulliset testitulokset | kvantitatiivinen (intervalli) |
muuttuja | tietotyyppi |
---|---|
vanhempien tulot | kvantitatiivinen (suhdeluku) |
GPA | kvantitatiivinen (aikaväli) |
Vaihe 2: Kerätään tietoja otoksesta
useimmissa tapauksissa on liian vaikeaa tai kallista kerätä tietoja jokaisesta opiskelusta kiinnostuneesta populaation jäsenestä. Sen sijaan keräämme tietoja näytteestä.
tilastollisen analyysin avulla voit soveltaa havaintojasi Oman näytteesi lisäksi, kunhan käytät asianmukaisia näytteenottomenetelmiä. Kannattaa pyrkiä otokseen, joka on väestöä edustava.
otanta tilastollista analyysia varten
otoksen valinnassa on kaksi pääasiallista lähestymistapaa.
- Todennäköisyysotanta: jokaisella populaation jäsenellä on mahdollisuus tulla valituksi tutkimukseen satunnaisvalinnan kautta.
- ei-todennäköisyysotanta: jotkut populaation jäsenet valitaan muita todennäköisemmin tutkimukseen esimerkiksi mukavuusperusteiden tai vapaaehtoisen itsevalinnan vuoksi.
teoriassa erittäin yleistettävissä oleviin löydöksiin kannattaa käyttää todennäköisyysnäytteenottomenetelmää. Satunnaisvalinta vähentää näytteenottoharhaa ja varmistaa, että näytteesi tiedot ovat todella tyypillisiä väestölle. Parametrisilla testeillä voidaan tehdä vahvoja tilastollisia päätelmiä, kun tietoja kerätään todennäköisyysotannalla.
, mutta käytännössä ideaalinäytteen kerääminen on harvoin mahdollista. Vaikka ei-todennäköisyysnäytteet ovat todennäköisemmin puolueellisia, ne ovat paljon helpompi rekrytoida ja kerätä tietoja. Ei-parametriset testit soveltuvat paremmin ei-todennäköisyysnäytteille, mutta ne johtavat heikompiin päätelmiin populaatiosta.
jos haluaa käyttää parametrisia testejä ei-todennäköisyysnäytteille, on todettava, että:
- otoksenne edustaa väestöä, johon yleistätte havaintonne.
- otoksestasi puuttuu systemaattinen harhaisuus.
muista, että ulkoinen validiteetti tarkoittaa sitä, että voit yleistää johtopäätöksesi vain muille, jotka jakavat näytteesi ominaisuudet. Esimerkiksi tulokset länsimaisista, koulutetuista, teollistuneista, rikkaista ja demokraattisista otoksista (esim., korkeakouluopiskelijat Yhdysvalloissa) eivät ole automaattisesti sovellettavissa kaikkiin ei-outoihin väestöryhmiin.
jos käytät parametrisia testejä ei-todennäköisyysnäytteistä saatuihin tietoihin, muista tarkentaa sitä, miten pitkälle tuloksesi voidaan yleistää keskusteluosastossasi.
luo asianmukainen näytteenottomenettely
tutkimukseesi käytettävissä olevien resurssien perusteella, päätä, miten rekrytoit osallistujia.
- onko sinulla resursseja mainostaa opintojasi laajasti, myös yliopistosi ulkopuolella?
- Onko teillä keinoja värvätä monipuolinen otos, joka edustaa laajaa väestöä?
- Onko sinulla aikaa ottaa yhteyttä ja seurata vaikeasti tavoitettavien ryhmien jäseniä?
- kokeellinen
- korrelaatio
laske riittävä otoskoko
ennen osallistujien rekrytointia päätä otoskokosi joko katsomalla muita oman alasi tutkimuksia tai käyttämällä tilastoja. Liian pieni näyte voi olla epäedustava otoksesta, kun taas liian suuri otos tulee kalliimmaksi kuin on tarpeen.
verkossa on useita otoskokolaskimia. Eri kaavoja käytetään riippuen siitä, onko sinulla alaryhmiä tai kuinka tiukkaa tutkimuksen pitäisi olla (esim.kliinisessä tutkimuksessa). Nyrkkisääntönä on, että alaryhmää kohti tarvitaan vähintään 30 yksikköä tai enemmän.
käyttääksesi näitä laskimia sinun on ymmärrettävä ja syötettävä nämä keskeiset osatekijät:
- Merkitsevyystaso (alpha): riski hylätä todellinen nollahypoteesi, jonka olet valmis ottamaan, asetetaan yleensä 5%: iin.
- tilastollinen teho: todennäköisyys sille, että tutkimuksessasi havaitaan tietyn kokoinen vaikutus, jos sellainen on, yleensä 80% tai suurempi.
- odotetun vaikutuksen koko: standardoitu tieto siitä, kuinka suuri tutkimuksen odotettu tulos on, joka perustuu yleensä muihin vastaaviin tutkimuksiin.
- populaation keskihajonta: arvio populaatioparametrista, joka perustuu aiempaan tutkimukseen tai omaan pilottitutkimukseen.
Vaihe 3: summaa tietosi kuvaaviin tilastoihin
kun olet kerännyt kaikki tietosi, voit tarkastaa ne ja laskea kuvaavia tilastoja, jotka tiivistävät ne.
tarkasta tietosi
on olemassa useita tapoja tarkastaa tietosi, mukaan lukien seuraavat:
- järjestäen tiedot jokaisesta taajuusjakotaulukossa olevasta muuttujasta.
- näytetään avainmuuttujan tiedot pylväskaaviossa vastausten jakautumisen tarkastelemiseksi.
- kahden muuttujan välisen suhteen visualisointi hajontakaavion avulla.
visualisoimalla tietosi taulukoissa ja kaavioissa voit arvioida, noudattavatko tietosi vääristynyttä vai normaalia jakaumaa ja onko niissä poikkeavia tai puuttuvia tietoja.
normaalijakauma tarkoittaa, että tietosi ovat symmetrisesti jakautuneet sellaisen keskuksen ympärille, jossa useimmat arvot ovat, ja arvot kapenevat hännänpäästä.
sen sijaan vinossa jakauma on epäsymmetrinen ja sen toisessa päässä on enemmän arvoja kuin toisessa. Jakauman muoto on tärkeää pitää mielessä, koska vääristyneillä jakaumilla tulisi käyttää vain joitakin kuvailevia tilastoja.
äärimmäiset poikkeamat voivat myös tuottaa harhaanjohtavia tilastoja, joten saatat tarvita järjestelmällistä lähestymistapaa näiden arvojen käsittelemiseen.
laske sentraalisen tendenssimittarit
keskeisen tendenssimittarit kuvaavat tilannetta, jossa suurin osa tietoaineiston arvoista on. Keskeisen taipumuksen kolme pääasiallista mittaria raportoidaan usein:
- tila: suosituin vastaus tai arvo tietojoukossa.
- mediaani: arvo täsmälleen keskellä tietojoukkoa tilattaessa alhaisesta korkeaan.
- keskiarvo: kaikkien arvojen summa jaettuna arvojen lukumäärällä.
jakauman muodosta ja mittaustasosta riippuen vain yksi tai kaksi näistä mittauksista voi olla tarkoituksenmukainen. Esimerkiksi monet demografiset ominaisuudet voidaan kuvata vain moodin tai mittasuhteiden avulla, kun taas muuttujan kaltaisella reaktioajalla ei välttämättä ole moodia lainkaan.
laske vaihtelevuuden mittarit
vaihtelevuuden mittarit kertovat, kuinka hajaantuneita arvot aineistossa ovat. Vaihtelun neljä pääasiallista mittaria raportoidaan usein:
- vaihteluväli: suurin arvo, josta on vähennetty tietoaineiston pienin arvo.
- Kvartiiliväli: tietoaineiston keskimmäisen puoliskon vaihteluväli.
- keskihajonta: tietokokonaisuuden kunkin arvon ja keskiarvon välinen keskimääräinen etäisyys.
- varianssi: keskihajonnan neliö.
jälleen kerran jakauman muodon ja mittaustason pitäisi ohjata vaihtelutilastojen valintaa. Kvartiiliväli on paras mittari vääristyneille jakaumille, kun taas keskihajonta ja varianssi antavat parhaan tiedon normaalijakaumille.
- kokeellinen
- korrelaatio
taulukkoa käyttäen kannattaa tarkistaa, ovatko kuvailevan tilaston yksiköt vertailukelpoisia pretest-ja postttest-pisteiden osalta. Ovatko esimerkiksi varianssitasot samanlaisia eri ryhmien välillä? Onko ääriarvoja? Jos niitä on, saatat joutua tunnistamaan ja poistamaan äärimmäisiä poikkeamia tietoaineistostasi tai muuttamaan tietojasi ennen tilastollisen testin suorittamista.
Pretest scores | postest scores | |
---|---|---|
keskiarvo | 68.44 | 75.25 |
keskihajonta | 9.43 | 9.88 |
varianssi | 88.96 | 97.96 |
vaihteluväli | 36.25 | 45.12 |
Ei | 30 |
tästä taulukosta voimme nähdä, että keskimääräinen pistemäärä kasvoi meditaatioharjoituksen jälkeen, ja näiden kahden pistemäärän varianssit ovat vertailukelpoisia. Seuraavaksi voimme tehdä tilastollisen testin selvittääksemme, onko tämä testitulosten paraneminen tilastollisesti merkitsevää väestössä.
on tärkeää tarkistaa, onko sinulla laaja datapisteiden kirjo. Jos et, tietosi voivat vääristyä kohti joitakin ryhmiä enemmän kuin toiset (esim., korkea akateemisia menestyjiä), ja vain rajalliset päätelmät voidaan tehdä suhteesta.
vanhempien tulot (USD) | GPA | |
---|---|---|
keskiarvo | 62,100 | 3.12 |
keskihajonta | 15,000 | 0.45 |
varianssi | 225,000,000 | 0.16 |
vaihteluväli | 8,000–378,000 | 2.64–4.00 |
Ei | 653 |
seuraavaksi voimme laskea korrelaatiokertoimen ja tehdä tilastollisen testin ymmärtääksemme populaation muuttujien välisen suhteen merkityksen.
Vaihe 4: Testihypoteeseja tai tehdä estimaatteja, joiden päättelytilastot ovat
otosta kuvaavaa lukua kutsutaan statistiikaksi, kun taas populaatiota kuvaavaa lukua parametriksi. Päättelytilastojen avulla voidaan tehdä johtopäätöksiä väestöparametreista otostilastojen perusteella.
tutkijat käyttävät tilastoissa usein kahta päämenetelmää (samanaikaisesti) johtopäätösten tekemiseksi.
- estimointi: väestöparametrien laskeminen otostilastojen perusteella.
- Hypoteesin testaus: muodollinen prosessi, jolla testataan väestöä koskevia tutkimusennusteita näytteiden avulla.
estimointi
otostilastoista voi tehdä kahdenlaisia populaatioparametrien estimaatteja:
- piste-arvio: arvo, joka edustaa parasta arvausta tarkasta parametrista.
- intervalliarvio: arvovalikoima, joka esittää parhaan arvauksesi parametrin sijainnista.
jos pyrit päättelemään ja raportoimaan populaation ominaispiirteitä otosaineistosta, on parasta käyttää sekä piste-että intervalliarvioita paperissasi.
otostilastoa voi pitää populaatioparametrin piste-estimaattina, kun on edustava otos (esimerkiksi laajassa mielipidekyselyssä nykyhallitusta tukevan otoksen osuus otetaan hallituksen kannattajien väestöosuudeksi).
estimoinnissa on aina virhe, joten kannattaa myös antaa luottamusväli intervalli-estimaatiksi, joka näyttää vaihtelun piste-estimaatin ympärillä.
luottamusväli käyttää normaalijakauman keskivirhettä ja z-pistettä välittämään, mistä yleensä oletat löytäväsi populaatioparametrin suurimman osan ajasta.
Hypoteesitestaus
otoksesta saadun tiedon avulla voidaan testata hypoteeseja populaation muuttujien välisistä suhteista. Hypoteesitestaus alkaa oletuksella, että nollahypoteesi on totta populaatiossa, ja tilastollisten testien avulla arvioidaan, voidaanko nollahypoteesi hylätä vai ei.
tilastolliset testit määrittävät, missä näyteaineisto sijoittuisi otosaineiston oletettuun jakaumaan, jos nollahypoteesi olisi tosi. Nämä testit antavat kaksi päätulosta:
- testitilasto kertoo, kuinka paljon tietosi poikkeavat testin nollahypoteesista.
- p-arvo kertoo tuloksesi saamisen todennäköisyyden, jos nollahypoteesi todella pitää paikkansa populaatiossa.
tilastollisissa kokeissa on kolme päälajia:
- vertailutesteissä arvioidaan ryhmien eroja tuloksissa.
- Regressiotesteissä arvioidaan muuttujien välisiä syy-seuraussuhteita.
- Korrelaatiotesteissä arvioidaan muuttujien välisiä suhteita olettamatta syy-yhteyttä.
tilastollisen testin valinta riippuu tutkimuskysymyksistä, tutkimuksen suunnittelusta, otantamenetelmästä ja datan ominaisuuksista.
parametriset testit
parametriset testit tekevät voimakkaita päätelmiä populaatiosta otosaineiston perusteella. Mutta niiden käyttäminen edellyttää joidenkin oletusten täyttymistä, ja vain tietyntyyppisiä muuttujia voidaan käyttää. Jos tietosi rikkovat näitä oletuksia, voit tehdä asianmukaisia tietojen muutoksia tai käyttää vaihtoehtoisia ei-parametrisia testejä sen sijaan.
regressio mallintaa, missä määrin muutokset ennustemuuttujassa aiheuttavat muutoksia lopputulosmuuttujissa.
- yksinkertainen lineaarinen regressio sisältää yhden ennustemuuttujan ja yhden tulosmuuttujan.
- monilineaarinen regressio sisältää kaksi tai useampia ennustemuuttujia ja yhden tulosmuuttujan.
Vertailukokeissa yleensä verrataan ryhmien keskiarvoja. Nämä voivat olla eri ryhmien keskiarvoja otoksessa (esim.käsittely-ja kontrolliryhmä), yhden otosryhmän keskiarvoja eri aikoina (esim. esite-ja posttest-pisteet) tai otoksen ja populaation keskiarvoja.
- t-testi tehdään täsmälleen 1 tai 2 ryhmälle, kun näyte on pieni (30 tai vähemmän).
- z-testi tehdään täsmälleen 1 tai 2 ryhmälle, kun näyte on suuri.
- Anova on tarkoitettu vähintään 3 ryhmälle.
z-ja t-testien alatyypit perustuvat näytteiden määrään ja tyyppeihin sekä hypoteeseihin:
- jos sinulla on vain yksi näyte, jota haluat verrata populaation keskiarvoon, käytä yhden näytteen testiä.
- jos sinulla on paritetut mittaukset (koehenkilöiden sisäinen suunnittelu), Käytä riippuvaa (paritettua) näytetestiä.
- jos sinulla on täysin erilliset mittaukset kahdesta verrattomasta ryhmästä (koehenkilöiden välinen suunnittelu), Käytä riippumatonta näytetestiä.
- jos odotat eroa ryhmien välillä tiettyyn suuntaan, tee yksisuuntainen testi.
- jos sinulla ei ole mitään odotuksia ryhmien välisen eron suunnasta, käytä kaksipyrstötestiä.
ainoa parametrinen korrelaatiotesti on Pearsonin R. korrelaatiokerroin (R) kertoo kahden kvantitatiivisen muuttujan välisen lineaarisen suhteen vahvuuden.
kuitenkin testataksesi, onko otoksen korrelaatio tarpeeksi vahva ollakseen tärkeä populaatiossa, sinun on tehtävä myös korrelaatiokertoimen merkitsevyystesti, yleensä t-testi, p-arvon saamiseksi. Tämä testi käyttää otoskokoasi laskemaan, kuinka paljon korrelaatiokerroin poikkeaa nollasta populaatiossa.
- kokeellinen
- korrelaatio
Vaihe 5: Tulkitse tuloksesi
tilastollisen analyysin viimeinen vaihe on tulosten tulkitseminen.
tilastollinen merkitsevyys
hypoteesitestauksessa tilastollinen merkitsevyys on tärkein kriteeri johtopäätösten muodostamiseksi. Vertaat p-arvoasi asetettuun merkitsevyystasoon (yleensä 0.05) päättääksesi, ovatko tuloksesi tilastollisesti merkitseviä vai ei-merkitseviä.
tilastollisesti merkitseviä tuloksia pidetään epätodennäköisinä, että ne olisivat syntyneet pelkästään sattuman vuoksi. On vain hyvin pieni mahdollisuus tällaisen tuloksen syntymiseen, jos nollahypoteesi on totta populaatiossa.
- kokeellinen
- korrelaatio
vaikutuksen koko
tilastollisesti merkitsevä tulos ei välttämättä tarkoita, että löydökselle olisi tärkeitä tosielämän sovelluksia tai kliinisiä tuloksia.
sen sijaan vaikutuksen koko kertoo tuloksesi käytännön merkityksen. On tärkeää raportoida vaikutus koot sekä päätelmiä tilastoja täydellisen kuvan tuloksia. Sinun tulisi myös ilmoittaa vaikutusarviot, jos kirjoitat apa-tyylinen paperi.
- kokeellinen
- korrelaatio
Ratkaisuvirheet
tyypin I ja tyypin II virheet ovat tutkimuksen johtopäätöksissä tehtyjä virheitä. Tyypin I virhe tarkoittaa nollahypoteesin hylkäämistä, kun se on tosi, kun taas tyypin II virhe tarkoittaa nollahypoteesin hylkäämistä, kun se on epätosi.
voit pyrkiä minimoimaan näiden virheiden riskin valitsemalla optimaalisen merkitsevyystason ja varmistamalla korkean tehon. Kahden virheen välillä on kuitenkin vaihtokauppa, joten hieno tasapaino on tarpeen.
Frequentist vs. Bayesilainen tilasto
perinteisesti frequentistiset tilastot painottavat nollahypoteesin merkitsevyystestausta ja alkavat aina oletuksella todellisesta nollahypoteesista.
Bayesilainen tilastointi on kuitenkin kasvattanut suosiotaan vaihtoehtoisena lähestymistapana viime vuosikymmeninä. Tässä lähestymistavassa aiemman tutkimuksen avulla päivität jatkuvasti hypoteesejasi odotustesi ja havaintojesi perusteella.
Bayes-tekijä vertaa nollahypoteesin suhteellista vahvuutta vaihtoehtoiseen hypoteesiin sen sijaan, että tekisi johtopäätöksen nollahypoteesin hylkäämisestä tai hylkäämisestä.
Usein kysyttyä tilastoanalyysistä
tilastollinen analyysi on tärkein menetelmä kvantitatiivisen tutkimusaineiston analysoimiseksi. Se käyttää todennäköisyyksiä ja malleja testatakseen väestöä koskevia ennusteita otosaineistosta.
deskriptiivinen tilasto tiivistää jonkin aineiston ominaisuudet. Johdettujen tilastojen avulla voit testata hypoteesia tai arvioida, onko tietosi yleistettävissä laajemmalle väestölle.
Hypoteesitestaus on muodollinen menettely, jolla tutkitaan käsityksiämme maailmasta tilastojen avulla. Sen avulla tutkijat testaavat tiettyjä ennustuksia, joita kutsutaan hypoteeseiksi, laskemalla, kuinka todennäköistä on, että muuttujien välinen kuvio tai suhde on voinut syntyä sattumalta.
tilastollisessa hypoteesitestauksessa testin nollahypoteesi ennustaa aina, että muuttujien välillä ei ole vaikutusta tai ei ole suhdetta, kun taas vaihtoehtoinen hypoteesi kertoo tutkimuksesi ennusteen vaikutuksesta tai suhteesta.
tilastollinen merkitsevyys on tutkijoiden käyttämä termi, jonka mukaan on epätodennäköistä, että heidän havaintonsa olisivat voineet tapahtua tilastollisen testin nollahypoteesin puitteissa. Merkitsevyyttä merkitään yleensä P-arvolla eli todennäköisyysarvolla.
tilastollinen merkitsevyys on mielivaltainen-se riippuu tutkijan valitsemasta raja-arvosta eli alfa-arvosta. Yleisin raja-arvo on p < 0,05, mikä tarkoittaa, että aineisto esiintyy todennäköisesti alle 5% nollahypoteesin mukaisesta ajasta.
kun p-arvo laskee alle valitun alfa-arvon, sanomme testin tuloksen olevan tilastollisesti merkitsevä.