keskimääräinen liiketoiminta on muuttunut radikaalisti viimeisen vuosikymmenen aikana.
oli kyse sitten pulpeteissa käytettävistä laitteista tai viestintään käytettävästä ohjelmistosta, hyvin harva asia näyttää samalta kuin ennen.
jotain aivan muuta on se, kuinka paljon tietoa meillä on käden ulottuvilla. Se, mikä oli kerran niukkaa, on nyt näennäisesti ylivoimainen määrä dataa. Mutta, se on vain ylivoimainen, jos et tiedä miten analysoida yrityksesi tiedot löytää totta ja oivaltava merkitys.
miten siis siirrytään pisteestä A, jolla on valtava määrä dataa, pisteeseen B, joka pystyy tulkitsemaan tarkasti tuota dataa? Kaikki perustuu oikeiden menetelmien käyttämiseen tilastollisessa analyysissä, eli siihen, miten käsittelemme ja keräämme näytteitä tiedoista löytääksemme malleja ja trendejä.
tässä analyysissä on valittavana viisi vaihtoehtoa: keskiarvo, keskihajonta, regressio, hypoteesien testaus ja otoksen koon määrittäminen.
the 5 methods for performing statistical analysis
There ’s no keeping that the world is becoming obsession of big data, no matter you’ re the data scientist or not. Tämän vuoksi sinun täytyy tietää, mistä aloittaa. Nämä viisi menetelmää ovat perus -, mutta tehokas, tulossa tarkkoja tietoja perustuva päätelmät.
keskiarvo
ensimmäinen tilastollisen analyysin suorittamiseen käytetty menetelmä on keskiarvo, jota yleisemmin kutsutaan keskiarvoksi. Kun haluat laskea keskiarvon, lasket yhteen numeroluettelon ja jaat sen listan kohteilla.
tätä menetelmää käytettäessä voidaan määrittää tietoaineiston yleinen suuntaus sekä saada nopea ja tiivis kuva tiedoista. Menetelmän käyttäjät hyötyvät myös pelkistetystä ja nopeasta laskutoimituksesta.
tilastolliselle keskiarvolle tulee käsiteltävän aineiston keskipiste. Tulosta kutsutaan annettujen tietojen keskiarvoksi. Tosielämässä, ihmiset tyypillisesti käyttävät mean to suhteen tutkimukseen, tutkijat, ja urheilu. Ajatelkaa kuinka monta kertaa pelaajan lyöntikeskiarvosta puhutaan baseballissa; se on heidän keskiarvonsa.
miten löytää keskiarvo
löytääksesi keskiarvon, laskisit ensin luvut yhteen ja jakaisit summan sen mukaan, kuinka monta numeroa aineistossa tai luettelossa on.
esimerkiksi 6: n, 18: n ja 24: n keskiarvon löytämiseksi lasketaan ne ensin yhteen.
6 + 18 + 24 = 48
sitten, jakaa kuinka monta numeroa luettelossa (3).
48 / 3 = 16
keskiarvo on 16.
varjopuoli
käytettäessä keskiarvo on suuri, sitä ei suositella itsenäisenä tilastollisena analyysimenetelmänä. Tämä johtuu siitä, että tämä voi mahdollisesti pilata kaikki laskutoimitukset, koska se liittyy myös moodiin (arvo, joka esiintyy useimmiten) ja mediaaniin (keskimmäinen) joissakin tietojoukoissa.
kun on kyse suuresta määrästä datapisteitä, joissa on joko suuri määrä poikkeavia tekijöitä (datapiste, joka eroaa merkittävästi muista) tai epätarkka tietojen jakauma, keskiarvo ei anna tilastoanalytiikan tarkimpia tuloksia tiettyä päätöstä varten.
keskihajonta
keskihajonta on tilastollinen analyysimenetelmä, jolla mitataan tietojen jakautumista keskiarvon ympärille.
kun on kyse suuresta keskihajonnasta, tämä viittaa keskiarvosta laajalle levinneeseen dataan. Vastaavasti pieni poikkeama osoittaa, että suurin osa tiedoista on keskiarvon mukaisia, ja sitä voidaan kutsua myös joukon odotusarvoksi.
keskihajontaa käytetään lähinnä silloin, kun täytyy määrittää datapisteiden hajonta (ovatko ne ryhmitettyjä vai eivät).
sanotaan, että olet markkinoija, joka teki hiljattain asiakaskyselyn. Kyselyn tulosten selvittyä on kiinnostunut mittaamaan vastausten luotettavuutta, jotta voi ennustaa, onko isommalla asiakasryhmällä mahdollisesti samat vastaukset. Jos keskihajonta on pieni, se osoittaisi, että vastaukset voidaan projisoida suuremmalle asiakasryhmälle.
Lue lisää: ryhmittely on tiedonlouhintatekniikka, jossa suuret tietomäärät ryhmitellään yhteen niiden samankaltaisuuksien perusteella.
miten löytää keskihajonta
keskihajonnan laskukaava on:
σ2 = Σ (x-μ) 2 / n
tässä kaavassa:
- keskihajonnan symboli on σ
- Σ tarkoittaa tietojen summaa
- x tarkoittaa aineiston arvoa
- μ tarkoittaa tietojen keskiarvoa
- σ2 tarkoittaa varianssia
- n datapisteiden lukumäärää perusjoukossa
keskihajonnan löytämiseksi:
- Etsi tietojoukon lukujen keskiarvo
- jokaiselle tietojoukon luvulle, vähennä keskiarvo ja neliötä tulos (joka on tämä osa kaavasta (x − μ)2).
- Etsi näiden neliöjuurien keskiarvo
- ota lopullisen vastauksen neliöjuuri
jos käytät samoja kolmea lukua keskiarvoesimerkissämme 6, 18 ja 24, keskihajonta eli σ olisi 7,4833147735479.
varjopuoli
vastaavasti kuin keskiarvon käytön varjopuoli, keskihajonta voi olla harhaanjohtava, kun sitä käytetään ainoana menetelmänä tilastollisessa analyysissä.
esimerkiksi, jos käsittelemässäsi datassa on liikaa poikkeamia tai outo kuvio, kuten ei-normaali käyrä, keskihajonta ei anna tarvittavia tietoja perustellun päätöksen tekemiseksi.
regressio
tilastoissa regressio on riippuvan muuttujan (mittaustiedot) ja riippumattoman muuttujan (tiedot, joita käytetään riippuvan muuttujan ennustamiseen) välinen suhde.
se voidaan selittää myös sillä, miten yksi muuttuja vaikuttaa toiseen, tai muuttujan muutoksilla, jotka laukaisevat muutoksia toisessa, lähinnä syy ja seuraus. Se tarkoittaa, että tulos riippuu yhdestä tai useammasta muuttujasta.
regressioanalyysiä kuvaavissa kuvioissa ja kaavioissa käytetty viiva ilmaisee, ovatko muuttujien väliset suhteet vahvoja vai heikkoja, minkä lisäksi esitetään tietyn ajan suuntaukset.
näitä tutkimuksia käytetään tilastollisessa analyysissä ennusteiden ja ennusteiden tekemiseen. Voit esimerkiksi regression avulla ennustaa, miten tietty tuote tai palvelu voi myydä asiakkaillesi. Tai täällä G2: ssa käytämme regressiota ennustaaksemme, miltä orgaaninen liikenne näyttää 6 kuukauden kuluttua.
Regressiokaava
regressiokaava, jolla nähdään, miltä data voisi näyttää tulevaisuudessa, on:
Y = a + b (x)
tässä kaavassa:
- a viittaa y-leikkauspisteeseen, Y: n arvo, kun x = 0
- X on riippuvainen muuttuja
- Y on itsenäinen muuttuja
- B viittaa kaltevuuteen tai nousu yli ajon
varjopuoli
yksi haitta regression käyttäminen osana tilastollista analyysia on, että regressio ei ole kovin erottuva, mikä tarkoittaa, että vaikka hajontakaavion (tai regressioanalyysin kuvaajan) poikkeamat ovat tärkeitä, niin ovat myös syyt siihen, miksi ne ovat poikkeavia. Tämä syy voi olla mitä tahansa virhe analyysissä data on sopimattomasti skaalattu.
poikkeavaksi merkitty datapiste voi edustaa monia asioita, kuten eniten myyvää tuotettasi. Regressiolinja houkuttelee sivuuttamaan nämä poikkeamat ja näkemään vain datan trendit.
Hypoteesitestaus
tilastollisessa analyysissä hypoteesitestaus, joka tunnetaan myös nimellä ”T-testaus”, on avain aineiston kahden satunnaismuuttujajoukon testaamiseen.
tässä menetelmässä testataan, onko jokin argumentti tai päätelmä totta aineistolle. Sen avulla tietoja voidaan verrata erilaisiin hypoteeseihin ja oletuksiin. Se voi myös auttaa ennustamaan, miten tehdyt päätökset voivat vaikuttaa liiketoimintaan.
tilastoissa hypoteesikoe määrittää jonkin suureen tietyn oletuksen mukaisesti. Testin tulos tulkitsee, pitääkö oletus paikkansa vai onko oletusta rikottu. Tätä oletusta kutsutaan nollahypoteesiksi eli hypoteesiksi 0. Mitä tahansa muuta hypoteesia, joka olisi ristiriidassa hypoteesin 0 kanssa, kutsutaan ensimmäiseksi hypoteesiksi eli hypoteesiksi 1.
hypoteesitestausta tehtäessä testin tulokset ovat tilastolle merkittäviä, jos tulokset todistavat, ettei se ole voinut tapahtua sattumanvaraisesti tai sattumalta.
esimerkiksi voidaan olettaa, että mitä kauemmin tuotteen kehittäminen kestää, sitä menestyksekkäämpi se on, mikä johtaa korkeampaan myyntiin kuin koskaan ennen. Ennen pidemmän työajan toteuttamista tuotteen kehittämiseksi hypoteesitestaus varmistaa, että näiden kahden välillä on todellinen yhteys.
Hypoteesitestin formula_2895 >
tilastollisen hypoteesitestin tuloksia on tulkittava niin, että voidaan esittää tietty väite, jota kutsutaan p-arvoksi.
sanotaan, että sillä, mitä etsit, on 50 prosentin mahdollisuus olla oikea.
tämän hypoteesitestin kaava on:
H0: P = 0, 5
H1: P ≠ 0.5
varjopuoli
Hypoteesitestaus voi joskus hämärtyä ja vääristyä yleisten virheiden, kuten lumelääkkeen vaikutuksen vuoksi. Tämä tapahtuu, kun testiä suorittavat tilastoanalyytikot virheellisesti odottavat tiettyä tulosta ja sitten näkevät sen tuloksen olosuhteista riippumatta.
on myös todennäköistä, että Hawthorne-ilmiö, joka tunnetaan myös observer-ilmiönä, vääristää sen. Tämä tapahtuu, kun osallistujat analysoidaan vääristävät tuloksia, koska he tietävät niitä tutkitaan.
Related: Discover more about accurate hypothesis testing with a deep dive into incertive analysis.
otoskoon määrittäminen
kun analysoidaan tietoja tilastollista analyysiä varten, aineisto on joskus yksinkertaisesti liian suuri, minkä vuoksi on vaikea kerätä tarkkoja tietoja aineiston jokaisesta osasta. Kun näin on, useimmat menevät näytteen koon tai pienemmän koon analysoinnin reitille, jota kutsutaan näytteen koon määritykseksi.
tehdäksesi tämän oikein, sinun täytyy määrittää otoksen oikea koko, jotta se olisi tarkka. Jos otoskoko on liian pieni, sinulla ei ole kelvollisia tuloksia analyysin lopussa.
tähän johtopäätökseen tultaessa käytetään yhtä monista näytteenottomenetelmistä. Voit tehdä tämän lähettämällä kyselyn asiakkaillesi, ja sitten käyttää yksinkertaista satunnaisotantamenetelmää valitaksesi asiakastiedot analysoitavaksi satunnaisesti.
toisaalta liian suuri otoskoko voi johtaa ajan ja rahan tuhlaamiseen. Voit määrittää otoksen koon, voit tutkia näkökohtia, kuten kustannukset, aika, tai kätevästi kerätä tietoja.
otoskoon löytäminen
toisin kuin neljässä muussa tilastollisessa analyysimenetelmässä, ei ole yhtä kovaa ja nopeaa kaavaa, jolla otoskoko löydettäisiin.
on kuitenkin joitakin yleisiä vinkkejä, jotka on pidettävä mielessä otoskokoa määritettäessä.:
- kun harkitset pienempää otoskokoa, tee väestönlaskenta
- Käytä oman tutkimuksen otoskokoa. Tätä varten kannattaa ehkä harkita akateemisten tietokantojen tarkastelua samankaltaisen tutkimuksen etsimiseksi
- jos olet suorittamassa yleistä tutkimusta, saattaa olla olemassa jo olemassa oleva taulukko, jota voit käyttää hyödyksesi
- käytä otoskokolaskinta
- vain koska ei ole yhtä tiettyä kaavaa, se ei tarkoita, ettet voisi löytää toimivaa kaavaa. Voit käyttää monia, ja se riippuu siitä, mitä tiedät tai et tiedä tarkoitetusta näytteestä. Jotkut, joita voit harkita käyttäväsi, ovat Slovinin kaava ja Cochranin kaava
varjopuoli
kun analysoit uutta ja testaamatonta datamuuttujaa tässä menetelmässä, sinun on luotettava tiettyihin oletuksiin. Se voi johtaa täysin virheelliseen olettamukseen. Jos tämä virhe tapahtuu tämän tilastollisen analyysimenetelmän aikana, se voi vaikuttaa negatiivisesti muuhun data-analyysiisi.
näitä virheitä kutsutaan otantavirheiksi ja niitä mitataan luottamusvälillä. Jos esimerkiksi toteat, että tuloksesi ovat 90%: n luottamustasolla, se tarkoittaa, että jos suoritat saman analyysin uudelleen ja uudelleen, 90% ajasta tuloksesi ovat samat.
a method to the madness
riippumatta siitä, minkä tilastollisen analyysin menetelmän valitset, muista kiinnittää erityistä huomiota jokaiseen mahdolliseen varjopuoleen sekä niiden ainutlaatuiseen kaavaan.
ei tietenkään ole olemassa kultakantaa tai oikeaa tai väärää menetelmää. Se tulee riippumaan siitä, millaista dataa olet kerännyt, sekä siitä, mitä oivalluksia haluat saada lopputuloksena.
Kiinnostaako löytää oikea työkalu, jolla voi tutkia dataa vielä tarkemmin? Tutustu meidän roundup paras tilastollinen analyysi ohjelmisto jopa kaikkein monimutkaisia analyysejä.