den gjennomsnittlige virksomheten har endret seg radikalt det siste tiåret.
enten det er utstyret som brukes på pulter eller programvaren som brukes til å kommunisere, ser svært få ting ut som de en gang var.
Noe annet som er helt annerledes er hvor mye data vi har for hånden. Det som en gang var knappe, er nå en tilsynelatende overveldende mengde data. Men det er bare overveldende hvis du ikke vet hvordan du analyserer bedriftens data for å finne sann og innsiktsfull mening.
så, hvordan går du fra punkt A, med en stor mengde data, til punkt B, å kunne tolke dataene nøyaktig? Alt handler om å bruke de riktige metodene for statistisk analyse, som er hvordan vi behandler og samler inn prøver av data for å avdekke mønstre og trender.
for denne analysen er det fem å velge mellom: gjennomsnitt, standardavvik, regresjon, hypotesetesting og bestemmelse av utvalgsstørrelse.
de 5 metodene for å utføre statistisk analyse
det er ikke nektet at verden blir besatt av store data, uansett om du er datavitenskapsmann eller ikke. På grunn av dette må du vite hvor du skal begynne. Disse fem metodene er grunnleggende, men effektive, for å komme til nøyaktige datadrevne konklusjoner.
Middel
den første metoden som brukes til å utføre statistisk analyse er middel, som ofte refereres til som gjennomsnittet. Når du ønsker å beregne gjennomsnittet, legger du til en liste med tall og deler deretter tallet med elementene i listen.
når denne metoden brukes, gjør det mulig å bestemme den generelle trenden i et datasett, samt muligheten til å få en rask og kortfattet visning av dataene. Brukere av denne metoden har også nytte av den forenklede og raske beregningen.
det statistiske gjennomsnittet kommer opp med det sentrale punktet i dataene som behandles. Resultatet er referert til som gjennomsnittet av dataene som er oppgitt. I det virkelige liv, folk vanligvis bruker mener å i forhold til forskning, akademikere, og sport. Tenk på hvor mange ganger en spillers batting gjennomsnitt diskuteres i baseball; det er deres middel.
hvordan finne gjennomsnittet
for å finne gjennomsnittet av dataene dine, vil du først legge tallene sammen, og deretter dele summen med hvor mange tall som er i datasettet eller listen.
for eksempel, for å finne gjennomsnittet av 6, 18 og 24, vil du først legge dem sammen.
6 + 18 + 24 = 48
del deretter med hvor mange tall i listen (3).
48 / 3 = 16
gjennomsnittet er 16.
ulempen
når du bruker mean er flott, anbefales det ikke som en frittstående statistisk analysemetode. Dette skyldes at det kan ødelegge den komplette innsatsen bak beregningen, da den også er relatert til modusen (verdien som forekommer oftest) og median (midten) i noen datasett.
når du arbeider med et stort antall datapunkter med enten et høyt antall avvik (et datapunkt som skiller seg vesentlig fra andre) eller en unøyaktig distribusjon av data, gir ikke gjennomsnittet de mest nøyaktige resultatene i statistisk analyse for en bestemt beslutning.
Standardavvik
Standardavvik Er en metode for statistisk analyse som måler spredning av data rundt gjennomsnittet.
når du arbeider med et høyt standardavvik, peker dette på data som er spredt mye fra gjennomsnittet. Tilsvarende viser et lavt avvik at de fleste data er i tråd med gjennomsnittet og kan også kalles forventet verdi av et sett.
Standardavvik brukes hovedsakelig når Du må bestemme spredningen av datapunkter (om de er gruppert eller ikke).
la oss si at du er en markedsfører som nylig gjennomførte en kundeundersøkelse. Når du får resultatene av undersøkelsen, er du interessert i å måle påliteligheten av svarene for å forutsi om en større gruppe kunder kan ha de samme svarene. Hvis det oppstår et lavt standardavvik, vil det vise at svarene kan projiseres til en større gruppe kunder.
Lær mer: Clustering Er en data mining teknikk som grupperer store mengder data sammen basert på deres likheter.
hvordan finne standardavviket
formelen for å beregne standardavviket er:
σ2 = Σ (x − μ)2 / n
I denne formelen:
- symbolet for standardavvik er σ
- Σ står for summen av dataene
- x står for verdien av datasettet
- μ står for gjennomsnittet av dataene
- σ2 står for variansen
- n står for antall datapunkter i populasjonen
for å finne standardavviket:
- Finn gjennomsnittet av tallene i datasettet
- for hvert tall i datasettet trekker du gjennomsnittet og kvadrater resultatet (som er denne delen av formelen (x-μ) 2).
- Finn gjennomsnittet av de kvadrerte forskjellene
- Ta kvadratroten til det endelige svaret
hvis du brukte de samme tre tallene i vårt middeleksempel, 6, 18 og 24, vil standardavviket eller σ være 7,4833147735479.
ulempen
på et lignende notat til ulempen ved å bruke middel, kan standardavviket være misvisende når det brukes som den eneste metoden i din statistiske analyse.
for eksempel, hvis dataene du arbeider med, har for mange avvik eller et merkelig mønster som en ikke-normal kurve, vil standardavviket ikke gi den nødvendige informasjonen for å ta en informert beslutning.
Regresjon
når det gjelder statistikk, er regresjon forholdet mellom en avhengig variabel (dataene du ønsker å måle) og en uavhengig variabel (dataene som brukes til å forutsi den avhengige variabelen).
Det kan også forklares med hvordan en variabel påvirker en annen, eller endringer i en variabel som utløser endringer i en annen, i hovedsak årsak og virkning. Det innebærer at utfallet er avhengig av en eller flere variabler.
linjen som brukes i regresjonsanalysegrafer og diagrammer, betyr om forholdene mellom variablene er sterke eller svake, i tillegg til å vise trender over en bestemt tidsperiode.
disse studiene brukes i statistisk analyse for å gjøre spådommer og prognosetrender. For eksempel kan du bruke regresjon for å forutsi hvordan et bestemt produkt eller en tjeneste kan selge til kundene dine. Eller her på G2 bruker vi regresjon for å forutsi hvordan vår organiske trafikk vil se 6 måneder fra nå.
Regresjonsformel
regresjonsformelen som brukes til å se hvordan data kan se ut i fremtiden er:
Y = a + b (x)
i denne formelen:
- a refererer til y-avskjæringen, verdien av y når x = 0
- X er den avhengige variabelen
- Y er den uavhengige variabelen
- b refererer til skråningen, eller stigningen over løp
ulempen
en ulempe med å bruke regresjon som en del av din statistiske analyse er at regresjon ikke er veldig karakteristisk, noe som betyr At selv om outliers på en scatterplot (eller regresjonsanalysegraf) er viktige, så er årsakene til hvorfor de er outliers. Denne grunnen kan være alt fra en feil i analysen til data blir feilaktig skalert.
et datapunkt som er merket som en outlier, kan representere mange ting, for eksempel ditt høyeste salgsprodukt. Regresjonslinjen lokker deg til å ignorere disse avvikene og bare se trender i data.
Hypotesetesting
i statistisk analyse er hypotesetesting, også kjent som» T-Testing», en nøkkel til å teste de to settene med tilfeldige variabler i datasettet.
denne metoden handler om å teste om et bestemt argument eller konklusjon er sant for datasettet. Det gjør det mulig å sammenligne dataene mot ulike hypoteser og forutsetninger. Det kan også bistå i prognoser hvordan beslutninger kan påvirke virksomheten.
i statistikk bestemmer en hypotesetest en viss mengde under en gitt antagelse. Resultatet av testen tolker om antagelsen gjelder eller om antagelsen er overtrådt. Denne hypotesen kalles nullhypotesen eller hypotese 0. Enhver annen hypotese som ville være i strid med hypotese 0 kalles den første hypotesen, eller hypotese 1.
når du utfører hypotesetesting, er resultatene av testen signifikante for statistikk hvis resultatene er bevis på at det ikke kunne ha skjedd ved en tilfeldig forekomst eller tilfeldighet.
som et eksempel kan du anta at jo lenger det tar å utvikle et produkt, jo mer vellykket vil det være, noe som resulterer i høyere salg enn noen gang før. Før du implementerer lengre arbeidstid for å utvikle et produkt, sikrer hypotesetesting at det er en faktisk forbindelse mellom de to.
Formel For Hypotesetesting
resultatene av en statistisk hypotesetest må tolkes for å gjøre et spesifikt krav, som refereres til som p-verdien.
La oss si hva du ønsker å bestemme har en 50% sjanse for å være riktig.
formelen for denne hypotesetesten er:
H0: P = 0,5
H1: P ≠ 0.5
ulempen
Hypotesetesting kan noen Ganger være overskyet og skjev av vanlige feil, som placebo-effekten. Dette skjer når statistiske analytikere som utfører testen feilaktig forventer et bestemt resultat og så ser det resultatet, uansett omstendighetene.
Det er også sannsynligheten for å bli skjev av Hawthorne-effekten, ellers kjent som observatøreffekten. Dette skjer når deltakerne blir analysert skew resultatene fordi de vet at de blir studert.
Relatert: Oppdag mer om nøyaktig hypotesetesting med et dypt dykk inn i inferensiell analyse.
bestemmelse Av Prøvestørrelse
når det gjelder å analysere data for statistisk analyse, er datasettet noen ganger for stort, noe som gjør det vanskelig å samle nøyaktige data for hvert element i datasettet. Når dette er tilfelle, går de fleste ruten for å analysere en prøvestørrelse, eller mindre størrelse, av data, som kalles prøvestørrelsesbestemmelse.
for å gjøre dette riktig må du bestemme riktig størrelse på prøven for å være nøyaktig. Hvis prøvestørrelsen er for liten, vil du ikke ha gyldige resultater på slutten av analysen.
for å komme til denne konklusjonen, bruker du en av de mange datainnsamlingsmetodene. Du kan gjøre dette ved å sende ut en undersøkelse til kundene dine, og deretter bruke den enkle tilfeldige prøvetakingsmetoden for å velge kundedataene som skal analyseres tilfeldig.
på den annen side kan en prøvestørrelse som er for stor, resultere i bortkastet tid og penger. For å bestemme prøvestørrelsen, kan du undersøke aspekter som kostnad, tid eller bekvemmeligheten av å samle inn data.
Finne en prøvestørrelse
I Motsetning til de andre fire statistiske analysemetodene, er det ikke en hard-og-rask formel å bruke for å finne prøvestørrelsen.
det er imidlertid noen generelle tips å huske på når du bestemmer en prøvestørrelse:
- når du vurderer en mindre utvalgsstørrelse, utfør en folketelling
- Bruk en utvalgsstørrelse fra en studie som ligner på din egen. For dette kan du vurdere å ta en titt på akademiske databaser for å søke etter en lignende studie
- Hvis du gjennomfører en generisk studie, kan det være en tabell som allerede finnes som du kan bruke til din fordel
- Bruk en kalkulator for prøvestørrelse
- Bare Fordi det ikke er en bestemt formel betyr ikke at du ikke vil kunne finne en formel som fungerer. Det er mange du kan bruke, og det avhenger av hva du vet eller ikke vet om den hensikt prøven. Noen som du kan vurdere å bruke Er Slovins formel og Cochrans formel
ulempen
når du analyserer en ny og uprøvd variabel med data i denne metoden, må du stole på visse forutsetninger. Å gjøre det kan resultere i en helt unøyaktig antagelse. Hvis denne feilen oppstår under denne statistiske analysemetoden, kan det påvirke resten av dataanalysen negativt.
disse feilene kalles samplingsfeil og måles med et konfidensintervall. For eksempel, hvis du oppgir at resultatene dine er på et 90% konfidensnivå, betyr det at hvis du skulle utføre den samme analysen igjen og igjen, vil 90% av tiden resultatene dine være de samme.
en metode til galskapen
uansett hvilken metode for statistisk analyse du velger, sørg For å ta spesielt merke til hver potensielle ulemper, så vel som deres unike formel.
selvfølgelig er det ingen gullstandard eller riktig eller feil metode å bruke. Det kommer til å avhenge av hvilken type data du har samlet, samt innsiktene du ønsker å ha som et sluttresultat.
Interessert i å finne det riktige verktøyet for å se nærmere på data? Sjekk ut vår roundup av de beste statistisk analyse programvare for selv de mest komplekse analyser.