den genomsnittliga verksamheten har förändrats radikalt under det senaste decenniet.
oavsett om det är utrustningen som används vid skrivbord eller programvaran som används för att kommunicera, ser väldigt få saker ut som de en gång var.
något annat som är helt annorlunda är hur mycket data vi har till hands. Det som en gång var knappt är nu en till synes överväldigande mängd data. Men det är bara överväldigande om du inte vet hur du analyserar ditt företags data för att hitta sann och insiktsfull mening.
så, hur går du från punkt A, med en stor mängd data, till punkt B, att kunna tolka dessa data korrekt? Allt handlar om att använda rätt metoder för statistisk analys, vilket är hur vi bearbetar och samlar in prover av data för att avslöja mönster och trender.
för denna analys finns det fem att välja mellan: medelvärde, standardavvikelse, regression, hypotesprovning och bestämning av provstorlek.
de 5 metoderna för att utföra statistisk analys
det kan inte förnekas att världen blir besatt av big data, oavsett om du är en datavetenskapare eller inte. På grund av detta måste du veta var du ska börja. Dessa fem metoder är grundläggande, men ändå effektiva, för att komma till exakta datadrivna slutsatser.
medelvärde
den första metoden som används för att utföra den statistiska analysen är medelvärdet, vilket oftare kallas genomsnittet. När du vill beräkna medelvärdet lägger du till en lista med siffror och delar sedan det numret med objekten i listan.
när den här metoden används gör det möjligt att bestämma den övergripande trenden för en datamängd, liksom förmågan att få en snabb och kortfattad bild av data. Användare av denna metod drar också nytta av den förenklade och snabba beräkningen.
det statistiska medelvärdet kommer upp med den centrala punkten för de data som behandlas. Resultatet kallas medelvärdet av de uppgifter som tillhandahålls. I verkligheten använder människor vanligtvis medel för forskning, akademiker och sport. Tänk på hur många gånger en spelares slagmedelvärde diskuteras i baseball; det är deras medelvärde.
hur man hittar medelvärdet
för att hitta medelvärdet av dina data, skulle du först lägga till siffrorna tillsammans och sedan dela summan med hur många siffror som finns i datauppsättningen eller listan.
som ett exempel, för att hitta medelvärdet av 6, 18 och 24, skulle du först lägga till dem tillsammans.
6 + 18 + 24 = 48
dela sedan med hur många nummer i listan (3).
48 / 3 = 16
medelvärdet är 16.
nackdelen
när du använder medelvärdet är bra rekommenderas det inte som en fristående statistisk analysmetod. Detta beror på att det kan potentiellt förstöra de fullständiga ansträngningarna bakom beräkningen, eftersom det också är relaterat till läget (det värde som oftast förekommer) och median (mitten) i vissa datamängder.
när du har att göra med ett stort antal datapunkter med antingen ett stort antal avvikare (en datapunkt som skiljer sig avsevärt från andra) eller en felaktig distribution av data, ger medelvärdet inte de mest exakta resultaten i statistisk analys för ett specifikt beslut.
standardavvikelse
standardavvikelse är en metod för statistisk analys som mäter spridningen av data runt medelvärdet.
när du har att göra med en hög standardavvikelse pekar detta på data som sprids mycket från medelvärdet. På samma sätt visar en låg avvikelse att de flesta data är i linje med medelvärdet och kan också kallas det förväntade värdet för en uppsättning.
standardavvikelse används huvudsakligen när du behöver bestämma spridningen av datapunkter (oavsett om de är grupperade eller inte).
låt oss säga att du är en marknadsförare som nyligen genomfört en kundundersökning. När du får resultaten av undersökningen, är du intresserad av att mäta tillförlitligheten av svaren för att förutsäga om en större grupp av kunder kan ha samma svar. Om en låg standardavvikelse inträffar skulle det visa att svaren kan projiceras till en större grupp kunder.
Läs mer: Clustering är en Data mining teknik som grupperar stora mängder data tillsammans baserat på deras likheter.
hur man hittar standardavvikelsen
formeln för att beräkna standardavvikelsen är:
2 = 2(x − 2)/n
i denna formel:
- symbolen för standardavvikelse är exporten
- exporten står för summan av data
- x står för värdet av datasetet
- exporten står för medelvärdet av data
- exporten2 står för variansen
- n står för antalet datapunkter i befolkningen
för att hitta standardavvikelsen:
- hitta medelvärdet av siffrorna i datamängden
- för varje nummer i datamängden subtraherar du medelvärdet och kvadrerar resultatet (vilket är den här delen av formeln (X − XHamster)2).
- hitta medelvärdet av dessa kvadrerade skillnader
- ta kvadratroten av det slutliga svaret
om du använde samma tre siffror i vårt genomsnittliga exempel, 6, 18 och 24, skulle standardavvikelsen, eller GHz, vara 7.4833147735479.
nackdelen
på en liknande anteckning till nackdelen med att använda medelvärdet kan standardavvikelsen vara vilseledande när den används som den enda metoden i din statistiska analys.
som ett exempel, om de data du arbetar med har för många avvikare eller ett konstigt mönster som en icke-normal kurva, kommer standardavvikelsen inte att ge den information som behövs för att fatta ett välgrundat beslut.
Regression
när det gäller statistik är regression förhållandet mellan en beroende variabel (de data du vill mäta) och en oberoende variabel (de data som används för att förutsäga den beroende variabeln).
det kan också förklaras av hur en variabel påverkar en annan, eller förändringar i en variabel som utlöser förändringar i en annan, i huvudsak orsak och verkan. Det innebär att resultatet är beroende av en eller flera variabler.
linjen som används i regressionsanalysdiagram och diagram betyder om förhållandena mellan variablerna är starka eller svaga, förutom att visa trender över en viss tid.
dessa studier används i statistisk analys för att göra förutsägelser och prognostrender. Du kan till exempel använda regression för att förutsäga hur en viss produkt eller tjänst kan sälja till dina kunder. Eller här på G2 använder vi regression för att förutsäga hur vår organiska trafik kommer att se ut 6 månader från och med nu.
Regressionsformel
regressionsformeln som används för att se hur data kan se ut i framtiden är:
Y = a + b (x)
i denna formel:
- a hänvisar till y-intercept, värdet på y när x = 0
- X är den beroende variabeln
- Y är den oberoende variabeln
- B hänvisar till lutningen, eller stiga över körning
nackdelen
en nackdel med denna variabel att använda regression som en del av din statistiska analys är att regression inte är särskilt distinkt, vilket innebär att även om avvikelserna på en scatter-plot (eller regressionsanalysgraf) är viktiga, så är orsakerna till varför de är avvikare. Denna anledning kan vara allt från ett fel i analysen till att data är felaktigt skalade.
en datapunkt som är markerad som en outlier kan representera många saker, till exempel din mest sålda produkt. Regressionslinjen lockar dig att ignorera dessa avvikare och bara se trenderna i data.
hypotesprovning
i statistisk analys är hypotesprovning, även känd som ”t-Testning”, en nyckel för att testa de två uppsättningarna av slumpmässiga variabler inom datamängden.
denna metod handlar om att testa om ett visst argument eller slutsats är sant för datamängden. Det gör det möjligt att jämföra data mot olika hypoteser och antaganden. Det kan också hjälpa till att förutse hur beslut som fattas kan påverka verksamheten.
i statistik bestämmer ett hypotesprov en viss mängd under ett givet antagande. Resultatet av testet tolkar om antagandet håller eller om antagandet har brutits. Detta antagande kallas nollhypotesen eller hypotesen 0. Varje annan hypotes som skulle bryta mot hypotes 0 kallas den första hypotesen, eller hypotes 1.
när du utför hypotesprovning är resultaten av testet viktiga för statistiken om resultaten är bevis på att det inte kunde ha hänt av en slumpmässig händelse eller chans.
som ett exempel kan du anta att ju längre tid det tar att utveckla en produkt, desto mer framgångsrik blir det, vilket resulterar i högre försäljning än någonsin tidigare. Innan du implementerar längre arbetstid för att utveckla en produkt, säkerställer hypotesprovning att det finns en faktisk koppling mellan de två.
Hypotesprovningsformel
resultaten av ett statistiskt hypotesprov måste tolkas för att göra ett specifikt påstående, vilket kallas p-värdet.
låt oss säga vad du vill bestämma har 50% chans att vara korrekt.
formeln för detta hypotesprov är:
H0: P = 0,5
H1: P ≠ 0.5
nackdelen
hypotesprovning kan ibland grumlas och Skevas av vanliga fel, som placebo-effekten. Detta inträffar när statistiska analytiker som utför testet felaktigt förväntar sig ett visst resultat och sedan ser resultatet, oavsett omständigheterna.
det finns också sannolikheten för att Skevas av Hawthorne-effekten, annars känd som observatörseffekten. Detta händer när deltagarna analyseras skeva resultaten eftersom de vet att de studeras.
relaterat: upptäck mer om exakt hypotesprovning med en djupdykning i inferentiell analys.
provstorleksbestämning
när det gäller att analysera data för statistisk analys är datauppsättningen ibland helt enkelt för stor, vilket gör det svårt att samla in exakta data för varje element i datauppsättningen. När detta är fallet går de flesta vägen för att analysera en provstorlek, eller mindre storlek, av data, som kallas bestämning av provstorlek.
för att göra detta korrekt måste du bestämma rätt storlek på provet för att vara korrekt. Om provstorleken är för liten har du inte giltiga resultat i slutet av analysen.
för att komma till denna slutsats använder du en av de många dataprovtagningsmetoderna. Du kan göra detta genom att skicka ut en undersökning till dina kunder och sedan använda den enkla slumpmässiga provtagningsmetoden för att välja kunddata som ska analyseras slumpmässigt.
å andra sidan kan en provstorlek som är för stor resultera i bortkastad tid och pengar. För att bestämma provstorleken kan du undersöka aspekter som kostnad, tid eller bekvämligheten med att samla in data.
hitta en provstorlek
till skillnad från de andra fyra statistiska analysmetoderna finns det inte en hård och snabb formel att använda för att hitta provstorleken.
det finns dock några allmänna tips att tänka på när du bestämmer en provstorlek:
- när du överväger en mindre provstorlek, gör en folkräkning
- använd en provstorlek från en studie som liknar din egen. För detta kan du överväga att ta en titt på akademiska databaser för att söka efter en liknande studie
- om du genomför en generisk studie kan det finnas en tabell som redan finns som du kan använda till din fördel
- använd en provstorlekskalkylator
- bara för att det inte finns en specifik formel betyder inte att du inte kommer att kunna hitta en formel som fungerar. Det finns många du kan använda, och det beror på vad du vet eller inte vet om det avsedda provet. Några som du kan överväga att använda är Slovins formel och Cochrans formel
nackdelen
när du analyserar en ny och otestad variabel av data inom denna metod måste du lita på vissa antaganden. Om du gör det kan det leda till ett helt felaktigt antagande. Om detta fel inträffar under denna statistiska analysmetod kan det påverka resten av din dataanalys negativt.
dessa fel kallas samplingsfel och mäts med ett konfidensintervall. Om du till exempel anger att dina resultat är på 90% konfidensnivå betyder det att om du skulle utföra samma analys om och om igen kommer 90% av tiden att dina resultat blir desamma.
en metod för galenskap
oavsett vilken metod för statistisk analys du väljer, se till att ta särskild hänsyn till varje potentiell nackdel, liksom deras unika formel.
naturligtvis finns det ingen guldstandard eller rätt eller fel metod att använda. Det kommer att bero på vilken typ av data du har samlat in, liksom de insikter du vill ha som slutresultat.
intresserad av att hitta rätt verktyg för att ta din titt på data ytterligare? Kolla in vår sammanfattning av den bästa programvaran för statistisk analys för även de mest komplexa analyserna.