de gemiddelde bedrijfsactiviteit is de afgelopen tien jaar radicaal veranderd.
of het nu gaat om de apparatuur die aan bureaus wordt gebruikt of de software die wordt gebruikt om te communiceren, zeer weinig dingen zien er hetzelfde uit als ze ooit waren.
iets anders dat totaal anders is, is hoeveel gegevens we binnen handbereik hebben. Wat ooit schaars was, is nu een schijnbaar overweldigende hoeveelheid gegevens. Maar, het is alleen overweldigend als je niet weet hoe je gegevens van uw bedrijf te analyseren om ware en inzichtelijke betekenis te vinden.
dus, hoe ga je van punt A, met een grote hoeveelheid gegevens, naar punt B, in staat om die gegevens nauwkeurig te interpreteren? Het komt allemaal neer op het gebruik van de juiste methoden voor statistische analyse, dat is hoe we verwerken en monsters van gegevens te verzamelen om patronen en trends te ontdekken.
voor deze analyse kan worden gekozen uit vijf: gemiddelde, standaardafwijking, regressie, hypothesetest en bepaling van de steekproefgrootte.
de 5 methoden voor het uitvoeren van statistische analyse
het valt niet te ontkennen dat de wereld geobsedeerd raakt door big data, of je nu data scientist bent of niet. Daarom moet je weten waar je moet beginnen. Deze vijf methoden zijn fundamenteel, maar effectief, om tot accurate data-driven conclusies te komen.
gemiddelde
de eerste methode die wordt gebruikt om de statistische analyse uit te voeren is Gemiddelde, dat beter bekend staat als het gemiddelde. Als je het gemiddelde wilt berekenen, tel je een lijst met getallen op en deel je dat getal door de items op de lijst.
wanneer deze methode wordt gebruikt, kan de algemene trend van een gegevensverzameling worden bepaald en kan een snelle en beknopte weergave van de gegevens worden verkregen. Gebruikers van deze methode profiteren ook van de simplistische en snelle berekening.
het statistische gemiddelde geeft het centrale punt weer van de gegevens die worden verwerkt. Het resultaat wordt het gemiddelde van de verstrekte gegevens genoemd. In het echte leven, mensen meestal gebruiken mean to met betrekking tot onderzoek, academici, en sport. Denk aan hoe vaak het slaggemiddelde van een speler wordt besproken in honkbal; dat is hun gemiddelde.
hoe het gemiddelde
te vinden om het gemiddelde van uw gegevens te vinden, zou u eerst de getallen bij elkaar optellen en vervolgens de som delen door het aantal getallen in de dataset of lijst.
als voorbeeld, om het gemiddelde van 6, 18 en 24 te vinden, zou je ze eerst bij elkaar optellen.
6 + 18 + 24 = 48
vervolgens delen door hoeveel getallen in de lijst (3).
48 / 3 = 16
het gemiddelde is 16.
het nadeel
wanneer gemiddelde groot is, wordt het niet aanbevolen als een zelfstandige statistische analysemethode. Dit is omdat dit mogelijk de volledige inspanningen achter de berekening kan ruïneren, aangezien het ook gerelateerd is aan de modus (de waarde die het vaakst voorkomt) en mediaan (het midden) in sommige datasets.
wanneer u te maken heeft met een groot aantal gegevenspunten met een groot aantal uitschieters (een gegevenspunt dat aanzienlijk verschilt van andere) of een onjuiste verdeling van gegevens, geeft het gemiddelde niet de meest nauwkeurige resultaten in statistische analyses voor een specifieke beslissing.
standaardafwijking
standaardafwijking is een methode voor statistische analyse die de spreiding van gegevens rond het gemiddelde meet.
wanneer u te maken heeft met een hoge standaarddeviatie, wijst dit op gegevens die wijd verspreid zijn vanaf het gemiddelde. Evenzo toont een lage afwijking aan dat de meeste gegevens in overeenstemming zijn met het gemiddelde en ook de verwachte waarde van een verzameling kunnen worden genoemd.
standaarddeviatie wordt voornamelijk gebruikt wanneer u de spreiding van datapunten moet bepalen (of ze al dan niet geclusterd zijn).
stel dat u een marketeer bent die onlangs een klantenonderzoek heeft uitgevoerd. Zodra u de resultaten van de enquête krijgt, bent u geïnteresseerd in het meten van de betrouwbaarheid van de antwoorden om te voorspellen of een grotere groep klanten dezelfde antwoorden zou kunnen hebben. Als er een lage standaardafwijking optreedt, zou daaruit blijken dat de antwoorden op een grotere groep klanten kunnen worden geprojecteerd.
meer informatie: Clustering is een dataminingtechniek die grote hoeveelheden gegevens groepeert op basis van hun overeenkomsten.
hoe de standaardafwijking te vinden
de formule om de standaardafwijking te berekenen is::
σ2 = Σ (x-μ)2 / n
in deze formule:
- Het symbool voor de standaardafwijking σ
- Σ staat voor de som van de gegevens
- x staat voor de waarde van de dataset
- μ staat voor het gemiddelde van de data
- σ2 staat voor de variantie
- n staat voor het aantal gegevenspunten in de bevolking
Om de standaard deviatie:
- het gemiddelde van de getallen in de data set
- Voor elk getal in de reeks gegevens, aftrekken van het gemiddelde en het resultaat vierkant (wat is dit deel van de formule (x − μ)2).
- zoek het gemiddelde van deze kwadraatverschillen
- neem de vierkantswortel van het uiteindelijke antwoord
als je dezelfde drie getallen gebruikt in ons gemiddelde voorbeeld, 6, 18 en 24, zou de standaardafwijking, of σ, 7.4833147735479 zijn.
het nadeel
net als het nadeel van het gebruik van gemiddelde, kan de standaardafwijking misleidend zijn wanneer deze wordt gebruikt als de enige methode in uw statistische analyse.
als voorbeeld: als de gegevens waarmee u werkt te veel uitschieters hebben of een vreemd patroon zoals een niet-normale curve, dan zal standaarddeviatie niet de nodige informatie bieden om een weloverwogen beslissing te nemen.
regressie
bij statistieken is regressie de relatie tussen een afhankelijke variabele (de gegevens die u wilt meten) en een onafhankelijke variabele (de gegevens die worden gebruikt om de afhankelijke variabele te voorspellen).
het kan ook worden verklaard door hoe een variabele een andere beïnvloedt, of veranderingen in een variabele die veranderingen in een andere teweegbrengen, hoofdzakelijk oorzaak en gevolg. Het betekent dat de uitkomst afhankelijk is van een of meer variabelen.
de regel die wordt gebruikt in grafieken en grafieken voor regressieanalyse geeft aan of de relaties tussen de variabelen sterk of zwak zijn, naast het tonen van trends over een bepaalde tijd.
deze studies worden gebruikt in de statistische analyse om voorspellingen te doen en trends te voorspellen. U kunt bijvoorbeeld regressie gebruiken om te voorspellen hoe een specifiek product of dienst aan uw klanten kan verkopen. Of, hier bij G2, gebruiken we regressie om te voorspellen hoe ons organisch verkeer er over 6 maanden uit zal zien.
Regressieformule
de regressieformule die wordt gebruikt om te zien hoe gegevens er in de toekomst uit zouden kunnen zien is:
Y = a + b (x)
In deze formule:
- A verwijst naar de y-as, de y-waarde bij x = 0
- X is de afhankelijke variabele
- Y is de onafhankelijke variabele
- B verwijst naar de helling, of stijgen ten opzichte van de afstand
Het nadeel
Een nadeel van het gebruik van regressie als onderdeel van de statistische analyse is dat regressie is niet erg onderscheidend, wat betekent dat, hoewel de uitschieters op een scatter plot (of regressie-analyse grafiek) zijn belangrijk, zo zijn de redenen waarom ze uitschieters. Deze reden kan van alles zijn, van een fout in de analyse tot gegevens die ten onrechte worden geschaald.
een gegevenspunt dat is gemarkeerd als een uitschieter kan veel dingen vertegenwoordigen, zoals uw best verkopende product. De regressielijn verleidt u om deze uitschieters te negeren en alleen de trends in gegevens te zien.
hypothese testen
in statistische analyse is het testen van hypothesen, ook bekend als “T-testen”, een sleutel tot het testen van de twee reeksen willekeurige variabelen binnen de gegevensverzameling.
deze methode draait om het testen of een bepaald argument of conclusie waar is voor de gegevensverzameling. Het maakt het mogelijk om de gegevens te vergelijken met verschillende hypothesen en aannames. Het kan ook helpen bij het voorspellen hoe beslissingen genomen kunnen invloed hebben op het bedrijf.
in de statistiek bepaalt een hypothesetest een bepaalde hoeveelheid onder een bepaalde aanname. Het resultaat van de test interpreteert of de aanname geldt of dat de aanname is geschonden. Deze aanname wordt aangeduid als de nulhypothese, of hypothese 0. Elke andere hypothese die in strijd zou zijn met hypothese 0 wordt de eerste hypothese genoemd, of hypothese 1.
wanneer u hypothesen test, de resultaten van de test zijn significant voor de statistieken als de resultaten zijn het bewijs dat het niet kon zijn gebeurd door een willekeurige gebeurtenis of toeval.
u kunt bijvoorbeeld aannemen dat hoe langer het duurt om een product te ontwikkelen, hoe succesvoller het zal zijn, wat resulteert in een hogere omzet dan ooit tevoren. Voordat u langere werkuren implementeert om een product te ontwikkelen, zorgt het testen van hypothesen ervoor dat er een daadwerkelijke verbinding is tussen de twee.
hypothese testformule
de resultaten van een statistische hypothese test moeten worden geïnterpreteerd om een specifieke claim, die wordt aangeduid als de p-waarde.
laten we zeggen dat wat je wilt bepalen een 50% kans heeft om correct te zijn.
de formule voor deze hypothese test is::
H0: P = 0,5
H1: P ≠ 0.5
de downside
hypothese testen kan soms vertroebeld en scheef door veel voorkomende fouten, zoals het placebo-effect. Dit gebeurt wanneer statistische analisten die de test uitvoeren ten onrechte een bepaald resultaat verwachten en dan dat resultaat zien, ongeacht de omstandigheden.
er is ook de kans dat het Hawthorne-effect, ook wel het observer-effect genoemd, vertekend is. Dit gebeurt wanneer deelnemers worden geanalyseerd scheef de resultaten omdat ze weten dat ze worden bestudeerd.
gerelateerd: ontdek meer over accurate hypothesetests met een diepe duik in inferentiële analyse.
bepaling van de steekproefgrootte
wanneer het gaat om het analyseren van gegevens voor statistische analyse, is de dataset soms gewoon te groot, waardoor het moeilijk is om nauwkeurige gegevens voor elk element van de dataset te verzamelen. Wanneer dit het geval is, gaan de meesten de route van het analyseren van een steekproefgrootte, of kleinere grootte, van gegevens, die steekproefgrootte bepaling wordt genoemd.
om dit correct te doen, moet u de juiste grootte van het monster bepalen om nauwkeurig te zijn. Als de steekproefgrootte te klein is, hebt u geen geldige resultaten aan het einde van uw analyse.
om tot deze conclusie te komen, gebruik je een van de vele data sampling methoden. U kunt dit doen door een enquête naar uw klanten te sturen en vervolgens de eenvoudige willekeurige steekproefmethode te gebruiken om de Klantgegevens te kiezen die willekeurig moeten worden geanalyseerd.
anderzijds kan een te grote steekproef leiden tot verspilling van tijd en geld. Om de steekproefgrootte te bepalen, kunt u aspecten zoals kosten, tijd, of het gemak van het verzamelen van gegevens te onderzoeken.
het vinden van een steekproefgrootte
in tegenstelling tot de andere vier statistische analysemethoden is er geen enkele harde en snelle formule om de steekproefgrootte te bepalen.
er zijn echter enkele algemene tips om in gedachten te houden bij het bepalen van een steekproefgrootte:
- wanneer u een kleinere steekproefomvang overweegt, voert u een telling uit
- gebruik dan een steekproefomvang uit een studie die vergelijkbaar is met die van u. Hiervoor kunt u overwegen om een kijkje te nemen in academische databases om te zoeken naar een soortgelijke studie
- Als u een generieke studie uitvoert, kan er een tabel zijn die al bestaat en die u in uw voordeel kunt gebruiken
- gebruik een rekenmachine voor monstergrootte
- alleen omdat er geen specifieke formule is, betekent dit niet dat u geen formule kunt vinden die werkt. Er zijn veel die je zou kunnen gebruiken, en het hangt af van wat je wel of niet weet over het beoogde Monster. Sommige die u kunt overwegen zijn Slovin ’s formule en Cochran’ s formule
het nadeel
Als u een nieuwe en niet-geteste variabele van gegevens binnen deze methode analyseert, moet u vertrouwen op bepaalde veronderstellingen. Dit kan resulteren in een volledig onnauwkeurige aanname. Als deze fout optreedt tijdens deze statistische analysemethode, kan dit een negatieve invloed hebben op de rest van uw gegevensanalyse.
deze fouten worden bemonsteringsfouten genoemd en worden gemeten aan de hand van een betrouwbaarheidsinterval. Bijvoorbeeld, als u zegt dat uw resultaten zijn op een 90% betrouwbaarheidsniveau, het betekent dat als je dezelfde analyse opnieuw en opnieuw uit te voeren, 90% van de tijd uw resultaten zal hetzelfde zijn.
a method to the madness
het maakt niet uit welke methode voor statistische analyse u kiest, zorg ervoor dat u speciale nota neemt van elk potentieel nadeel, evenals hun unieke formule.
natuurlijk is er geen gouden standaard of juiste of verkeerde methode om te gebruiken. Het zal afhangen van het type gegevens dat u hebt verzameld, evenals de inzichten die u als eindresultaat wilt hebben.
geïnteresseerd in het vinden van de juiste tool om uw gegevens nog verder te bekijken? Bekijk onze roundup van de beste statistische analysesoftware voor zelfs de meest complexe analyses.