az átlagos üzleti tevékenység radikálisan megváltozott az elmúlt évtizedben.
legyen szó az íróasztaloknál használt berendezésről vagy a kommunikációhoz használt szoftverről, nagyon kevés dolog néz ki ugyanúgy, mint régen.
valami más, ami teljesen más, hogy mennyi adat van a kezünkben. Ami egykor szűkös volt, most látszólag elsöprő mennyiségű adat. De ez csak akkor elsöprő, ha nem tudja, hogyan elemezze vállalkozása adatait, hogy valódi és éleslátó jelentést találjon.
Szóval, hogyan megy az A pontból, amely hatalmas mennyiségű adatot tartalmaz, a B pontba, hogy pontosan tudja értelmezni ezeket az adatokat? Minden a statisztikai elemzés megfelelő módszereinek használatán múlik, így dolgozzuk fel és gyűjtjük az adatmintákat a minták és trendek feltárása érdekében.
ehhez az elemzéshez öt közül lehet választani: átlag, szórás, regresszió, hipotézisvizsgálat és minta méretének meghatározása.
a statisztikai elemzés elvégzésének 5 módszere
nem tagadható, hogy a világ a big data megszállottja, függetlenül attól, hogy adattudós vagy-e vagy sem. Emiatt tudnia kell, hol kezdje. Ez az öt módszer alapvető, mégis hatékony, a pontos adatközpontú következtetések levonásában.
átlag
a statisztikai elemzés elvégzéséhez használt első módszer az átlag, amelyet általában átlagnak neveznek. Amikor az átlagot szeretné kiszámítani, összead egy számlistát, majd elosztja ezt a számot a listán szereplő elemekkel.
amikor ezt a módszert alkalmazzák, lehetővé teszi az adathalmaz általános tendenciájának meghatározását, valamint az adatok gyors és tömör áttekintésének lehetőségét. Ennek a módszernek a felhasználói is részesülnek az egyszerű és gyors számításból.
a statisztikai átlag a feldolgozott adatok központi pontjával jön létre. Az eredményt a megadott adatok átlagának nevezzük. A való életben az emberek általában a kutatást, az akadémikusokat és a sportot használják. Gondolj arra, hogy hányszor tárgyalják a játékos ütési átlagát a baseballban; ez az átlaguk.
hogyan lehet megtalálni az átlagot
az adatok átlagának megkereséséhez először össze kell adnia a számokat, majd el kell osztania az összeget azzal, hogy hány szám található az adatkészletben vagy a listában.
például, hogy megtaláljuk a 6, 18 és 24 átlagát, először összeadjuk őket.
6 + 18 + 24 = 48
ezután ossza meg a listában szereplő számokkal (3).
48 / 3 = 16
az átlag 16.
a hátránya
az átlag használata nagyszerű, nem ajánlott önálló statisztikai elemzési módszerként. Ez azért van, mert ez potenciálisan tönkreteheti a számítás mögött rejlő teljes erőfeszítéseket, mivel egyes adatkészletekben az üzemmódhoz (a leggyakrabban előforduló értékhez) és a mediánhoz (a középső értékhez) is kapcsolódik.
ha nagyszámú adatponttal van dolga, vagy nagy számú kiugró értékkel (olyan adatponttal, amely jelentősen eltér a többitől), vagy pontatlan adatelosztással, az átlag nem adja meg a legpontosabb eredményeket a statisztikai elemzésben egy adott döntéshez.
szórás
a szórás statisztikai elemzési módszer, amely az adatok átlag körüli eloszlását méri.
ha magas szórással foglalkozik, ez olyan adatokra mutat, amelyek széles körben elterjedtek az átlagtól. Hasonlóképpen, az alacsony eltérés azt mutatja, hogy a legtöbb adat összhangban van az átlaggal, és egy halmaz várható értékének is nevezhető.
a szórást főleg akkor használják, amikor meg kell határozni az adatpontok szórását (függetlenül attól, hogy csoportosulnak-e).
tegyük fel, hogy Ön egy marketingszakértő, aki nemrégiben végzett ügyfélfelmérést. Miután megkapta a felmérés eredményeit, érdekli a válaszok megbízhatóságának mérése annak érdekében, hogy megjósolja, hogy az ügyfelek nagyobb csoportja ugyanazokat a válaszokat kaphatja-e. Ha alacsony szórás fordul elő, az azt mutatja, hogy a válaszokat az ügyfelek nagyobb csoportjára lehet kivetíteni.
További információ: a klaszterezés olyan adatbányászati technika, amely nagy mennyiségű adatot csoportosít a hasonlóságok alapján.
hogyan lehet megtalálni a szórást
a szórás kiszámításához használt képlet a következő:
6 = 2/n
ebben a képletben:
- a standard deviáció szimbóluma: 6264>
- az adatok összegét jelöli
- x az adatkészlet értékét jelöli
- a
- az adatok átlagát jelöli a 2. számú varianciát jelöli
- n az adatpontok számát jelenti a populációban
a szórás megtalálásához:
- keresse meg az adathalmaz
- számainak átlagát az adathalmaz minden egyes számához, vonja le az átlagot, és négyzetezze az eredményt (ami az (x − 6)képletnek ez a része) 2).
- keresse meg ezeknek a négyzetbeli különbségeknek az átlagát
- Vegyük a végső válasz négyzetgyökét
Ha ugyanazt a három számot használjuk az átlagos példánkban, 6, 18 és 24, akkor a szórás, vagyis a 6,4833147735479 lenne.
a hátránya
az átlag használatának hátrányához hasonlóan a szórás félrevezető lehet, ha a statisztikai elemzés egyetlen módszereként használják.
például, ha az adatok, amelyekkel dolgozik, túl sok kiugró értékkel rendelkeznek, vagy furcsa mintázattal rendelkeznek, mint például egy nem normál görbe, akkor a szórás nem biztosítja a szükséges információkat a tájékozott döntés meghozatalához.
regresszió
ami a statisztikát illeti, a regresszió egy függő változó (a mérni kívánt adatok) és egy független változó (a függő változó előrejelzésére használt adatok) közötti kapcsolat.
ez azzal is magyarázható, hogy az egyik változó hogyan befolyásolja a másikat, vagy egy változó változásai, amelyek alapvetően ok-okozati változásokat váltanak ki egy másikban. Ez azt jelenti, hogy az eredmény egy vagy több változótól függ.
a regresszióanalízis grafikonokban és diagramokban használt vonal azt jelzi, hogy a változók közötti kapcsolatok erősek vagy gyengék-e, amellett, hogy egy adott idő alatt mutatják a trendeket.
ezeket a tanulmányokat statisztikai elemzésben használják előrejelzések és előrejelzési trendek készítésére. Például a regresszió segítségével megjósolhatja, hogy egy adott termék vagy szolgáltatás hogyan értékesíthető az ügyfelek számára. Vagy itt, a G2-nél, regressziót használunk annak előrejelzésére, hogy hogyan fog kinézni az Organikus forgalom 6 hónap múlva.
regressziós képlet
a regressziós képlet, amely arra szolgál, hogy megnézze, hogyan nézhetnek ki az adatok a jövőben:
Y = a + b (x)
ebben a képletben:
- A utal, hogy az y-lehallgatott, az értéke y amikor x = 0
- X a függő változó
- Y a független változó
- B utal, hogy a lejtőn, vagy emelkedik át futni
a hátránya
az egyik hátránya, hogy a a regresszió a statisztikai elemzés részeként az, hogy a regresszió nem nagyon megkülönböztető, ami azt jelenti, hogy bár a szórási diagram (vagy regresszióanalízis grafikon) kiugró értékei fontosak, ezért is vannak azok az okok, amelyek miatt kiugró értékek. Ez az OK bármi lehet, az elemzés hibájától kezdve az adatok nem megfelelő méretezéséig.
egy kiugró értékként megjelölt adatpont sok dolgot képviselhet, például a legtöbbet eladott terméket. A regressziós vonal arra készteti Önt, hogy figyelmen kívül hagyja ezeket a kiugró értékeket, és csak az adatok trendjeit látja.
hipotézis tesztelés
a statisztikai elemzésben a hipotézis tesztelés, más néven “T tesztelés”, kulcsfontosságú az adathalmazon belüli két véletlen változók teszteléséhez.
ez a módszer arról szól, hogy teszteljük, hogy egy bizonyos érv vagy következtetés igaz-e az adatkészletre. Lehetővé teszi az adatok összehasonlítását különböző hipotézisekkel és feltételezésekkel. Segíthet annak előrejelzésében is, hogy a meghozott döntések hogyan befolyásolhatják az üzletet.
a statisztikában a hipotézis teszt bizonyos mennyiséget határoz meg egy adott feltételezés alapján. A teszt eredménye értelmezi, hogy a feltételezés fennáll-e, vagy megsértették-e a feltételezést. Ezt a feltételezést nullhipotézisnek vagy hipotézisnek nevezzük 0. Bármely más hipotézist, amely megsértené a 0. hipotézist, első hipotézisnek vagy 1. hipotézisnek nevezzük.
amikor hipotézisvizsgálatot végez, a teszt eredményei jelentősek a statisztikák szempontjából, ha az eredmények bizonyítják, hogy nem történhetett véletlenszerű esemény vagy véletlen.
például feltételezheti, hogy minél tovább tart egy termék kifejlesztése, annál sikeresebb lesz, ami minden eddiginél nagyobb eladásokat eredményez. Mielőtt hosszabb munkaidőt alkalmazna egy termék kifejlesztésére, a hipotézis tesztelése biztosítja a tényleges kapcsolatot a kettő között.
hipotézis tesztelési képlet
a statisztikai hipotézis teszt eredményeit úgy kell értelmezni, hogy konkrét állítást lehessen tenni, amelyet p-értéknek nevezünk.
tegyük fel, hogy amit meg akarsz határozni, 50% esélye van a helyesnek.
ennek a hipotézis tesztnek a képlete:
H0: P = 0, 5
H1: P ≠ 0.5
a hátránya
hipotézis tesztelés néha elhomályosítja és torzítja a gyakori hibák, mint a placebo-hatás. Ez akkor fordul elő, amikor a tesztet végző statisztikai elemzők hamisan várnak egy bizonyos eredményt, majd a körülményektől függetlenül látják ezt az eredményt.
a Hawthorne-effektus, más néven megfigyelő-effektus torzításának valószínűsége is fennáll. Ez akkor történik, amikor az elemzett résztvevők torzítják az eredményeket, mert tudják, hogy tanulmányozzák őket.
összefüggő: Tudjon meg többet a pontos hipotézisvizsgálatról, mély merüléssel a következtetési elemzésbe.
mintaméret meghatározása
a statisztikai elemzéshez szükséges adatok elemzésekor néha az adatkészlet egyszerűen túl nagy, ami megnehezíti a pontos adatok gyűjtését az adatkészlet minden elemére vonatkozóan. Ebben az esetben a legtöbb a minta méretének vagy kisebb méretének elemzésének útját követi, amelyet mintaméret-meghatározásnak nevezünk.
ennek helyes elvégzéséhez meg kell határoznia a minta megfelelő méretét, hogy pontos legyen. Ha a minta mérete túl kicsi, akkor az elemzés végén nem lesz érvényes eredmény.
ahhoz, hogy erre a következtetésre jusson, a sok adatmintavételi módszer egyikét fogja használni. Ezt úgy teheti meg, hogy felmérést küld az ügyfeleknek, majd az egyszerű véletlenszerű mintavételi módszerrel kiválaszthatja a véletlenszerűen elemezendő Ügyféladatokat.
másrészt a túl nagy mintaméret idő-és pénzpocsékolást eredményezhet. A minta méretének meghatározásához megvizsgálhat olyan szempontokat, mint a költség, az idő vagy az adatgyűjtés kényelme.
mintaméret keresése
a másik négy statisztikai elemzési módszerrel ellentétben nincs egy kemény és gyors képlet a minta méretének megtalálásához.
van azonban néhány általános tipp, amelyet szem előtt kell tartani a minta méretének meghatározásakor:
- kisebb mintaméret mérlegelésekor végezzen népszámlálást
- használjon a sajátjához hasonló vizsgálat mintaméretét. Ehhez érdemes megfontolni egy pillantást az akadémiai adatbázisokra, hogy hasonló tanulmányt keressen
- ha általános vizsgálatot végez, akkor lehet, hogy már létezik egy táblázat, amelyet előnyére használhat
- használjon minta méretű számológépet
- csak azért, mert nincs egy konkrét képlet, még nem jelenti azt, hogy nem talál olyan képletet, amely működik. Sok van, amit használhatsz, és ez attól függ, hogy mit tudsz vagy nem tudsz a tervezett mintáról. Néhány, hogy érdemes használni a Slovin formula és Cochran formula
a hátránya
ahogy elemezni egy új és nem tesztelt változó adatok ezen a módszeren belül, akkor kell támaszkodni bizonyos feltételezések. Ez teljesen pontatlan feltételezést eredményezhet. Ha ez a hiba a statisztikai elemzési módszer során jelentkezik, az negatívan befolyásolhatja az adatelemzés többi részét.
ezeket a hibákat mintavételi hibáknak nevezzük, és konfidencia intervallummal mérjük. Például, ha azt állítja, hogy az eredmények 90% – os megbízhatósági szinten vannak, ez azt jelenti, hogy ha ugyanazt az elemzést újra és újra elvégzi, az eredmények 90% – a ugyanaz lesz.
módszer az őrülethez
nem számít, melyik statisztikai elemzési módszert választja, ügyeljen arra, hogy külön vegye figyelembe az egyes lehetséges hátrányokat, valamint azok egyedi képletét.
természetesen nincs arany standard vagy helyes vagy rossz módszer. Ez attól függ, hogy milyen típusú adatokat gyűjtött, valamint a betekintést keres, hogy a végeredmény.
szeretné megtalálni a megfelelő eszközt, hogy még tovább vizsgálja az adatokat? Nézze meg a legjobb statisztikai elemző szoftver összefoglalóját a legösszetettebb elemzésekhez is.