průměrné podnikání se za poslední desetiletí radikálně změnilo.

ať už je to zařízení používané u stolů nebo software používaný ke komunikaci, velmi málo věcí vypadá stejně jako kdysi.

něco jiného, co je úplně jiné, je, kolik dat máme na dosah ruky. To, co bylo kdysi vzácné, je nyní zdánlivě ohromující množství dat. Ale je to jen ohromující, pokud nevíte, jak analyzovat data vaší firmy, abyste našli pravdivý a bystrý význam.

jak se tedy dostanete z bodu A, který má obrovské množství dat, do bodu B, který je schopen přesně interpretovat tato data? Všechno jde o použití správných metod pro statistickou analýzu, což je způsob, jakým zpracováváme a shromažďujeme vzorky dat, abychom odhalili vzorce a trendy.

pro tuto analýzu je na výběr pět: průměr, směrodatná odchylka, regrese, testování hypotéz a stanovení velikosti vzorku.

5 metod pro provádění statistické analýzy

nelze popřít, že svět je posedlý velkými daty, bez ohledu na to, zda jste datový vědec nebo ne. Z tohoto důvodu musíte vědět, kde začít. Těchto pět metod je základních, přesto efektivní, při dosahování přesných závěrů založených na datech.

průměr

první metoda, která se používá k provedení statistické analýzy, je průměr, který se běžně označuje jako průměr. Když chcete vypočítat průměr, sečtete seznam čísel a poté toto číslo vydělíte položkami v seznamu.

při použití této metody umožňuje určit celkový trend datové sady, stejně jako schopnost získat rychlý a stručný pohled na data. Uživatelé této metody také těží ze zjednodušujícího a rychlého výpočtu.

statistický průměr přichází s centrálním bodem zpracovávaných dat. Výsledek se označuje jako průměr poskytnutých údajů. V reálném životě, lidé obvykle používají průměr, pokud jde o výzkum, akademici, a sport. Přemýšlejte o tom, kolikrát je v baseballu diskutován průměr odpalování hráče; to je jejich průměr.

jak najít průměr

Chcete-li najít průměr vašich dat, měli byste nejprve přidat čísla dohromady a pak vydělit součet tím, kolik čísel je v datovém souboru nebo seznamu.

jako příklad, abyste našli průměr 6, 18 a 24, nejprve je sečtete dohromady.
6 + 18 + 24 = 48
poté vydělte počtem čísel v seznamu (3).
48 / 3 = 16
průměr je 16.

nevýhoda

při použití průměru je skvělé, nedoporučuje se jako samostatná metoda statistické analýzy. Je to proto, že to může potenciálně zničit úplné úsilí za výpočtem, protože to také souvisí s režimem (hodnota, která se vyskytuje nejčastěji) a mediánem (Střední) v některých datových sadách.

pokud máte co do činění s velkým počtem datových bodů buď s vysokým počtem odlehlých hodnot (datový bod, který se výrazně liší od ostatních), nebo s nepřesným rozdělením dat, průměr neposkytuje nejpřesnější výsledky statistické analýzy pro konkrétní rozhodnutí.

směrodatná odchylka

směrodatná odchylka je metoda statistické analýzy, která měří šíření dat kolem průměru.

pokud máte co do činění s vysokou směrodatnou odchylkou, ukazuje to na data, která jsou široce rozložena od průměru. Podobně nízká odchylka ukazuje, že většina dat je v souladu s průměrem a lze ji také nazvat očekávanou hodnotou sady.

směrodatná odchylka se používá hlavně tehdy, když potřebujete určit rozptyl datových bodů (bez ohledu na to, zda jsou seskupeny).

Řekněme, že jste obchodník, který nedávno provedl průzkum zákazníků. Jakmile získáte výsledky průzkumu, máte zájem o měření spolehlivosti odpovědí, abyste předpověděli, zda větší skupina zákazníků může mít stejné odpovědi. Pokud dojde k nízké směrodatné odchylce, ukázalo by se, že odpovědi lze promítnout na větší skupinu zákazníků.

další informace: Clustering je technika dolování dat, která seskupuje velké množství dat dohromady na základě jejich podobností.

jak najít směrodatnou odchylku

vzorec pro výpočet směrodatné odchylky je:

σ2 = Σ (x − μ)2/n

v tomto vzorci:

  • symbol pro směrodatnou odchylku je σ
  • Σ znamená součet dat
  • x znamená hodnotu datové sady
  • μ znamená průměr dat
  • σ2 znamená rozptyl
  • n znamená počet datových bodů v populaci

k nalezení směrodatné odchylky:

  1. Najděte průměr čísel v datové sadě
  2. pro každé číslo v datové sadě odečtěte průměr a čtverec výsledku(což je tato část vzorce (x-μ) 2).
  3. Najděte průměr těchto čtvercových rozdílů
  4. vezměte druhou odmocninu konečné odpovědi

pokud jste použili stejná tři čísla v našem průměrném příkladu 6, 18 a 24, směrodatná odchylka nebo σ by byla 7.4833147735479.

nevýhoda

podobně jako nevýhoda použití průměru může být směrodatná odchylka zavádějící, pokud je použita jako jediná metoda ve vaší statistické analýze.

například, pokud data, se kterými pracujete, mají příliš mnoho odlehlých hodnot nebo zvláštní vzorec, jako je neobvyklá křivka, pak směrodatná odchylka neposkytne potřebné informace k informovanému rozhodnutí.

regrese

pokud jde o statistiku, regrese je vztah mezi závislou proměnnou (data, která chcete měřit) a nezávislou proměnnou(data použitá k předpovědi závislé proměnné).

lze to také vysvětlit tím, jak jedna proměnná ovlivňuje druhou, nebo změnami v proměnné, které spouštějí změny v jiné, v podstatě příčinou a následkem. Znamená to, že výsledek závisí na jedné nebo více proměnných.

řádek použitý v grafech a grafech regresní analýzy označuje, zda jsou vztahy mezi proměnnými silné nebo slabé, kromě toho, že ukazují trendy v určitém čase.

tyto studie se používají ve statistické analýze k předpovídání a prognózování trendů. Regresi můžete například použít k předpovědi toho, jak může konkrétní produkt nebo služba prodávat vašim zákazníkům. Nebo zde v G2 používáme regresi k předpovědi, jak bude náš organický provoz vypadat za 6 měsíců.

regresní vzorec

regresní vzorec, který se používá k zobrazení toho, jak by data mohla vypadat v budoucnu, je:

Y = a + b (x)

v tomto vzorci:

  • a odkazuje na y-intercept, hodnota y, když x = 0
  • X je závislá proměnná
  • Y je nezávislá proměnná
  • B odkazuje na sklon nebo vzestup během běhu

nevýhodou

jednou z nevýhod použití regrese jako součást vaší statistické analýzy je, že regrese není příliš výrazná, což znamená, že ačkoli odlehlé hodnoty na rozptylovém grafu (nebo graf regresní analýzy) jsou důležité, stejně jako důvody, proč jsou odlehlé hodnoty. Tento důvod může být cokoli od chyby v analýze až po nevhodná měřítka dat.

datový bod, který je označen jako odlehlá hodnota, může představovat mnoho věcí, například váš nejprodávanější produkt. Regresní čára vás láká ignorovat tyto odlehlé hodnoty a vidět pouze trendy v datech.

testování hypotéz

ve statistické analýze je testování hypotéz, známé také jako „T testování“, klíčem k testování dvou sad náhodných proměnných v datové sadě.

tato metoda je především o testování, zda určitý argument nebo závěr platí pro datovou sadu. Umožňuje porovnat data s různými hypotézami a předpoklady. Může také pomoci při předpovídání toho, jak by rozhodnutí mohla ovlivnit podnikání.

ve statistice test hypotézy určuje určité množství za daného předpokladu. Výsledek testu interpretuje, zda předpoklad platí nebo zda byl předpoklad porušen. Tento předpoklad se označuje jako nulová hypotéza nebo hypotéza 0. Jakákoli jiná hypotéza, která by byla v rozporu s hypotézou 0, se nazývá první hypotéza nebo hypotéza 1.

když provádíte testování hypotéz, výsledky testu jsou významné pro statistiku, pokud jsou výsledky důkazem, že se to nemohlo stát náhodným výskytem nebo náhodou.

jako příklad můžete předpokládat, že čím déle trvá vývoj produktu, tím úspěšnější bude, což má za následek vyšší prodej než kdykoli předtím. Před implementací delší pracovní doby k vývoji produktu, testování hypotéz zajišťuje, že mezi nimi existuje skutečné spojení.

vzorec pro testování hypotéz

výsledky testu statistické hypotézy je třeba interpretovat, aby bylo možné učinit konkrétní tvrzení, které se označuje jako hodnota p.

řekněme, že to, co chcete určit, má 50% šanci na správnost.

vzorec pro tento test hypotézy je:

H0: P = 0, 5

H1: P ≠ 0.5

nevýhodou

testování hypotéz může být někdy zakaleno a zkresleno běžnými chybami, jako je placebo efekt. K tomu dochází, když statističtí analytici provádějící test falešně očekávají určitý výsledek a poté tento výsledek uvidí bez ohledu na okolnosti.

existuje také pravděpodobnost, že bude zkreslena Hawthorneovým efektem, jinak známým jako pozorovatelský efekt. To se stane, když účastníci jsou analyzovány zkreslit výsledky, protože vědí, že jsou studovány.

související: Objevte více o přesném testování hypotéz s hlubokým ponorem do inferenční analýzy.

stanovení velikosti vzorku

pokud jde o analýzu dat pro statistickou analýzu, někdy je datová sada prostě příliš velká, což ztěžuje shromažďování přesných dat pro každý prvek datové sady. Pokud tomu tak je, většina jde cestou analýzy velikosti vzorku nebo menší velikosti dat, která se nazývá stanovení velikosti vzorku.

Chcete-li to provést správně, musíte určit správnou velikost vzorku, aby byla přesná. Pokud je velikost vzorku příliš malá, nebudete mít na konci analýzy platné výsledky.

Chcete-li dospět k tomuto závěru, použijete jednu z mnoha metod vzorkování dat. Můžete to udělat zasláním průzkumu svým zákazníkům a poté pomocí jednoduché metody náhodného vzorkování vybrat data zákazníků, která mají být náhodně analyzována.

na druhé straně příliš velká velikost vzorku může vést ke ztrátě času a peněz. Chcete-li určit velikost vzorku, můžete prozkoumat aspekty, jako jsou náklady, čas nebo pohodlí sběru dat.

nalezení velikosti vzorku

na rozdíl od ostatních čtyř metod statistické analýzy neexistuje jeden pevný a rychlý vzorec pro nalezení velikosti vzorku.

při určování velikosti vzorku je však třeba mít na paměti několik obecných tipů:

  1. při zvažování menší velikosti vzorku proveďte sčítání
  2. použijte velikost vzorku ze studie podobné vaší vlastní. Za tímto účelem můžete zvážit pohled na akademické databáze a vyhledat podobnou studii
  3. pokud provádíte obecnou studii, může existovat tabulka, která již existuje a kterou můžete použít ve svůj prospěch
  4. použijte kalkulačku velikosti vzorku
  5. jen proto, že neexistuje jeden konkrétní vzorec, neznamená, že nebudete moci najít vzorec, který funguje. Existuje mnoho, které byste mohli použít, a záleží na tom, co víte nebo nevíte o zamýšleném vzorku. Některé, které můžete zvážit, jsou Slovinův vzorec a cochranův vzorec

nevýhodou

při analýze nové a netestované proměnné dat v rámci této metody se budete muset spolehnout na určité předpoklady. To by mohlo mít za následek zcela nepřesný předpoklad. Pokud k této chybě dojde během této metody statistické analýzy, může to negativně ovlivnit zbytek vaší analýzy dat.

tyto chyby se nazývají chyby vzorkování a měří se intervalem spolehlivosti. Pokud například uvedete, že vaše výsledky jsou na úrovni spolehlivosti 90%, znamená to, že pokud budete provádět stejnou analýzu znovu a znovu, 90% času budou vaše výsledky stejné.

metoda šílenství

bez ohledu na to, jakou metodu statistické analýzy si vyberete, nezapomeňte vzít zvláštní pozornost na každou potenciální nevýhodu, stejně jako na jejich jedinečný vzorec.

samozřejmě neexistuje žádný zlatý standard nebo správná nebo špatná metoda. Bude to záviset na typu údajů, které jste shromáždili, a na poznatcích, které chcete mít jako konečný výsledek.

máte zájem o nalezení správného nástroje, který vám umožní nahlédnout do dat ještě dále? Podívejte se na naše shrnutí nejlepšího softwaru pro statistickou analýzu i pro ty nejsložitější analýzy.

chcete se dozvědět více o softwaru pro statistickou analýzu? Prozkoumejte produkty statistické analýzy.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.