activitatea medie s-a schimbat radical în ultimul deceniu.
fie că este vorba de echipamentul folosit la birouri sau de software-ul folosit pentru a comunica, foarte puține lucruri arată la fel ca odinioară.
altceva care este complet diferit este cât de multe date avem la îndemână. Ceea ce a fost cândva rar este acum o cantitate aparent copleșitoare de date. Dar, este copleșitor doar dacă nu știți cum să analizați datele afacerii dvs. pentru a găsi un sens adevărat și perspicace.
deci, cum te duci de la punctul A, având o cantitate mare de date, la punctul B, fiind capabil să interpreteze cu exactitate aceste date? Totul se reduce la utilizarea metodelor potrivite pentru analiza statistică, care este modul în care procesăm și colectăm mostre de date pentru a descoperi modele și tendințe.
pentru această analiză, există cinci dintre care puteți alege: media, abaterea standard, regresia, testarea ipotezelor și determinarea dimensiunii eșantionului.
cele 5 metode de efectuare a analizei statistice
nu se poate nega faptul că lumea devine obsedată de big data, indiferent dacă sunteți un om de știință de date sau nu. Din acest motiv, trebuie să știți de unde să începeți. Aceste cinci metode sunt de bază, dar eficiente, pentru a ajunge la concluzii precise bazate pe date.
Mean
prima metodă utilizată pentru a efectua analiza statistică este mean, care este mai frecvent menționată ca media. Când doriți să calculați media, adăugați o listă de numere și apoi împărțiți numărul respectiv la elementele din listă.
când se utilizează această metodă, aceasta permite determinarea tendinței generale a unui set de date, precum și capacitatea de a obține o vizualizare rapidă și concisă a datelor. Utilizatorii acestei metode beneficiază, de asemenea, de calculul simplist și rapid.
media statistică vine cu punctul central al datelor care sunt procesate. Rezultatul este denumit media datelor furnizate. În viața reală, oamenii folosesc de obicei înseamnă în ceea ce privește cercetarea, academicieni, și sport. Gândiți-vă de câte ori se discută media de bătăi a unui jucător în baseball; asta este media lor.
cum să găsiți media
pentru a găsi media datelor dvs., mai întâi adăugați numerele împreună și apoi împărțiți suma la câte numere sunt în setul de date sau listă.
ca exemplu, pentru a găsi Media 6, 18 și 24, le-ați adăuga mai întâi împreună.
6 + 18 + 24 = 48
apoi, împărțiți câte numere din listă (3).
48 / 3 = 16
media este de 16.
dezavantajul
atunci când se utilizează medie este mare, nu este recomandat ca o metodă independentă de analiză statistică. Acest lucru se datorează faptului că acest lucru poate ruina eforturile complete din spatele calculului, văzând că este legat și de modul (valoarea care apare cel mai des) și mediana (mijlocul) în unele seturi de date.
când aveți de-a face cu un număr mare de puncte de date, fie cu un număr mare de valori aberante (un punct de date care diferă semnificativ de altele), fie cu o distribuție inexactă a datelor, media nu oferă cele mai precise rezultate în analizele statistice pentru o anumită decizie.
deviația Standard
deviația Standard este o metodă de analiză statistică care măsoară răspândirea datelor în jurul mediei.
când aveți de-a face cu o abatere standard ridicată, aceasta indică date care sunt răspândite pe scară largă de la medie. În mod similar, o abatere scăzută arată că majoritatea datelor sunt în concordanță cu media și pot fi numite și valoarea așteptată a unui set.
deviația Standard este utilizată în principal atunci când trebuie să determinați dispersia punctelor de date (indiferent dacă sunt sau nu grupate).
să presupunem că sunteți un marketer care a efectuat recent un sondaj pentru clienți. Odată ce obțineți rezultatele sondajului, sunteți interesat să măsurați fiabilitatea răspunsurilor pentru a prezice dacă un grup mai mare de clienți ar putea avea aceleași răspunsuri. Dacă apare o abatere standard scăzută, ar arăta că răspunsurile pot fi proiectate unui grup mai mare de clienți.
Aflați mai multe: Clustering este o tehnică de extragere a datelor care grupează cantități mari de date împreună pe baza asemănărilor lor.
Cum de a găsi abaterea standard
formula pentru a calcula abaterea standard este:
σ2 = Σ(x − μ)2/n
În această formulă:
- Simbolul pentru deviația standard este (X)
- (X) înseamnă suma datelor
- (X) înseamnă valoarea setului de date
- (X) înseamnă media datelor
- (X) înseamnă valoarea datelor
- (X) înseamnă media datelor
- (X) înseamnă varianța
- (X) înseamnă numărul de puncte de date în populația
pentru a găsi abaterea standard:
- găsiți media numerelor din setul de date
- pentru fiecare număr din setul de date, scădeți media și pătrat rezultatul (care este această parte a formulei (x − x)2).
- găsiți media acestor diferențe pătrate
- luați rădăcina pătrată a răspunsului final
dacă ați folosit aceleași trei numere în exemplul nostru mediu, 6, 18 și 24, abaterea standard sau Irak, ar fi 7.4833147735479.
dezavantajul
într-o notă similară cu dezavantajul utilizării medii, abaterea standard poate fi înșelătoare atunci când este utilizată ca singură metodă în analiza dvs. statistică.
de exemplu, dacă datele cu care lucrați au prea multe valori aberante sau un model ciudat precum o curbă non-normală, atunci abaterea standard nu va furniza informațiile necesare pentru a lua o decizie în cunoștință de cauză.
regresie
când vine vorba de statistici, regresia este relația dintre o variabilă dependentă (datele pe care doriți să le măsurați) și o variabilă independentă (datele utilizate pentru a prezice variabila dependentă).
poate fi explicat și prin modul în care o variabilă afectează alta sau prin modificările unei variabile care declanșează modificări în alta, în esență cauză și efect. Aceasta implică faptul că rezultatul depinde de una sau mai multe variabile.
linia utilizată în graficele și diagramele analizei de regresie semnifică dacă relațiile dintre variabile sunt puternice sau slabe, pe lângă faptul că arată tendințe într-o anumită perioadă de timp.
aceste studii sunt utilizate în analiza statistică pentru a face predicții și tendințe de prognoză. De exemplu, puteți utiliza regresia pentru a prezice modul în care un anumit produs sau serviciu se poate vinde clienților dvs. Sau, aici la G2, folosim regresia pentru a prezice cum va arăta traficul nostru organic peste 6 luni.
formula de regresie
formula de regresie utilizată pentru a vedea cum ar putea arăta datele în viitor este:
Y = a + b (x)
în această formulă:
- a se referă la Y-intercepta, valoarea y când x = 0
- X este variabila dependentă
- Y este variabila independentă
- B se referă la panta, sau creșterea peste rula
dezavantajul
un dezavantaj al utilizării regresia ca parte a analizei dvs. statistice este că regresia nu este foarte distinctivă, ceea ce înseamnă că, deși valorile aberante ale unui grafic de dispersie (sau graficul analizei de regresie) sunt importante, la fel sunt și motivele pentru care sunt valori aberante. Acest motiv ar putea fi orice, de la o eroare de analiză până la scalarea necorespunzătoare a datelor.
un punct de date care este marcat ca outlier poate reprezenta multe lucruri, cum ar fi cel mai bine vândut produs. Linia de regresie vă atrage să ignorați aceste valori aberante și să vedeți doar tendințele datelor.
Testarea ipotezelor
în analiza statistică, testarea ipotezelor, cunoscută și sub numele de „testare T”, este o cheie pentru testarea celor două seturi de variabile aleatorii din setul de date.
această metodă se referă la testarea dacă un anumit argument sau concluzie este adevărat pentru setul de date. Permite compararea datelor cu diferite ipoteze și ipoteze. De asemenea, poate ajuta la prognozarea modului în care deciziile luate ar putea afecta afacerea.
în statistici, un test de ipoteză determină o anumită cantitate sub o ipoteză dată. Rezultatul testului interpretează dacă ipoteza este valabilă sau dacă ipoteza a fost încălcată. Această ipoteză este denumită ipoteza nulă sau ipoteza 0. Orice altă ipoteză care ar încălca ipoteza 0 se numește prima ipoteză sau ipoteza 1.
când efectuați testarea ipotezelor, rezultatele testului sunt semnificative pentru statistici dacă rezultatele sunt dovada că nu s-ar fi putut întâmpla printr-o întâmplare sau întâmplare.
de exemplu, puteți presupune că, cu cât este nevoie de mai mult timp pentru a dezvolta un produs, cu atât va avea mai mult succes, rezultând vânzări mai mari decât oricând. Înainte de a implementa ore de lucru mai lungi pentru a dezvolta un produs, testarea ipotezelor asigură o legătură reală între cele două.
formula de testare a ipotezelor
rezultatele unui test de ipoteză statistică trebuie interpretate pentru a face o afirmație specifică, care este denumită valoarea P.
să spunem că ceea ce căutați să determinați are șanse de 50% să fie corect.
formula pentru acest test de ipoteză este:
H0: P = 0,5
H1: P ≠ 0.5
dezavantajul
Testarea ipotezelor poate fi uneori întunecată și înclinată de erori comune, cum ar fi efectul placebo. Acest lucru se întâmplă atunci când analiștii statistici care efectuează testul așteaptă în mod fals un anumit rezultat și apoi văd acel rezultat, indiferent de circumstanțe.
există, de asemenea, probabilitatea de a fi distorsionat de efectul Hawthorne, altfel cunoscut sub numele de efectul observer. Acest lucru se întâmplă atunci când participanții analizați distorsionează rezultatele, deoarece știu că sunt studiați.
Related: descoperiți mai multe despre testarea exactă a ipotezelor cu o scufundare profundă în analiza inferențială.
determinarea dimensiunii eșantionului
când vine vorba de analiza datelor pentru analiza statistică, uneori setul de date este pur și simplu prea mare, ceea ce face dificilă colectarea datelor exacte pentru fiecare element al setului de date. Când acesta este cazul, majoritatea merg pe calea analizei unei dimensiuni a eșantionului sau a unei dimensiuni mai mici a datelor, care se numește determinarea dimensiunii eșantionului.
pentru a face acest lucru corect, va trebui să determinați dimensiunea potrivită a eșantionului pentru a fi exactă. Dacă dimensiunea eșantionului este prea mică, nu veți avea rezultate valide la sfârșitul analizei.
pentru a ajunge la această concluzie, veți utiliza una dintre numeroasele metode de eșantionare a datelor. Puteți face acest lucru trimițând un sondaj clienților dvs. și apoi utilizați metoda simplă de eșantionare aleatorie pentru a alege datele clienților care urmează să fie analizate la întâmplare.
pe de altă parte, o dimensiune a eșantionului prea mare poate duce la pierderea timpului și a banilor. Pentru a determina dimensiunea eșantionului, puteți examina aspecte precum Costul, timpul sau comoditatea colectării datelor.
găsirea unei dimensiuni a eșantionului
spre deosebire de celelalte patru metode de analiză statistică, nu există o formulă greu și rapidă de utilizat pentru a găsi dimensiunea eșantionului.
cu toate acestea, există câteva sfaturi generale de care trebuie să țineți cont atunci când determinați dimensiunea eșantionului:
- când luați în considerare o dimensiune mai mică a eșantionului, efectuați un recensământ
- utilizați o dimensiune a eșantionului dintr-un studiu similar cu al dvs. Pentru aceasta, poate doriți să luați în considerare să aruncați o privire asupra bazelor de date academice pentru a căuta un studiu similar
- dacă efectuați un studiu generic, poate exista un tabel care există deja pe care îl puteți utiliza în avantajul dvs.
- utilizați un calculator de dimensiune a eșantionului
- doar pentru că nu există o formulă specifică nu înseamnă că nu veți putea găsi o formulă care să funcționeze. Există multe pe care le-ați putea folosi și depinde de ceea ce știți sau nu știți despre eșantionul propus. Unele pe care le puteți lua în considerare sunt formula lui Slovin și formula lui Cochran
dezavantajul
pe măsură ce analizați o variabilă nouă și netestată de date în cadrul acestei metode, va trebui să vă bazați pe anumite ipoteze. Acest lucru ar putea duce la o presupunere complet inexactă. Dacă această eroare apare în timpul acestei metode de analiză statistică, aceasta poate afecta negativ restul analizei datelor.
aceste erori se numesc erori de eșantionare și sunt măsurate printr-un interval de încredere. De exemplu, dacă afirmați că rezultatele dvs. sunt la un nivel de încredere de 90%, înseamnă că dacă ar trebui să efectuați aceeași analiză din nou și din nou, 90% din timp rezultatele dvs. vor fi aceleași.
o metodă de nebunie
indiferent de metoda de analiză statistică pe care o alegeți, asigurați-vă că pentru a lua notă specială de fiecare dezavantaj potențial, precum și formula lor unică.
desigur, nu există un standard de aur sau o metodă corectă sau greșită de utilizat. Va depinde de tipul de date pe care le-ați colectat, precum și de informațiile pe care doriți să le aveți ca rezultat final.
interesat în găsirea dreptul de instrument pentru a lua look-ul în date chiar mai departe? Consultați rezumatul nostru cu cel mai bun software de analiză statistică chiar și pentru cele mai complexe analize.