L’attività media è radicalmente cambiata nell’ultimo decennio.

Che si tratti dell’attrezzatura utilizzata alle scrivanie o del software utilizzato per comunicare, pochissime cose sembrano uguali a quelle di una volta.

Qualcos’altro che è completamente diverso è la quantità di dati che abbiamo a portata di mano. Quello che una volta era scarso è ora una quantità apparentemente schiacciante di dati. Ma è travolgente solo se non sai come analizzare i dati della tua azienda per trovare un significato vero e perspicace.

Quindi, come si passa dal punto A, con una grande quantità di dati, al punto B, essendo in grado di interpretare con precisione quei dati? Tutto si riduce a utilizzare i giusti metodi per l’analisi statistica, che è il modo in cui elaboriamo e raccogliamo campioni di dati per scoprire modelli e tendenze.

Per questa analisi, ci sono cinque tra cui scegliere: media, deviazione standard, regressione, test di ipotesi e determinazione della dimensione del campione.

I 5 metodi per eseguire analisi statistiche

Non si può negare che il mondo stia diventando ossessionato dai big data, non importa se sei un data scientist o meno. Per questo motivo, è necessario sapere da dove cominciare. Questi cinque metodi sono fondamentali, ma efficaci, per giungere a conclusioni accurate basate sui dati.

Media

Il primo metodo utilizzato per eseguire l’analisi statistica è media, che viene più comunemente definita media. Quando stai cercando di calcolare la media, aggiungi un elenco di numeri e poi dividi quel numero per gli elementi dell’elenco.

Quando viene utilizzato questo metodo consente di determinare l’andamento generale di un set di dati, nonché la possibilità di ottenere una visione rapida e concisa dei dati. Gli utenti di questo metodo beneficiano anche del calcolo semplicistico e rapido.

La media statistica sta arrivando con il punto centrale dei dati che vengono elaborati. Il risultato è indicato come la media dei dati forniti. Nella vita reale, le persone in genere usano mean to per quanto riguarda la ricerca, accademici, e lo sport. Pensa a quante volte la media di battuta di un giocatore è discussa nel baseball; questa è la loro media.

Come trovare la media

Per trovare la media dei tuoi dati, devi prima aggiungere i numeri insieme e quindi dividere la somma per quanti numeri sono all’interno del set di dati o dell’elenco.

Ad esempio, per trovare la media di 6, 18 e 24, devi prima aggiungerli insieme.
6 + 18 + 24 = 48
Quindi, dividi per quanti numeri nella lista (3).

48 / 3 = 16
La media è 16.

Il rovescio della medaglia

Quando si utilizza mean è ottimo, non è raccomandato come metodo di analisi statistica autonomo. Questo perché così facendo può potenzialmente rovinare gli sforzi completi dietro il calcolo, visto che è anche legato alla modalità (il valore che si verifica più spesso) e mediana (il centro) in alcuni set di dati.

Quando si ha a che fare con un numero elevato di punti dati con un numero elevato di valori anomali (un punto dati che differisce significativamente dagli altri) o una distribuzione imprecisa di dati, la media non fornisce i risultati più accurati nell’analisi statistica per una decisione specifica.

Deviazione standard

La deviazione standard è un metodo di analisi statistica che misura la diffusione dei dati intorno alla media.

Quando si ha a che fare con una deviazione standard elevata, questo indica dati ampiamente diffusi dalla media. Allo stesso modo, una deviazione bassa mostra che la maggior parte dei dati è in linea con la media e può anche essere chiamata il valore atteso di un set.

La deviazione standard viene utilizzata principalmente quando è necessario determinare la dispersione dei punti dati (indipendentemente dal fatto che siano raggruppati o meno).

Diciamo che sei un marketer che ha recentemente condotto un sondaggio con i clienti. Una volta ottenuti i risultati del sondaggio, sei interessato a misurare l’affidabilità delle risposte al fine di prevedere se un gruppo più ampio di clienti potrebbe avere le stesse risposte. Se si verifica una deviazione standard bassa, mostrerebbe che le risposte possono essere proiettate a un gruppo più ampio di clienti.

Per saperne di più: Il clustering è una tecnica di data mining che raggruppa grandi quantità di dati in base alle loro somiglianze.

Come trovare la deviazione standard

La formula per calcolare la deviazione standard è:

σ2 = Σ (x-μ)2/n

In questa formula:

  • Il simbolo per la deviazione standard σ
  • Σ si distingue per la somma dei dati
  • x sta per il valore di set di dati
  • µ si distingue per la media dei dati
  • σ2 si distingue per la varianza
  • n sta per il numero di punti dati nella popolazione

Per trovare la deviazione standard:

  1. Trovare la media dei numeri all’interno del set di dati
  2. Per ogni numero all’interno del set di dati, sottrarre la media e la piazza del risultato (che è questa parte della formula (x − µ)2).
  3. Trova la media di quelle differenze quadrate
  4. Prendi la radice quadrata della risposta finale

Se hai usato gli stessi tre numeri nel nostro esempio medio, 6, 18 e 24, la deviazione standard, o σ, sarebbe 7.4833147735479.

Il rovescio della medaglia

Su una nota simile al rovescio della medaglia dell’uso della media, la deviazione standard può essere fuorviante se utilizzata come unico metodo nell’analisi statistica.

Ad esempio, se i dati con cui stai lavorando hanno troppi valori anomali o uno strano pattern come una curva non normale, la deviazione standard non fornirà le informazioni necessarie per prendere una decisione informata.

Regressione

Quando si tratta di statistiche, la regressione è la relazione tra una variabile dipendente (i dati che stai cercando di misurare) e una variabile indipendente (i dati utilizzati per prevedere la variabile dipendente).

Può anche essere spiegato da come una variabile influenza un’altra, o da cambiamenti in una variabile che innescano cambiamenti in un’altra, essenzialmente causa ed effetto. Implica che il risultato dipende da una o più variabili.

La linea utilizzata nei grafici e nei grafici di analisi di regressione indica se le relazioni tra le variabili sono forti o deboli, oltre a mostrare le tendenze in un determinato periodo di tempo.

Questi studi sono utilizzati nell’analisi statistica per fare previsioni e prevedere le tendenze. Ad esempio, è possibile utilizzare regressione per prevedere come un prodotto o un servizio specifico può vendere ai clienti. Oppure, qui a G2, usiamo la regressione per prevedere come il nostro traffico organico apparirà tra 6 mesi.

Formula di regressione

La formula di regressione utilizzata per vedere come i dati potrebbero apparire in futuro è:

Y = a + b (x)

In questa formula:

  • Un riferimento per l’intercetta di y, il valore di y quando x = 0
  • X è la variabile dipendente
  • Y è la variabile indipendente
  • B si riferisce alla pendenza, o aumento di oltre il run

Il rovescio della medaglia

Uno svantaggio dell’utilizzo di regressione come parte dell’analisi statistica è che la regressione non è molto distintivo, il che significa che anche se i valori anomali su un grafico a dispersione (o analisi di regressione grafico) sono importanti, così sono i motivi per cui sono valori anomali. Questo motivo potrebbe essere qualsiasi cosa, da un errore nell’analisi ai dati che vengono ridimensionati in modo inappropriato.

Un punto dati contrassegnato come outlier può rappresentare molte cose, ad esempio il prodotto più venduto. La linea di regressione ti invita a ignorare questi valori anomali e vedere solo le tendenze nei dati.

Test di ipotesi

Nell’analisi statistica, il test di ipotesi, noto anche come” Test T”, è una chiave per testare i due set di variabili casuali all’interno del set di dati.

Questo metodo consiste nel verificare se un determinato argomento o conclusione è vera per il set di dati. Consente di confrontare i dati con varie ipotesi e ipotesi. Può anche aiutare a prevedere come le decisioni prese potrebbero influenzare il business.

In statistica, un test di ipotesi determina una certa quantità sotto una data ipotesi. Il risultato del test interpreta se l’assunzione è valida o se l’assunzione è stata violata. Questa ipotesi è indicata come ipotesi nulla o ipotesi 0. Qualsiasi altra ipotesi che sarebbe in violazione dell’ipotesi 0 è chiamata prima ipotesi o ipotesi 1.

Quando si eseguono test di ipotesi, i risultati del test sono significativi per le statistiche se i risultati sono la prova che non potrebbe essere accaduto per un evento casuale o casuale.

Ad esempio, si può supporre che più tempo ci vuole per sviluppare un prodotto, più successo sarà, con conseguente vendite più elevate che mai. Prima di implementare ore di lavoro più lunghe per sviluppare un prodotto, il test di ipotesi garantisce una connessione effettiva tra i due.

Formula di test di ipotesi

I risultati di un test di ipotesi statistica devono essere interpretati per fare un reclamo specifico, che viene indicato come il p-value.

Diciamo che ciò che stai cercando di determinare ha una probabilità del 50% di essere corretto.

La formula per questo test di ipotesi è:

H0: P = 0,5

H1: P ≠ 0.5

Il rovescio della medaglia

Test di ipotesi a volte può essere offuscato e distorto da errori comuni, come l’effetto placebo. Ciò si verifica quando gli analisti statistici che conducono il test si aspettano falsamente un certo risultato e poi vedono quel risultato, indipendentemente dalle circostanze.

C’è anche la probabilità di essere distorta dall’effetto Hawthorne, altrimenti noto come effetto osservatore. Questo accade quando i partecipanti che vengono analizzati inclinano i risultati perché sanno che sono stati studiati.

Related: Scopri di più sui test di ipotesi accurati con un tuffo profondo nell’analisi inferenziale.

Determinazione della dimensione del campione

Quando si tratta di analizzare i dati per l’analisi statistica, a volte il set di dati è semplicemente troppo grande, rendendo difficile raccogliere dati accurati per ciascun elemento del set di dati. Quando questo è il caso, la maggior parte andare il percorso di analizzare una dimensione del campione, o dimensioni più piccole, dei dati, che si chiama determinazione della dimensione del campione.

Per farlo correttamente, è necessario determinare la giusta dimensione del campione per essere precisi. Se la dimensione del campione è troppo piccola, non si avranno risultati validi alla fine dell’analisi.

Per giungere a questa conclusione, si utilizzerà uno dei tanti metodi di campionamento dei dati. Puoi farlo inviando un sondaggio ai tuoi clienti e quindi utilizzare il semplice metodo di campionamento casuale per scegliere i dati del cliente da analizzare a caso.

D’altra parte, una dimensione del campione troppo grande può causare perdite di tempo e denaro. Per determinare la dimensione del campione, è possibile esaminare aspetti come il costo, il tempo o la comodità di raccogliere dati.

Trovare una dimensione del campione

A differenza degli altri quattro metodi di analisi statistica, non esiste una formula difficile e veloce da utilizzare per trovare la dimensione del campione.

Tuttavia, ci sono alcuni suggerimenti generali da tenere a mente quando si determina una dimensione del campione:

  1. Quando si considera una dimensione del campione più piccola, condurre un censimento
  2. Utilizzare una dimensione del campione da uno studio simile al proprio. Per questo, potresti prendere in considerazione di dare un’occhiata ai database accademici per cercare uno studio simile
  3. Se stai conducendo uno studio generico, potrebbe esserci una tabella già esistente che puoi usare a tuo vantaggio
  4. Usa un calcolatore di dimensioni campione
  5. Solo perché non esiste una formula specifica non significa che non sarai in grado di trovare una formula che funzioni. Ce ne sono molti che potresti usare e dipende da ciò che sai o non sai del campione proposto. Alcuni che potresti considerare di usare sono la formula di Slovin e la formula di Cochran

Il rovescio della medaglia

Mentre analizzi una variabile di dati nuova e non testata all’interno di questo metodo, dovrai fare affidamento su determinate ipotesi. Ciò potrebbe comportare un’ipotesi completamente imprecisa. Se questo errore si verifica durante questo metodo di analisi statistica, può influire negativamente sul resto dell’analisi dei dati.

Questi errori sono chiamati errori di campionamento e sono misurati da un intervallo di confidenza. Ad esempio, se affermi che i tuoi risultati sono a un livello di confidenza del 90%, significa che se dovessi eseguire la stessa analisi ancora e ancora, il 90% delle volte i tuoi risultati saranno gli stessi.

Un metodo per la follia

Non importa quale metodo di analisi statistica si sceglie, assicuratevi di prendere nota speciale di ogni potenziale svantaggio, così come la loro formula unica.

Naturalmente, non esiste un gold standard o un metodo giusto o sbagliato da utilizzare. Dipenderà dal tipo di dati che hai raccolto e dalle informazioni che stai cercando di avere come risultato finale.

Sei interessato a trovare lo strumento giusto per approfondire ulteriormente il tuo sguardo sui dati? Scopri la nostra carrellata dei migliori software di analisi statistica anche per le analisi più complesse.

Vuoi saperne di più sul software di analisi statistica? Esplora prodotti di analisi statistica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.