o negócio médio mudou radicalmente na última década.
seja o equipamento usado em mesas ou o software usado para se comunicar, muito poucas coisas parecem as mesmas que antes.
outra coisa que é completamente diferente é a quantidade de dados que temos ao nosso alcance. O que antes era escasso agora é uma quantidade aparentemente esmagadora de dados. Mas, só é esmagador se você não sabe como analisar os dados da sua empresa para encontrar um significado verdadeiro e perspicaz.
então, como você vai do ponto A, tendo uma grande quantidade de dados, ao ponto B, sendo capaz de interpretar com precisão esses dados? Tudo se resume a usar os métodos certos para análise estatística, que é como processamos e coletamos amostras de dados para descobrir padrões e tendências.
para esta análise, existem cinco para escolher: média, desvio padrão, regressão, teste de hipóteses e determinação do tamanho da amostra.
os 5 métodos para realizar análise estatística
não há como negar que o mundo está se tornando obcecado com big data, não importa se você é um cientista de dados ou não. Por causa disso, você precisa saber por onde começar. Esses cinco métodos são básicos, mas eficazes, ao chegar a conclusões precisas baseadas em dados.
média
o primeiro método usado para realizar a análise estatística é a média, que é mais comumente referida como média. Quando você está olhando para calcular a média, você somar uma lista de Números e, em seguida, dividir esse número pelos itens na lista.
quando este método é usado, permite determinar a tendência geral de um conjunto de dados, bem como a capacidade de obter uma visão rápida e concisa dos dados. Os usuários deste método também se beneficiam do cálculo simplista e rápido.
a média estatística está chegando com o ponto central dos dados que estão sendo processados. O resultado é referido como a média dos dados fornecidos. Na vida real, as pessoas normalmente usam a média em relação à pesquisa, acadêmicos e esportes. Pense em quantas vezes a média de rebatidas de um jogador é discutida no beisebol; essa é a média deles.
Como encontrar a média
Para encontrar a média de seus dados, você deve primeiro adicionar os números, e, em seguida, divida a soma por quantos números estão dentro do conjunto de dados ou de lista.
como exemplo, para encontrar a média de 6, 18 e 24, Você primeiro os adicionaria.
6 + 18 + 24 = 48
em seguida, divida por quantos números na lista (3).
48 / 3 = 16
a média é 16.
a desvantagem
ao usar a média é ótima, não é recomendado como um método de análise estatística independente. Isso ocorre porque isso pode potencialmente arruinar os esforços completos por trás do cálculo, visto que também está relacionado ao modo (o valor que ocorre com mais frequência) e mediana (o meio) em alguns conjuntos de dados.
quando você está lidando com um grande número de pontos de dados com um alto número de outliers (um ponto de dados que difere significativamente dos outros) ou uma distribuição imprecisa de dados, a média não fornece os resultados mais precisos em análises estatísticas para uma decisão específica.
desvio padrão
o desvio padrão é um método de análise estatística que mede a disseminação de dados em torno da média.
quando você está lidando com um alto desvio padrão, isso aponta para dados que se espalham amplamente a partir da média. Da mesma forma, um baixo desvio mostra que a maioria dos dados está alinhada com a média e também pode ser chamada de valor esperado de um conjunto.
o desvio padrão é usado principalmente quando você precisa determinar a dispersão de pontos de dados (se eles estão ou não agrupados).
digamos que você seja um profissional de marketing que realizou recentemente uma pesquisa com clientes. Depois de obter os resultados da pesquisa, você está interessado em medir a confiabilidade das respostas para prever se um grupo maior de clientes pode ter as mesmas respostas. Se ocorrer um baixo desvio padrão, isso mostraria que as respostas podem ser projetadas para um grupo maior de clientes.
Saiba mais: Clustering é uma técnica de mineração de dados que agrupa grandes quantidades de dados juntos com base em suas semelhanças.
Como encontrar o desvio padrão
A fórmula para calcular o desvio padrão é:
σ2 = Σ(x − µ)2/n
nesta fórmula:
- O símbolo do desvio padrão é σ
- Σ representa a soma dos dados
- x representa o valor do conjunto de dados
- µ representa a média dos dados
- σ2 representa a variância
- n representa o número de pontos de dados na população
Para encontrar o desvio padrão:
- Encontrar a média dos números dentro do conjunto de dados
- Para cada número dentro do conjunto de dados, subtrai-se a média e o quadrado do resultado (que é esta parte da fórmula (x − μ)2).
- Encontre a média dessas diferenças quadradas
- pegue a raiz quadrada da resposta final
se você usou os mesmos três números em nosso exemplo médio, 6, 18 e 24, O desvio padrão, Ou σ, seria 7,4833147735479.
a desvantagem
em uma nota semelhante à desvantagem de usar a média, o desvio padrão pode ser enganoso quando usado como o único método em sua análise estatística.
como exemplo, se os dados com os quais você está trabalhando tiverem muitos outliers ou um padrão estranho como uma curva não normal, o desvio padrão não fornecerá as informações necessárias para tomar uma decisão informada.
Regressão
Quando se trata de estatísticas de regressão é a relação entre uma variável dependente (os dados que você está olhando para medir) e uma variável independente (os dados utilizados para prever a variável dependente).
também pode ser explicado por como uma variável afeta outra, ou mudanças em uma variável que desencadeia mudanças em outra, essencialmente causa e efeito. Isso implica que o resultado depende de uma ou mais variáveis.
a linha usada em gráficos e gráficos de análise de regressão significa se as relações entre as variáveis são fortes ou fracas, além de mostrar tendências em um determinado período de tempo.
esses estudos são usados na análise estatística para fazer previsões e prever tendências. Por exemplo, você pode usar a regressão para prever como um produto ou serviço específico pode vender para seus clientes. Ou, aqui no G2, usamos regressão para prever como nosso tráfego orgânico ficará daqui a 6 meses.
fórmula de Regressão
A fórmula de regressão, que é usado para ver como os dados poderiam olhar no futuro, é:
Y = a + b(x)
nesta fórmula:
- refere-se ao intercepto de y, o valor de y quando x = 0
- X é a variável dependente
- Y é a variável independente
- B refere-se à inclinação, ou subir mais de executar o
A desvantagem
Uma desvantagem do uso de regressão como parte de sua análise estatística é de que a regressão não é muito distinta, o que significa que embora os outliers em um gráfico de dispersão (ou análise de regressão gráfico) são importantes, mas são as razões por que eles estão isolados. Esse motivo pode ser qualquer coisa, desde um erro na análise até dados sendo escalados inadequadamente.
um ponto de dados que é marcado como um outlier pode representar muitas coisas, como o seu produto mais vendido. A linha de regressão atrai você a ignorar esses outliers e apenas ver as tendências nos dados.
teste de Hipóteses
Na análise estatística, o teste de hipóteses, também conhecido como “Teste T”, é uma chave para teste os dois conjuntos de variáveis aleatórias dentro do conjunto de dados.
este método tem tudo a ver com testar se um determinado argumento ou conclusão é verdadeiro para o conjunto de dados. Permite comparar os dados com várias hipóteses e suposições. Também pode ajudar na previsão de como as decisões tomadas podem afetar o negócio.
nas estatísticas, um teste de hipótese determina alguma quantidade sob uma determinada suposição. O resultado do teste interpreta se a suposição é válida ou se a suposição foi violada. Essa suposição é conhecida como hipótese nula, ou hipótese 0. Qualquer outra hipótese que viole a hipótese 0 é chamada de primeira hipótese, ou hipótese 1.
quando você realiza testes de hipóteses, os resultados do teste são significativos para as Estatísticas se os resultados forem prova de que não poderia ter acontecido por uma ocorrência aleatória ou acaso.
como exemplo, você pode supor que quanto mais tempo for necessário para desenvolver um produto, mais bem-sucedido será, resultando em vendas mais altas do que nunca. Antes de implementar horas de trabalho mais longas para desenvolver um produto, o teste de hipóteses garante que haja uma conexão real entre os dois.
fórmula de teste de hipótese
os resultados de um teste de hipótese estatística precisam ser interpretados para fazer uma afirmação específica, que é chamada de valor p.
digamos que o que você está procurando determinar tem 50% de chance de estar correto.
A fórmula para este teste de hipótese é:
H0: P = 0.5
H1: P ≠ 0.5
A desvantagem
teste de Hipóteses, às vezes, pode ser nublada e distorcida por erros comuns, como o efeito placebo. Isso ocorre quando os analistas estatísticos que conduzem o teste esperam falsamente um determinado resultado e depois veem esse resultado, independentemente das circunstâncias.
há também a probabilidade de ser distorcida pelo efeito Hawthorne, também conhecido como efeito observador. Isso acontece quando os participantes que estão sendo analisados distorcem os resultados porque sabem que estão sendo estudados.
relacionado: descubra mais sobre testes de hipóteses precisos com um mergulho profundo na análise inferencial.
determinação do tamanho amostral
Quando se trata de análise de dados para a análise estatística, por vezes, o conjunto de dados é simplesmente muito grande, tornando difícil para coletar dados precisos para cada elemento do conjunto de dados. Quando esse é o caso, a maioria segue a rota de analisar um tamanho de amostra, ou tamanho menor, de dados, que é chamado de determinação do tamanho da amostra.
para fazer isso corretamente, você precisará determinar o tamanho certo da amostra para ser preciso. Se o tamanho da amostra for muito pequeno, você não terá resultados válidos no final da análise.
para chegar a esta conclusão, você usará um dos muitos métodos de amostragem de dados. Você pode fazer isso enviando uma pesquisa para seus clientes e, em seguida, use o método de amostragem aleatória simples para escolher os dados do cliente a serem analisados aleatoriamente.
por outro lado, um tamanho de amostra muito grande pode resultar em desperdício de tempo e dinheiro. Para determinar o tamanho da amostra, você pode examinar aspectos como custo, tempo ou a conveniência de coletar dados.
encontrar um tamanho de amostra
ao contrário dos outros quatro métodos de análise estatística, não há uma fórmula difícil e rápida para usar para encontrar o tamanho da amostra.
no entanto, existem algumas dicas gerais a serem lembradas ao determinar o tamanho de uma amostra:
- ao considerar um tamanho de amostra menor, realize um censo
- Use um tamanho de amostra de um estudo semelhante ao seu. Para isso, você pode querer considerar dar uma olhada em bases de dados científicas de pesquisa para um estudo similar
- Se você está conduzindo um estudo genérico, pode ser uma tabela já existente que você pode usar para sua vantagem
- Usar um tamanho de amostra calculadora
- Só porque não há uma fórmula específica não significa que você não será capaz de encontrar uma fórmula que funciona. Há muitos que você poderia usar, e depende do que você sabe ou não sabe sobre a amostra proposta. Alguns que você pode considerar usar são a fórmula de Slovin e a fórmula de Cochran
a desvantagem
ao analisar uma variável nova e não testada de dados dentro deste método, você precisará confiar em certas suposições. Fazer isso pode resultar em uma suposição completamente imprecisa. Se esse erro ocorrer durante esse método de análise estatística, ele poderá afetar negativamente o restante da análise de dados.
esses erros são chamados de erros de amostragem e são medidos por um intervalo de confiança. Por exemplo, se você afirmar que seus resultados estão em um nível de confiança de 90%, isso significa que se você realizasse a mesma análise repetidamente, 90% do tempo seus resultados serão os mesmos.
um método para a loucura
não importa qual método de análise estatística você escolher, certifique-se de tomar nota especial de cada desvantagem potencial, bem como a sua fórmula única.
claro, não há padrão-ouro ou método certo ou errado para usar. Isso dependerá do tipo de dados que você coletou, bem como dos insights que você deseja ter como resultado final.
interessado em encontrar a ferramenta certa para dar uma olhada nos dados ainda mais? Confira nosso resumo do melhor software de análise estatística, mesmo para as análises mais complexas.