średnia firma radykalnie zmieniła się w ciągu ostatniej dekady.

niezależnie od tego, czy jest to sprzęt używany przy biurkach, czy oprogramowanie używane do komunikacji, bardzo niewiele rzeczy wygląda tak samo, jak kiedyś.

czym innym jest to, ile Danych mamy na wyciągnięcie ręki. To, co kiedyś było rzadkie, jest teraz pozornie przytłaczającą ilością danych. Ale to tylko przytłaczające, jeśli nie wiesz, jak analizować dane swojej firmy, aby znaleźć prawdziwe i wnikliwe znaczenie.

jak więc przejść z punktu A, mając ogromną ilość danych, do punktu B, będąc w stanie dokładnie zinterpretować te dane? Wszystko sprowadza się do zastosowania odpowiednich metod analizy statystycznej, czyli sposobu, w jaki przetwarzamy i zbieramy próbki danych, aby odkryć wzorce i trendy.

dla tej analizy, istnieje pięć do wyboru: średnia, odchylenie standardowe, regresja, Testowanie hipotezy, i określenie wielkości próbki.

5 metod analizy statystycznej

nie można zaprzeczyć, że świat staje się obsesją na punkcie dużych zbiorów danych, bez względu na to, czy jesteś analitykiem danych, czy nie. Z tego powodu musisz wiedzieć, od czego zacząć. Te pięć metod jest podstawowych, ale skutecznych w dochodzeniu do trafnych wniosków opartych na danych.

Średnia

pierwszą metodą, która jest używana do przeprowadzenia analizy statystycznej jest średnia, która jest powszechnie określana jako średnia. Kiedy chcesz obliczyć średnią, dodajesz listę liczb, a następnie dzielisz ją przez pozycje na liście.

zastosowanie tej metody pozwala na określenie ogólnego trendu zbioru danych, a także na uzyskanie szybkiego i zwięzłego widoku danych. Użytkownicy tej metody korzystają również z uproszczonych i szybkich obliczeń.

średnia statystyczna pojawia się w centralnym punkcie przetwarzanych danych. Wynik jest określany jako średnia dostarczonych danych. W prawdziwym życiu ludzie zwykle używają mean to w odniesieniu do badań, naukowców i Sportu. Pomyśl o tym, ile razy Średnia uderzeń gracza jest omawiana w baseballu; to ich średnia.

jak znaleźć średnią

aby znaleźć średnią danych, najpierw dodasz liczby do siebie, a następnie podzielisz sumę przez liczbę liczb w zbiorze danych lub na liście.

jako przykład, aby znaleźć średnią z 6, 18 i 24, najpierw dodasz je do siebie.
6 + 18 + 24 = 48
następnie podziel przez liczbę liczb na liście (3).
48 / 3 = 16
średnia wynosi 16.

minusem

przy użyciu średniej jest wielki, nie jest zalecane jako samodzielna metoda analizy statystycznej. Dzieje się tak, ponieważ może to potencjalnie zrujnować całkowite wysiłki związane z obliczeniami, ponieważ jest to również związane z trybem (wartością, która występuje najczęściej) i medianą (środkiem) w niektórych zestawach danych.

gdy masz do czynienia z dużą liczbą punktów danych z dużą liczbą wartości odstających (punkt danych, który znacznie różni się od innych) lub niedokładnym rozkładem danych, Średnia nie daje najdokładniejszych wyników w analizie statystycznej dla konkretnej decyzji.

odchylenie standardowe

odchylenie standardowe jest metodą analizy statystycznej, która mierzy rozprzestrzenianie się Danych wokół średniej.

kiedy masz do czynienia z wysokim odchyleniem standardowym, wskazuje to na dane, które są szeroko rozłożone od średniej. Podobnie, niskie odchylenie pokazuje, że większość danych jest zgodna ze średnią i może być również nazywana wartością oczekiwaną zbioru.

odchylenie standardowe jest głównie używane, gdy trzeba określić rozproszenie punktów danych (niezależnie od tego, czy są one zgrupowane, czy nie).

powiedzmy, że jesteś marketerem, który niedawno przeprowadził ankietę dla klientów. Po uzyskaniu wyników ankiety jesteś zainteresowany pomiarem wiarygodności odpowiedzi w celu przewidzenia, czy większa grupa klientów może mieć takie same odpowiedzi. Jeśli wystąpi niskie odchylenie standardowe, pokazałoby to, że odpowiedzi mogą być wyświetlane większej grupie klientów.

więcej informacji: klastrowanie to technika eksploracji danych, która grupuje duże ilości danych w oparciu o ich podobieństwa.

jak znaleźć odchylenie standardowe

wzór do obliczenia odchylenia standardowego wynosi:

σ2 = Σ (x-μ) 2 / n

w tym wzorze:

  • symbolem odchylenia standardowego jest σ
  • Σ oznacza sumę danych
  • X oznacza wartość zbioru danych
  • μ oznacza średnią danych
  • σ2 oznacza wariancję
  • n oznacza liczbę punktów danych w populacji

aby znaleźć odchylenie standardowe:

  1. Znajdź średnią liczb w zbiorze danych
  2. dla każdej liczby w zbiorze danych, odejmij średnią i do kwadratu wynik (który jest tą częścią wzoru (x − μ) 2).
  3. Znajdź średnią tych różnic do kwadratu
  4. weź pierwiastek kwadratowy ostatecznej odpowiedzi

jeśli użyjesz tych samych trzech liczb w naszym średnim przykładzie, 6, 18 i 24, odchylenie standardowe lub σ wyniosłoby 7,4833147735479.

minusy

podobnie jak minusy stosowania średniej, odchylenie standardowe może być mylące, gdy jest używane jako jedyna metoda w analizie statystycznej.

na przykład, jeśli dane, z którymi pracujesz, mają zbyt wiele wartości odstających lub dziwny wzór, taki jak nietypowa krzywa, odchylenie standardowe nie dostarczy informacji niezbędnych do podjęcia świadomej decyzji.

regresja

jeśli chodzi o statystyki, regresja to relacja między zmienną zależną (dane, które chcesz zmierzyć) a zmienną niezależną (dane używane do przewidywania zmiennej zależnej).

można to również wyjaśnić tym, jak jedna zmienna wpływa na inną lub zmianami w zmiennej, które wywołują zmiany w innej, zasadniczo przyczyny i skutki. Oznacza to, że wynik zależy od jednej lub więcej zmiennych.

linia używana w wykresach i wykresach analizy regresji oznacza, czy relacje między zmiennymi są silne, czy słabe, oprócz pokazywania trendów w określonym czasie.

badania te są wykorzystywane w analizie statystycznej do przewidywania i prognozowania trendów. Na przykład możesz użyć regresji, aby przewidzieć, w jaki sposób określony produkt lub usługa może sprzedawać klientom. Lub, tutaj w G2, używamy regresji, aby przewidzieć, jak nasz ruch organiczny będzie wyglądał za 6 miesięcy.

wzór regresji

wzór regresji, który jest używany do sprawdzania, jak dane mogą wyglądać w przyszłości, to:

Y = a + b (x)

w tym wzorze:

  • a odnosi się do punktu przecięcia osi y, wartość Y, gdy x = 0
  • X jest zmienną zależną
  • Y jest zmienną niezależną
  • B odnosi się do nachylenia lub wzrostu nad przebiegiem

minusem

jedną wadą korzystanie z regresji w ramach analizy statystycznej polega na tym, że regresja nie jest bardzo charakterystyczna, co oznacza, że chociaż wartości odstające na wykresie punktowym (lub wykresie analizy regresji) są ważne, więc są powody, dla których są wartości odstające. Powodem może być wszystko, od błędu w analizie do niewłaściwego skalowania danych.

punkt danych oznaczony jako odstający może reprezentować wiele rzeczy, takich jak najlepiej sprzedający się produkt. Linia regresji zachęca do zignorowania tych wartości odstających i zobaczenia tylko trendów w danych.

Testowanie hipotezy

w analizie statystycznej testowanie hipotez, znane również jako „testowanie T”, jest kluczem do testowania dwóch zestawów zmiennych losowych w zbiorze danych.

ta metoda polega na sprawdzaniu, czy dany argument lub wniosek jest prawdziwy dla zbioru danych. Pozwala na porównywanie danych z różnymi hipotezami i założeniami. Może również pomóc w prognozowaniu, w jaki sposób podejmowane decyzje mogą wpłynąć na biznes.

w statystyce test hipotezy określa pewną ilość przy danym założeniu. Wynik testu interpretuje, czy założenie jest zgodne z założeniem, czy też zostało naruszone. To założenie jest określane jako hipoteza zerowa lub hipoteza 0. Każda inna hipoteza, która byłaby niezgodna z hipotezą 0, nazywana jest hipotezą pierwszą lub hipotezą 1.

kiedy przeprowadzasz testowanie hipotez, wyniki testu są istotne dla statystyk, jeśli wyniki są dowodem, że nie mogło to nastąpić przez przypadek lub przypadek.

jako przykład możesz przyjąć założenie, że im dłużej trwa opracowanie produktu, tym bardziej będzie on udany, co skutkuje wyższą sprzedażą niż kiedykolwiek wcześniej. Przed wdrożeniem dłuższych godzin pracy w celu opracowania produktu, testowanie hipotez zapewnia, że istnieje rzeczywisty związek między nimi.

Testowanie hipotezy wzór

wyniki testu hipotezy statystycznej należy interpretować w celu przedstawienia konkretnego twierdzenia, które jest określane jako wartość P.

powiedzmy, że to, co chcesz określić, ma 50% szans na poprawność.

wzór na ten test hipotezy to:

H0: P = 0,5

H1: P ≠ 0.5

minusem

testowania hipotezy może być czasami zachmurzone i wypaczone przez typowe błędy, takie jak efekt placebo. Dzieje się tak, gdy analitycy statystyczni przeprowadzający test fałszywie oczekują określonego wyniku, a następnie widzą ten wynik, bez względu na okoliczności.

istnieje również prawdopodobieństwo wypaczenia przez efekt Hawthorne ’ a, inaczej znany jako efekt obserwatora. Dzieje się tak, gdy uczestnicy analizowani przekrzywiają wyniki, ponieważ wiedzą, że są badani.

powiązane: dowiedz się więcej o dokładnym testowaniu hipotez dzięki głębokiemu zanurzeniu w analizie wnioskowej.

określenie wielkości próbki

jeśli chodzi o analizę danych do analizy statystycznej, czasami zbiór danych jest po prostu zbyt duży, co utrudnia zebranie dokładnych danych dla każdego elementu zbioru danych. Gdy jest to przypadek, większość iść drogą analizy wielkości próbki, lub mniejszy rozmiar, danych, który nazywa się określanie wielkości próbki.

aby to zrobić poprawnie, musisz określić odpowiedni rozmiar próbki, aby była dokładna. Jeśli rozmiar próbki jest zbyt mały, wyniki nie będą prawidłowe na końcu analizy.

aby dojść do tego wniosku, użyjesz jednej z wielu metod pobierania próbek danych. Możesz to zrobić, wysyłając ankietę do swoich klientów, a następnie użyj prostej metody losowego pobierania próbek, aby wybrać dane Klienta do analizy losowej.

z drugiej strony, zbyt duży rozmiar próbki może spowodować stratę czasu i pieniędzy. Aby określić wielkość próby, można zbadać aspekty, takie jak koszt, czas, lub wygodę zbierania danych.

znalezienie wielkości próbki

w przeciwieństwie do pozostałych czterech metod analizy statystycznej, nie ma jednego trudnego i szybkiego Wzoru do wykorzystania, aby znaleźć Rozmiar próbki.

jednak istnieją pewne ogólne wskazówki, o których należy pamiętać przy określaniu wielkości próbki:

  1. rozważając mniejszy rozmiar próby, przeprowadzić spis
  2. użyj wielkości próby z badania podobnego do własnego. W tym celu warto rozważyć przyjrzenie się akademickim bazom danych, aby wyszukać podobne badanie
  3. jeśli prowadzisz ogólne badanie, może istnieć tabela, która już istnieje, którą możesz wykorzystać na swoją korzyść
  4. użyj kalkulatora wielkości próbki
  5. tylko dlatego, że nie ma jednej konkretnej formuły, nie oznacza, że nie będziesz w stanie znaleźć formuły, która działa. Jest wiele, których możesz użyć i zależy to od tego, co wiesz lub nie wiesz o zamierzonej próbce. Niektóre, które możesz rozważyć użycie, to formuła Slovina i formuła Cochrana

minusem

analizując nową i niesprawdzoną zmienną danych w tej metodzie, musisz polegać na pewnych założeniach. Może to skutkować całkowicie niedokładnym założeniem. Jeśli ten błąd wystąpi podczas tej metody analizy statystycznej, może to negatywnie wpłynąć na resztę analizy danych.

te błędy nazywane są błędami próbkowania i są mierzone przez przedział ufności. Na przykład, jeśli stwierdzisz, że Twoje wyniki są na poziomie ufności 90%, oznacza to, że jeśli miałeś wykonać tę samą analizę ponownie i ponownie, 90% czasu Twoje wyniki będą takie same.

metoda do szaleństwa

bez względu na to, którą metodę analizy statystycznej wybierzesz, pamiętaj, aby zwrócić szczególną uwagę na każdy potencjalny minus, a także na ich unikalną formułę.

oczywiście nie ma złotego standardu ani właściwej lub złej metody. Będzie to zależało od rodzaju zebranych danych, a także od spostrzeżeń, które chcesz uzyskać jako wynik końcowy.

chcesz znaleźć odpowiednie narzędzie, aby jeszcze bardziej przyjrzeć się danym? Sprawdź nasze zestawienie najlepszego oprogramowania do analizy statystycznej dla nawet najbardziej złożonych analiz.

chcesz dowiedzieć się więcej o oprogramowaniu do analizy statystycznej? Poznaj produkty do analizy statystycznej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.