Das durchschnittliche Unternehmen hat sich in den letzten zehn Jahren radikal verändert.
Ob es sich um die Ausrüstung an Schreibtischen oder die Software für die Kommunikation handelt, nur wenige Dinge sehen so aus, wie sie einmal waren.
Etwas anderes, das völlig anders ist, ist, wie viele Daten wir zur Hand haben. Was früher knapp war, ist heute eine scheinbar überwältigende Datenmenge. Es ist jedoch nur überwältigend, wenn Sie nicht wissen, wie Sie die Daten Ihres Unternehmens analysieren sollen, um eine wahre und aufschlussreiche Bedeutung zu finden.
Wie gehen Sie also von Punkt A mit einer großen Datenmenge zu Punkt B, um diese Daten genau interpretieren zu können? Es kommt darauf an, die richtigen Methoden für die statistische Analyse zu verwenden, So verarbeiten und sammeln wir Datenproben, um Muster und Trends aufzudecken.
Für diese Analyse stehen fünf zur Auswahl: Mittelwert, Standardabweichung, Regression, Hypothesentest und Bestimmung der Stichprobengröße.
Die 5 Methoden zur Durchführung statistischer Analysen
Es ist nicht zu leugnen, dass die Welt von Big Data besessen ist, egal ob Sie ein Datenwissenschaftler sind oder nicht. Aus diesem Grund müssen Sie wissen, wo Sie anfangen sollen. Diese fünf Methoden sind grundlegend, aber effektiv, um genaue datengesteuerte Schlussfolgerungen zu ziehen.
Mittelwert
Die erste Methode, die zur Durchführung der statistischen Analyse verwendet wird, ist Mittelwert, der häufiger als Durchschnitt bezeichnet wird. Wenn Sie den Mittelwert berechnen möchten, addieren Sie eine Liste von Zahlen und teilen diese Zahl dann durch die Elemente in der Liste.
Wenn diese Methode verwendet wird, ermöglicht sie die Bestimmung des Gesamttrends eines Datensatzes sowie die Möglichkeit, eine schnelle und präzise Ansicht der Daten zu erhalten. Anwender dieser Methode profitieren auch von der vereinfachten und schnellen Berechnung.
Der statistische Mittelwert ergibt sich aus dem Mittelpunkt der Daten, die verarbeitet werden. Das Ergebnis wird als Mittelwert der bereitgestellten Daten bezeichnet. Im wirklichen Leben, Menschen verwenden in der Regel mean to in Bezug auf Forschung, Akademiker, und Sport. Denken Sie daran, wie oft der Schlagdurchschnitt eines Spielers im Baseball diskutiert wird; das ist ihr Mittelwert.
So finden Sie den Mittelwert
Um den Mittelwert Ihrer Daten zu ermitteln, addieren Sie zuerst die Zahlen und dividieren Sie dann die Summe durch die Anzahl der Zahlen innerhalb des Datensatzes oder der Liste.
Um beispielsweise den Mittelwert von 6, 18 und 24 zu ermitteln, würden Sie sie zuerst addieren.
6 + 18 + 24 = 48
Teilen Sie dann durch wie viele Zahlen in der Liste (3).
48 / 3 = 16
Der Mittelwert ist 16.
Der Nachteil
Wenn der Mittelwert groß ist, wird er nicht als eigenständige statistische Analysemethode empfohlen. Dies liegt daran, dass dies möglicherweise den gesamten Aufwand für die Berechnung ruinieren kann, da dies auch mit dem Modus (dem am häufigsten auftretenden Wert) und dem Median (der Mitte) in einigen Datensätzen zusammenhängt.
Wenn Sie es mit einer großen Anzahl von Datenpunkten zu tun haben, die entweder eine hohe Anzahl von Ausreißern (ein Datenpunkt, der sich erheblich von anderen unterscheidet) oder eine ungenaue Verteilung der Daten aufweisen, liefert der Mittelwert in der statistischen Analyse für eine bestimmte Entscheidung nicht die genauesten Ergebnisse.
Standardabweichung
Die Standardabweichung ist eine Methode der statistischen Analyse, die die Ausbreitung von Daten um den Mittelwert misst.
Wenn es sich um eine hohe Standardabweichung handelt, weist dies auf Daten hin, die weit vom Mittelwert entfernt sind. In ähnlicher Weise zeigt eine geringe Abweichung, dass die meisten Daten mit dem Mittelwert übereinstimmen und auch als Erwartungswert eines Satzes bezeichnet werden können.
Die Standardabweichung wird hauptsächlich verwendet, wenn Sie die Streuung von Datenpunkten bestimmen müssen (unabhängig davon, ob sie gruppiert sind oder nicht).
Angenommen, Sie sind ein Vermarkter, der kürzlich eine Kundenbefragung durchgeführt hat. Sobald Sie die Ergebnisse der Umfrage erhalten haben, sind Sie daran interessiert, die Zuverlässigkeit der Antworten zu messen, um vorherzusagen, ob eine größere Gruppe von Kunden die gleichen Antworten haben könnte. Wenn eine niedrige Standardabweichung auftritt, würde dies zeigen, dass die Antworten auf eine größere Gruppe von Kunden projiziert werden können.
Weitere Informationen: Clustering ist eine Data-Mining-Technik, die große Datenmengen basierend auf ihren Ähnlichkeiten gruppiert.
So finden Sie die Standardabweichung
Die Formel zur Berechnung der Standardabweichung lautet:
σ2 = Σ(x – μ)2/n
In dieser Formel:
- Das Symbol für die Standardabweichung ist σ
- Σ steht für die Summe der Daten
- x steht für den Wert des Datensatzes
- μ steht für den Mittelwert der Daten
- σ2 steht für die Varianz
- n steht für die Anzahl der Datenpunkte im Datensatz bevölkerung
Um die Standardabweichung zu finden:
- Ermitteln Sie den Mittelwert der Zahlen innerhalb des Datensatzes
- Subtrahieren Sie für jede Zahl innerhalb des Datensatzes den Mittelwert und quadrieren Sie das Ergebnis (dies ist dieser Teil der Formel (x − μ)2).
- Finde den Mittelwert dieser quadratischen Differenzen
- Nimm die Quadratwurzel der endgültigen Antwort
Wenn Sie die gleichen drei Zahlen in unserem mittleren Beispiel 6, 18 und 24 verwenden, wäre die Standardabweichung oder σ 7,4833147735479.
Der Nachteil
Ähnlich wie bei der Verwendung des Mittelwerts kann die Standardabweichung irreführend sein, wenn sie als einzige Methode in Ihrer statistischen Analyse verwendet wird.
Wenn die Daten, mit denen Sie arbeiten, beispielsweise zu viele Ausreißer oder ein seltsames Muster wie eine nicht normale Kurve aufweisen, liefert die Standardabweichung nicht die erforderlichen Informationen, um eine fundierte Entscheidung zu treffen.
Regression
Wenn es um Statistiken geht, ist Regression die Beziehung zwischen einer abhängigen Variablen (den Daten, die Sie messen möchten) und einer unabhängigen Variablen (den Daten, die zur Vorhersage der abhängigen Variablen verwendet werden).
Es kann auch dadurch erklärt werden, wie eine Variable eine andere beeinflusst, oder durch Änderungen in einer Variablen, die Änderungen in einer anderen auslösen, im Wesentlichen Ursache und Wirkung. Es impliziert, dass das Ergebnis von einer oder mehreren Variablen abhängt.
Die in Diagrammen und Diagrammen der Regressionsanalyse verwendete Linie gibt an, ob die Beziehungen zwischen den Variablen stark oder schwach sind, und zeigt Trends über einen bestimmten Zeitraum an.
Diese Studien werden in der statistischen Analyse verwendet, um Vorhersagen zu treffen und Trends vorherzusagen. Sie können beispielsweise mithilfe der Regression vorhersagen, wie ein bestimmtes Produkt oder eine bestimmte Dienstleistung an Ihre Kunden verkauft werden kann. Oder wir bei G2 verwenden Regression, um vorherzusagen, wie unser organischer Traffic in 6 Monaten aussehen wird.
Regressionsformel
Die Regressionsformel, die verwendet wird, um zu sehen, wie Daten in Zukunft aussehen könnten, lautet:
Y = a + b (x)
In dieser Formel:
- A bezieht sich auf den y-Schnittpunkt, den Wert von y, wenn x = 0
- X ist die abhängige Variable
- Y ist die unabhängige Variable
- B bezieht sich auf die Steigung oder den Anstieg über den Lauf
Der Nachteil
Ein Nachteil wenn Sie die Regression als Teil Ihrer statistischen Analyse verwenden, ist die Regression nicht sehr ausgeprägt, was bedeutet, dass die Ausreißer in einem Streudiagramm (oder Regressionsanalysediagramm) zwar wichtig sind, aber auch die Gründe, warum sie Ausreißer sind. Dieser Grund kann von einem Fehler in der Analyse bis hin zu einer unangemessenen Skalierung der Daten reichen.
Ein Datenpunkt, der als Ausreißer markiert ist, kann viele Dinge darstellen, z. B. Ihr meistverkauftes Produkt. Die Regressionsgerade verleitet Sie dazu, diese Ausreißer zu ignorieren und nur die Trends in den Daten zu sehen.
Hypothesentest
In der statistischen Analyse ist der Hypothesentest, auch bekannt als „T-Test“, ein Schlüssel zum Testen der beiden Sätze von Zufallsvariablen innerhalb des Datensatzes.
Bei dieser Methode wird getestet, ob ein bestimmtes Argument oder eine bestimmte Schlussfolgerung für den Datensatz zutrifft. Es ermöglicht den Vergleich der Daten mit verschiedenen Hypothesen und Annahmen. Es kann auch bei der Vorhersage helfen, wie sich getroffene Entscheidungen auf das Geschäft auswirken könnten.
In der Statistik bestimmt ein Hypothesentest eine bestimmte Menge unter einer bestimmten Annahme. Das Ergebnis des Tests interpretiert, ob die Annahme zutrifft oder ob die Annahme verletzt wurde. Diese Annahme wird als Nullhypothese oder Hypothese 0 bezeichnet. Jede andere Hypothese, die gegen Hypothese 0 verstößt, wird als erste Hypothese oder Hypothese 1 bezeichnet.
Wenn Sie Hypothesentests durchführen, sind die Ergebnisse des Tests für die Statistik von Bedeutung, wenn die Ergebnisse belegen, dass dies nicht zufällig oder zufällig geschehen sein kann.
Als Beispiel können Sie davon ausgehen, dass je länger die Entwicklung eines Produkts dauert, desto erfolgreicher wird es sein, was zu höheren Umsätzen als je zuvor führt. Bevor Sie längere Arbeitszeiten für die Entwicklung eines Produkts implementieren, stellen Hypothesentests sicher, dass eine tatsächliche Verbindung zwischen beiden besteht.
Hypothesentestformel
Die Ergebnisse eines statistischen Hypothesentests müssen interpretiert werden, um einen bestimmten Anspruch geltend zu machen, der als p-Wert bezeichnet wird.
Nehmen wir an, was Sie bestimmen möchten, hat eine 50% ige Chance, korrekt zu sein.
Die Formel für diesen Hypothesentest lautet:
H0: P = 0,5
H1: P ≠ 0.5
Der Nachteil
Hypothesentests können manchmal durch häufige Fehler wie den Placebo-Effekt getrübt und verzerrt werden. Dies tritt auf, wenn statistische Analysten, die den Test durchführen, fälschlicherweise ein bestimmtes Ergebnis erwarten und dieses Ergebnis dann unabhängig von den Umständen sehen.
Es besteht auch die Wahrscheinlichkeit, dass der Hawthorne-Effekt, auch bekannt als Beobachtereffekt, verzerrt wird. Dies geschieht, wenn die analysierten Teilnehmer die Ergebnisse verzerren, weil sie wissen, dass sie untersucht werden.
Related: Erfahren Sie mehr über genaue Hypothesentests mit einem tiefen Einblick in die Inferenzanalyse.
Bestimmung der Stichprobengröße
Wenn es um die Analyse von Daten für statistische Analysen geht, ist der Datensatz manchmal einfach zu groß, was es schwierig macht, genaue Daten für jedes Element des Datensatzes zu sammeln. Wenn dies der Fall ist, gehen die meisten den Weg der Analyse einer Stichprobengröße oder einer kleineren Größe von Daten, die als Stichprobengrößenbestimmung bezeichnet wird.
Um dies korrekt durchzuführen, müssen Sie die richtige Größe der Probe bestimmen, um genau zu sein. Wenn die Stichprobengröße zu klein ist, haben Sie am Ende Ihrer Analyse keine gültigen Ergebnisse.
Um zu dieser Schlussfolgerung zu kommen, verwenden Sie eine der vielen Datenabtastmethoden. Sie können dies tun, indem Sie eine Umfrage an Ihre Kunden senden und dann die einfache Zufallsstichprobenmethode verwenden, um die zu analysierenden Kundendaten nach dem Zufallsprinzip auszuwählen.
Andererseits kann eine zu große Stichprobengröße zu Zeit- und Geldverschwendung führen. Um den Stichprobenumfang zu bestimmen, können Sie Aspekte wie Kosten, Zeit oder die Bequemlichkeit der Datenerfassung untersuchen.
Finden einer Stichprobengröße
Im Gegensatz zu den anderen vier statistischen Analysemethoden gibt es keine feste Formel zum Ermitteln der Stichprobengröße.
Es gibt jedoch einige allgemeine Tipps, die Sie bei der Bestimmung einer Stichprobengröße beachten sollten:
- Wenn Sie eine kleinere Stichprobengröße in Betracht ziehen, führen Sie eine Volkszählung durch
- Verwenden Sie eine Stichprobengröße aus einer Studie, die Ihrer eigenen ähnelt. Zu diesem Zweck sollten Sie einen Blick auf akademische Datenbanken werfen, um nach einer ähnlichen Studie zu suchen
- Wenn Sie eine generische Studie durchführen, gibt es möglicherweise bereits eine Tabelle, die Sie zu Ihrem Vorteil verwenden können
- Verwenden Sie einen Stichprobengrößenrechner
- Nur weil es keine bestimmte Formel gibt, heißt das nicht, dass Sie keine Formel finden können, die funktioniert. Es gibt viele, die Sie verwenden könnten, und es hängt davon ab, was Sie über die beabsichtigte Probe wissen oder nicht wissen. Einige, die Sie in Betracht ziehen können, sind die Slovin-Formel und die Cochran-Formel
Der Nachteil
Wenn Sie eine neue und nicht getestete Datenvariable innerhalb dieser Methode analysieren, müssen Sie sich auf bestimmte Annahmen verlassen. Dies könnte zu einer völlig ungenauen Annahme führen. Wenn dieser Fehler während dieser statistischen Analysemethode auftritt, kann er sich negativ auf den Rest Ihrer Datenanalyse auswirken.
Diese Fehler werden als Stichprobenfehler bezeichnet und anhand eines Konfidenzintervalls gemessen. Wenn Sie beispielsweise angeben, dass Ihre Ergebnisse ein Konfidenzniveau von 90% aufweisen, bedeutet dies, dass Ihre Ergebnisse in 90% der Fälle gleich sind, wenn Sie dieselbe Analyse immer wieder durchführen.
Eine Methode zum Wahnsinn
Egal für welche Methode der statistischen Analyse Sie sich entscheiden, achten Sie besonders auf jeden potenziellen Nachteil sowie auf seine einzigartige Formel.
Natürlich gibt es keinen Goldstandard oder die richtige oder falsche Methode. Es hängt von der Art der Daten ab, die Sie gesammelt haben, sowie von den Erkenntnissen, die Sie als Endergebnis erhalten möchten.
Möchten Sie das richtige Tool finden, um Ihren Blick auf Daten noch weiter zu lenken? Schauen Sie sich unsere Zusammenfassung der besten statistischen Analysesoftware für selbst die komplexesten Analysen an.