平均的なビジネスはここ十年で根本的に変化しました。
机で使われている機器であろうと、通信に使われているソフトウェアであろうと、かつてのように見えるものはほとんどありません。
完全に異なる何か他のものは、私たちが私たちの指先で持っているどのくらいのデータです。 かつて不足していたのは、今では一見圧倒的な量のデータです。 しかし、ビジネスのデータを分析して真の洞察に満ちた意味を見つける方法がわからない場合にのみ圧倒的です。
だから、膨大な量のデータを持つ点Aから、そのデータを正確に解釈できる点Bにどのように行くのですか? それはすべて、パターンや傾向を明らかにするためにデータのサンプルを処理して収集する方法である統計分析のための適切な方法を使用することに
この分析では、平均、標準偏差、回帰、仮説検定、サンプルサイズ決定の5つから選択できます。
統計分析を行うための5つの方法
あなたがデータ科学者であろうとなかろうと、世界がビッグデータに夢中になっていることを否定するものではありません。 このため、どこから始めるべきかを知る必要があります。 これらの5つの方法は、正確なデータ駆動型の結論に到達する上で、基本的でありながら効果的です。
Mean
統計分析を実行するために使用される最初の方法は平均であり、より一般的には平均と呼ばれます。 平均を計算するときは、数値のリストを追加し、その数値をリスト上の項目で除算します。
この方法を使用すると、データセットの全体的な傾向を決定することができ、データの迅速かつ簡潔なビューを取得することができます。 この方法のユーザーは、単純化された迅速な計算の恩恵を受けることもできます。
統計的平均は、処理されているデータの中心点を表しています。 結果は、提供されたデータの平均と呼ばれます。 実際の生活では、人々は通常、研究、学者、スポーツに関して平均を使用します。 野球で選手の打率が何回議論されているかを考えてみてください。
平均を見つける方法
データの平均を見つけるには、まず数値を加算してから、データセットまたはリスト内の数値の数で合計を除算します。例として、6、18、および24の平均を求めるには、最初にそれらを一緒に追加します。
6 + 18 + 24 = 48
次に、リスト内の数字の数で除算します(3)。
48 / 3 = 16
平均値は16です。
平均値を使用する場合の欠点
は素晴らしいですが、スタンドアロンの統計分析方法としてはお勧めしません。 これは、一部のデータセットのモード(最も頻繁に発生する値)と中央値(中央)にも関連しているため、計算の背後にある完全な努力を潜在的に台無しにす
外れ値の数が多いデータポイント(他のデータポイントと大きく異なるデータポイント)またはデータの不正確な分布のいずれかを扱う場合、平均は特定の決
標準偏差
標準偏差は、平均値を中心としたデータの広がりを測定する統計分析の方法です。
高い標準偏差を扱っているとき、これは平均から広く広がっているデータを指します。 同様に、低偏差は、ほとんどのデータが平均に沿っており、セットの期待値とも呼ばれることを示しています。
標準偏差は、主にデータポイントの分散(クラスター化されているかどうか)を決定する必要がある場合に使用されます。
あなたが最近顧客調査を行ったマーケティング担当者であるとしましょう。 調査の結果を取得したら、回答の信頼性を測定して、より大きなグループの顧客が同じ回答を持っているかどうかを予測することに興味があります。 低い標準偏差が発生した場合、回答はより大きな顧客グループに投影できることが示されます。
詳細:クラスタリングは、大量のデータを類似性に基づいてグループ化するデータマイニング手法です。
標準偏差を求める方法
標準偏差を計算する式は次のとおりです:
この式でλ2=Λ(x−λ)2/n
:
- 標準偏差の記号はσ
- Σはデータの合計を表します
- xはデータセットの値を表します
- μはデータの平均を表します
- σ2は分散を表します
- nは母集団標準偏差を求めるには
:
- データセット内の数値の平均を求めます
- データセット内の各数値について、平均を減算し、結果を二乗します(これは式(x−π)2のこの部分です)。
- これらの二乗差の平均を求める
- 最終的な答えの平方根を取る
あなたは私たちの平均例で同じ三つの数字を使用した場合、6、18、および24、標準偏差、ま
欠点
平均を使用する欠点と同様の注意点では、標準偏差は統計分析の唯一の方法として使用されると誤解を招く可能性があります。
一例として、使用しているデータに外れ値が多すぎたり、非正規曲線のような奇妙なパターンがある場合、標準偏差は情報に基づいた決定を下すために必要な情報を提供しません。
回帰
統計に関しては、回帰は従属変数(測定しようとしているデータ)と独立変数(従属変数を予測するために使用されるデータ)との関係です。
ある変数が別の変数にどのように影響するか、または別の変数の変更をトリガーする変数の変更によっても説明できます。 これは、結果が1つ以上の変数に依存していることを意味します。
回帰分析のグラフやグラフで使用される線は、特定の時間にわたる傾向を示すことに加えて、変数間の関係が強いか弱いかを示しています。
これらの研究は、予測と予測傾向を行うための統計分析に使用されます。 たとえば、回帰を使用して、特定の製品またはサービスが顧客にどのように販売されるかを予測することができます。 または、ここG2では、回帰を使用して、有機トラフィックが今から6ヶ月後にどのように見えるかを予測します。
回帰式
データが将来どのように見えるかを確認するために使用される回帰式は次のとおりです:
Y=a+b(x))
この式では:
- Aはy切片を指し、x=0のときのyの値
- Xは従属変数
- Yは独立変数
- Bは勾配を指し、またはランを超える上昇
欠点
つまり、散布図(または回帰分析グラフ)の外れ値は重要ですが、それらが外れ値である理由も重要です。 この理由は、分析のエラーからデータが不適切にスケーリングされることまで、何でもあります。
外れ値としてマークされているデータポイントは、最も売れている製品など、多くのものを表すことができます。 回帰直線は、これらの外れ値を無視し、データの傾向のみを表示するように誘惑します。
仮説検定
統計分析では、仮説検定(「T検定」とも呼ばれます)は、データセット内の2つの確率変数のセットを検定するための鍵です。
このメソッドは、データセットに対して特定の引数または結論が真であるかどうかをテストすることです。 これにより、データをさまざまな仮説や仮定と比較することができます。 また、意思決定がビジネスにどのように影響するかを予測するのにも役立ちます。
統計学では、仮説検定は与えられた仮定の下である量を決定する。 テストの結果は、仮定が成立しているかどうか、または仮定が違反されているかどうかを解釈します。 この仮定は、帰無仮説、または仮説0と呼ばれます。 仮説0に違反する他の仮説は、最初の仮説、または仮説1と呼ばれます。
仮説検定を実施する場合、検定の結果は、ランダムな出現または偶然によって発生しなかったことを証明するものであれば、統計に有意です。
一例として、製品の開発にかかる時間が長くなればなるほど成功し、これまで以上に売上が高くなると仮定することができます。 製品を開発するために長い労働時間を実装する前に、仮説検定は、両者の間に実際の接続があることを保証します。
仮説検定式
統計的仮説検定の結果は、p値と呼ばれる特定の主張を行うために解釈する必要があります。
あなたが判断しようとしているものが正しい可能性が50%あるとしましょう。
この仮説検定の式は次のようになります:
H0:P=0.5
H1:P≠ 0.5
欠点
仮説検定は、プラセボ効果のような一般的な誤りによって曇ったり歪んだりすることがあります。 これは、テストを実施している統計アナリストが誤って特定の結果を期待し、状況に関係なくその結果を見るときに発生します。
観測者効果として知られているホーソーン効果によって歪曲される可能性もあります。 これは、分析されている参加者が研究されていることを知っているために結果を歪めるときに発生します。
関連:推論分析に深く飛び込むと、正確な仮説検定についての詳細を発見。
サンプルサイズの決定
統計分析のためのデータの分析になると、データセットが大きすぎて、データセットの各要素の正確なデータを収集することが困難 このような場合、ほとんどの場合、サンプルサイズまたはより小さいサイズのデータを分析するルートになります。
これを正しく行うには、サンプルの正しいサイズを正確に決定する必要があります。 サンプルサイズが小さすぎると、分析の最後に有効な結果が得られません。
この結論に達するには、多くのデータサンプリング方法のいずれかを使用します。 あなたはあなたの顧客に調査を送信することによってこれを行うことができ、その後、ランダムに分析する顧客データを選択するために、単純なランダムサンプリング方法を使用しています。
一方、サンプルサイズが大きすぎると、時間とお金が無駄になる可能性があります。 サンプルサイズを決定するには、コスト、時間、またはデータ収集の利便性などの側面を調べることができます。
サンプルサイズの検索
他の4つの統計分析方法とは異なり、サンプルサイズを見つけるために使用する簡単で高速な式は1つありません。
ただし、サンプルサイズを決定する際には、いくつかの一般的なヒントに留意する必要があります:
- より小さなサンプルサイズを検討する場合は、国勢調査を行います
- あなた自身のような研究からのサンプルサイズを使用してください。 このためには、学術データベースを見て同様の研究を検索することを検討することをお勧めします
- 一般的な研究を行っている場合は、すでに存在する表があるかもしれません。
- サンプルサイズ計算機を使用してください
- 特定の式がないからといって、うまくいく式を見つけることができないわけではありません。 あなたが使うことができる多くがあり、それはあなたが意図されたサンプルについて知っているか知らないかに依存します。 Slovin’s formulaとCochran’s formula
欠点
このメソッド内でテストされていない新しいデータ変数を分析するときは、特定の仮定に頼る必要があります。 そうすることで、完全に不正確な仮定が生じる可能性があります。 この統計分析方法でこのエラーが発生した場合、残りのデータ分析に悪影響を及ぼす可能性があります。
これらの誤差はサンプリング誤差と呼ばれ、信頼区間によって測定されます。 たとえば、結果が90%の信頼水準にあると述べた場合、同じ分析を何度も何度も実行すると、結果の90%が同じになることを意味します。
狂気への方法
あなたが選択した統計分析の方法に関係なく、それぞれの潜在的な欠点とそのユニークな公式に注意してください。
もちろん、金本位制や正しい方法や間違った方法はありません。 それはあなたが収集したデータの種類だけでなく、あなたが最終的な結果として持っている探している洞察に依存するだろう。
データをさらに調べるための適切なツールを見つけることに興味がありますか? でも、最も複雑な分析のための最高の統計分析ソフトウェアの私達のまとめをチェックしてください。