5 다음 단계로 데이터를 가져 통계 분석 방법

평균 사업은 근본적으로 지난 10 년 동안 변경되었습니다.

책상에서 사용하는 장비이든,통신하는 데 사용되는 소프트웨어이든,예전처럼 보이는 것은 거의 없습니다.

완전히 다른 것은 우리가 얼마나 많은 데이터를 손끝에 가지고 있는지입니다. 한때 부족한 것은 이제 겉보기에 압도적 인 양의 데이터입니다. 그러나 진실하고 통찰력있는 의미를 찾기 위해 비즈니스 데이터를 분석하는 방법을 모르는 경우에만 압도적입니다.

그럼,방대한 양의 데이터를 가진 포인트 에이에서 포인트 비로 어떻게 가서 그 데이터를 정확하게 해석 할 수 있습니까? 이 모든 것은 통계 분석에 적합한 방법을 사용하는 것으로,패턴 및 추세를 파악하기 위해 데이터 샘플을 처리하고 수집하는 방법입니다.

이 분석에는 평균,표준 편차,회귀 분석,가설 검정 및 표본 크기 결정 중에서 선택할 수있는 5 가지가 있습니다.

통계 분석을 위한 5 가지 방법

당신이 데이터 과학자이든 아니든 세상이 빅데이터에 집착하고 있다는 것은 부인할 수 없다. 이 때문에 어디서부터 시작해야할지 알아야합니다. 이 다섯 가지 방법은 정확한 데이터 기반 결론에 도달하는 데 기본적이지만 효과적입니다.

평균

통계 분석을 수행하는 데 사용되는 첫 번째 방법은 평균이며 더 일반적으로 평균이라고합니다. 평균을 계산하려고 할 때 숫자 목록을 추가 한 다음 해당 숫자를 목록의 항목으로 나눕니다.

이 방법을 사용하면 데이터 세트의 전반적인 추세를 결정할 수있을뿐만 아니라 데이터의 빠르고 간결한 뷰를 얻을 수 있습니다. 이 방법의 사용자는 단순하고 빠른 계산의 혜택을 누릴 수 있습니다.

통계 평균은 처리 중인 데이터의 중심점을 나타냅니다. 결과를 제공된 데이터의 평균이라고 합니다. 실제 생활에서 사람들은 일반적으로 연구,학계 및 스포츠와 관련하여 평균을 사용합니다. 선수의 타율이 야구에서 논의 얼마나 많은 시간을 생각;그 자신의 평균입니다.

평균을 찾는 방법

데이터 평균을 찾으려면 먼저 숫자를 함께 추가한 다음 합계를 데이터 집합 또는 목록 내에 있는 숫자의 수로 나눕니다.

예를 들어,6,18 및 24 의 평균을 찾으려면 먼저 이들을 합산합니다.
6 + 18 + 24 = 48
그런 다음 목록에 얼마나 많은 숫자로 나눕니다(3).
48 / 3 = 16
평균은 16 입니다.

단점

평균을 사용하는 것이 큰 경우 독립형 통계 분석 방법으로 권장되지 않습니다. 이는 이렇게 하면 일부 데이터 세트에서 모드(가장 자주 발생하는 값)및 중앙값(중간)과 관련이 있기 때문에 계산 뒤에 있는 전체 작업을 망칠 수 있기 때문입니다.

많은 수의 이상값(다른 점과 크게 다른 데이터 요소)또는 부정확한 데이터 분포를 가진 많은 수의 데이터 요소를 다루는 경우 평균은 특정 결정에 대한 통계 분석에서 가장 정확한 결과를 제공하지 않습니다.

표준 편차

표준 편차는 평균 주위의 데이터 확산을 측정하는 통계 분석 방법입니다.

높은 표준 편차를 다룰 때는 평균에서 널리 퍼진 데이터를 가리킵니다. 마찬가지로,낮은 편차는 대부분의 데이터가 평균과 일치하고 집합의 예상 값이라고도 할 수 있음을 보여줍니다.

표준 편차는 주로 데이터 요소의 분산을 결정해야 할 때 사용됩니다(클러스터링되었는지 여부).

최근에 고객 설문 조사를 실시한 마케팅 담당자라고합시다. 설문 조사 결과를 얻은 후에는 더 큰 고객 그룹이 동일한 답변을 가질 수 있는지 예측하기 위해 답변의 신뢰성을 측정하는 데 관심이 있습니다. 낮은 표준 편차가 발생하는 경우,응답이 고객의 큰 그룹에 투영 될 수 있음을 보여줄 것이다.

자세히 알아보기:클러스터링은 유사성에 따라 대량의 데이터를 함께 그룹화하는 데이터 마이닝 기술입니다.

는 방법을 찾기 위해 표준 편차

학식 표준 편차를 계산하는:

σ2=Σ(x−μ)2/n

에서 이 수식:

표준 편차의 기호는 데이터 합계를 나타냅니다
엑스 데이터 집합의 값을 나타냅니다
데이터 평균을 나타냅니다
데이터 평균을 나타냅니다
데이터 평균을 나타냅니다
데이터 평균을 나타냅니다
데이터 평균을 나타냅니다
데이터 평균을 나타냅니다
데이터 평균을 나타냅니다

표준 편차를 찾으려면:

데이터 세트 내의 각 숫자에 대해 데이터 세트
내의 숫자의 평균을 찾고 평균을 빼고 결과를 제곱합니다.
그 제곱 차이의 평균을 찾기
최종 답변의 제곱근을

우리의 평균 예,6,18,24 에서 같은 세 개의 숫자를 사용하는 경우,표준 편차,또는 24,7.4833147735479 가 될 것입니다.

단점

평균 사용의 단점과 유사하게 통계 분석에서 유일한 방법으로 사용될 때 표준 편차가 오도 될 수 있습니다.

예를 들어,작업 중인 데이터에 이상값이 너무 많거나 비정상 곡선과 같은 이상한 패턴이 있는 경우 표준 편차는 정보에 입각 한 결정을 내리는 데 필요한 정보를 제공하지 않습니다.

회귀

통계의 경우 회귀는 종속 변수(측정하려는 데이터)와 독립 변수(종속 변수를 예측하는 데 사용되는 데이터)간의 관계입니다.

또한 한 변수가 다른 변수에 미치는 영향 또는 다른 변수의 변화를 유발하는 변수의 변화,본질적으로 원인과 결과에 의해 설명 될 수 있습니다. 결과는 하나 이상의 변수에 종속된다는 것을 의미합니다.

회귀 분석 그래프와 차트에 사용되는 선은 특정 시간 동안의 추세를 보여주는 것 외에도 변수 간의 관계가 강한지 약한지 여부를 나타냅니다.

이 연구는 예측 및 예측 추세를 만들기 위해 통계 분석에 사용됩니다. 예를 들어 회귀를 사용하여 특정 제품 또는 서비스가 고객에게 판매되는 방식을 예측할 수 있습니다. 또는,여기 지 2 에서,우리는 우리의 유기 트래픽이 지금부터 6 개월 어떻게 보일지 예측하기 위해 회귀를 사용합니다.

회귀 수식

미래에 데이터가 어떻게 표시되는지 확인하는 데 사용되는 회귀 수식은 다음과 같습니다:

+++++++++++)

이 공식에서:

와이 독립 변수

비는 기울기를 참조하거나 실행을 통해 상승

통계 분석의 일부로 회귀분석은 회귀분석이 매우 특이하지 않다는 것인데,이는 산점도(또는 회귀분석 그래프)의 특이치가 중요하지만 왜 특이치인지에 대한 이유도 마찬가지라는 것을 의미합니다. 이 이유는 분석 오류에서 부적절하게 확장되는 데이터에 이르기까지 모든 것일 수 있습니다.

이상값으로 표시된 데이터 요소는 판매량이 가장 높은 제품과 같이 여러 가지를 나타낼 수 있습니다. 회귀선은 이러한 이상값을 무시하고 데이터의 추세만 볼 수 있도록 유도합니다.

가설 검정

통계 분석에서 가설 검정은 데이터 세트 내에서 두 세트의 확률 변수를 테스트하는 열쇠입니다.

이 방법은 데이터 세트에 대해 특정 인수 또는 결론이 사실인지 테스트하는 것입니다. 다양한 가설 및 가정에 대한 데이터를 비교할 수 있습니다. 또한 의사 결정이 비즈니스에 어떤 영향을 미칠 수 있는지 예측하는 데 도움을 줄 수 있습니다.

통계에서 가설 검정은 주어진 가정하에 일부 수량을 결정합니다. 테스트 결과는 가정이 유지되는지 또는 가정이 위반되었는지 여부를 해석합니다. 이 가정을 귀무 가설 또는 가설 0 이라고합니다. 가설 0 을 위반하는 다른 가설을 첫 번째 가설 또는 가설 1 이라고합니다.

가설 검정을 수행할 때 결과가 무작위 발생 또는 우연에 의해 발생할 수 없다는 증거인 경우 검정의 결과는 통계에 중요합니다.

예를 들어,제품을 개발하는 데 시간이 오래 걸릴수록 더 성공적이어서 그 어느 때보다 높은 매출을 올릴 수 있다고 가정할 수 있습니다. 제품을 개발하기 위해 더 긴 작업 시간을 구현하기 전에 가설 검정은 둘 사이에 실제 연결이 있는지 확인합니다.

가설 검정 공식

통계적 가설 검정의 결과는 특정 주장을 하기 위해 해석될 필요가 있다.

당신이 찾고 있는 것이 옳을 확률이 50%라고 가정해 봅시다.

이 가설 검정의 공식은 다음과 같습니다:

10:10

≠ 0.5

단점

가설 검정은 때때로 플라시보 효과와 같은 일반적인 오류에 의해 흐려지고 왜곡 될 수 있습니다. 이는 테스트를 수행하는 통계 분석가가 특정 결과를 잘못 예상 한 다음 상황에 관계없이 그 결과를 볼 때 발생합니다.

관찰자 효과라고도 하는 호손 효과에 의해 왜곡될 가능성도 있습니다. 이것은 분석중인 참가자가 연구 중이라는 것을 알고 있기 때문에 결과를 왜곡 할 때 발생합니다.

관련:추론 분석에 대한 심층적 인 다이빙을 통해 정확한 가설 검정에 대해 자세히 알아보십시오.

표본 크기 결정

통계 분석을 위해 데이터를 분석하는 경우 데이터 집합이 너무 커서 데이터 집합의 각 요소에 대한 정확한 데이터를 수집하기가 어려울 수 있습니다. 이 경우 대부분의 경우 샘플 크기 또는 더 작은 크기의 데이터를 분석하는 경로를 사용합니다.이 데이터를 샘플 크기 결정이라고합니다.

이 작업을 올바르게 수행하려면 정확한 샘플 크기를 결정해야합니다. 표본 크기가 너무 작으면 분석 끝에 유효한 결과가 없습니다.

이 결론에 도달하기 위해,당신은 많은 데이터 샘플링 방법 중 하나를 사용합니다. 당신은 당신의 고객에게 설문 조사를 보내이 작업을 수행 한 다음 무작위로 분석 할 고객 데이터를 선택하는 간단한 랜덤 샘플링 방법을 사용할 수 있습니다.

반면에 표본 크기가 너무 크면 시간과 비용이 낭비될 수 있습니다. 샘플 크기를 결정하기 위해 비용,시간 또는 데이터 수집 편의성과 같은 측면을 검사 할 수 있습니다.

표본 크기 찾기

다른 네 가지 통계 분석 방법과 달리 표본 크기를 찾는 데 사용할 단단하고 빠른 공식이 하나도 없습니다.

그러나 표본 크기를 결정할 때 유의해야 할 몇 가지 일반적인 팁이 있습니다:

더 작은 표본 크기를 고려할 때 인구 조사 실시
자신과 비슷한 연구의 표본 크기를 사용하십시오. 이를 위해 유사한 연구를 검색하기 위해 학술 데이터베이스를 살펴 보는 것을 고려할 수 있습니다.
일반 연구를 수행하는 경우 이미 존재하는 표가있을 수 있습니다.
표본 크기 계산기 사용
하나의 특정 공식이 없기 때문에 작동하는 공식을 찾을 수 없다는 것을 의미하지는 않습니다. 당신이 사용할 수 있는 많은 것이 있고,당신이 작정된 견본에 관하여 알고 있거나 모르는 무슨에 달려 있습니다. 이 방법 내에서 테스트되지 않은 새로운 데이터 변수를 분석할 때 특정 가정에 의존해야 합니다. 그렇게하면 완전히 부정확 한 가정이 발생할 수 있습니다. 이 통계 분석 방법 중에 이 오류가 발생하면 나머지 데이터 분석에 부정적인 영향을 줄 수 있습니다.
이러한 오류를 샘플링 오류라고 하며 신뢰 구간으로 측정됩니다. 예를 들어,결과가 90%신뢰 수준에 있다고 말하면 동일한 분석을 반복해서 수행한다면 결과가 동일한 시간의 90%를 의미합니다.

광기에 대한 방법

아무리 당신이 선택하는 통계 분석의 방법,각각의 잠재적 인 단점의 특별한 메모뿐만 아니라,자신의 고유 한 공식을해야합니다.

물론,사용할 금 표준이나 옳고 그른 방법은 없습니다. 그것은 당신이 수집 한 데이터의 유형에 따라 달라집니다,뿐만 아니라 당신은 최종 결과로 가지고 찾고 통찰력 등.

데이터를 더욱 자세히 살펴볼 수 있는 올바른 도구를 찾고 싶으십니까? 심지어 가장 복잡한 분석을위한 최고의 통계 분석 소프트웨어의 우리의 검거를 확인하십시오.

통계 분석 소프트웨어에 대해 더 알고 싶으십니까? 통계 분석 제품을 탐색하십시오.